Vamos extrair as informações dos arquivos de texto que contém as informações do CICarne e coloca-lás em um data warehouse, o processo chamado de ETL (Extract, Transform, Load), para isso vamos configurar uma conexão com o banco de dados no ambiente Pentaho Data Integration (PDI). Para iniciar a configuração do banco de dados:
-
Execute, opt\data-integration\spoon.bat no windows ou opt\data-integration\spoon.sh no linux ou mac, para iniciar o ambiente PDI.
-
No ambiente PDI, temos que configurar a conexão com o banco de dados que criamos em Primeiros Passos.
-
No canto superior direito do ambiente PDI vamos clicar em Connect.
- Na tela da imagem abaixo vamos escolher a opção Other Repositories.
- Selecione a opção File Repository.
- Nessa tela abaixo, em display name, coloque o nome da conexão que no caso do CICarne é dw_cicarne. Em location selecione a pasta onde estão os arquivos etls do projeto /vagrant_data/etl, a pasta está na raiz da máquina virtual.
- A conexão foi criada com sucesso, agora basta clicar em Connect Now para conectar.
Com a conexão estabelecida, vamos executar o ETL do CICarne. Para realizar esse processo:
- Abra o job de load do data warehouse. Na tela principal do ambiente PDI, em File, Open.., selecione o caminho do arquivo etl_sources/load/job_load_dw_cicarne.kjb.
- Após abrir o job principal, basta executá-lo. Após a execução o processo de ETL foi executado e seus dados foram extraídos e carregados no banco de dados.