Vamos extrair as informações dos arquivos de texto que contém as informações do CICarne e coloca-lás em um data warehouse, o processo chamado de ETL (Extract, Transform, Load), para isso vamos configurar uma conexão com o banco de dados no ambiente Pentaho Data Integration (PDI). Para iniciar a configuração do banco de dados:

  • Execute, opt\data-integration\spoon.bat no windows ou opt\data-integration\spoon.sh no linux ou mac, para iniciar o ambiente PDI.

  • No ambiente PDI, temos que configurar a conexão com o banco de dados que criamos em Primeiros Passos.

  • No canto superior direito do ambiente PDI vamos clicar em Connect.

Tela do PDI

  • Na tela da imagem abaixo vamos escolher a opção Other Repositories.

Repository Connection

  • Selecione a opção File Repository.

Repository Manager

  • Nessa tela abaixo, em display name, coloque o nome da conexão que no caso do CICarne é dw_cicarne. Em location selecione a pasta onde estão os arquivos etls do projeto /vagrant_data/etl, a pasta está na raiz da máquina virtual.

Repository New Connection

  • A conexão foi criada com sucesso, agora basta clicar em Connect Now para conectar.

Succes Connection

Com a conexão estabelecida, vamos executar o ETL do CICarne. Para realizar esse processo:

  • Abra o job de load do data warehouse. Na tela principal do ambiente PDI, em File, Open.., selecione o caminho do arquivo etl_sources/load/job_load_dw_cicarne.kjb.
  • Após abrir o job principal, basta executá-lo. Após a execução o processo de ETL foi executado e seus dados foram extraídos e carregados no banco de dados.