Python Brasil 2022

FastETL, um pacote ETL para Airflow simples e prático
2022-10-19 , OCEAN LAB 1

O FastETL é o canivete suiço para o time de Engenharia de Dados. Possui métodos como o copy_db_to_db, simples assim, você informa as conexões de bancos de dados e o método faz a cópia para você.


O FastETL é um pacote de plugins do Airflow para construção de pipelines de dados para uma variedade de cenários comuns.

Principais funcionalidades:
* Replicação de tabelas por meio de cópia full ou incremental em bancos de dados SQL Server, Postgresql e MySQL
* Carga de dados a partir do GSheets
* Carga de arquivos na rede Samba/Windows
* Extração de CSV a partir do SQL Server
* Consulta à API do DOU
Este framework é mantido por uma rede de desenvolvedores de diversas equipes do Ministério da Economia e é o resultado acumulado da utilização do Airflow, uma ferramenta de código aberto, desde 2019.

Pré-requisitos

  1. ter o Linux ou Windows WSL instalado
  2. Ter o Docker instalado e executando.

Tabela de Conteúdo

  1. Sobre nosso time (5min)
  2. Apache Airflow - explicação e instalação da imagem Airflow Docker(30min).
  3. Conexão com BD origem (15 min)
  4. Conexão com BD destino (15 min)
  5. Exemplos cópias (55min)

Lucas Benevides Dias atualmente está Coordenador do Time de Engenharia de Dados do Ministério da Economia. É bacharel, especialista e mestre em Ciência da Computação, com ênfase em Banco de Dados.

Sou Analista de TI atualmente trabalhando no time de Dados no Ministério da Economia. Experiência com programação WEB, Administração de Banco de Dados e Engenharia de Dados.