O que é ETL e como desenhar o teu primeiro pipeline de dados

João Barros 11 de July de 2023 2 min de leitura

ETL significa Extract, Transform, Load — o processo que move dados de várias fontes para um destino analítico. Perceber os três passos é a base para construir qualquer pipeline de dados.

Pré-requisitos

Noções de SQL e de onde vivem os teus dados (ficheiros, bases de dados, APIs).
Um destino para os dados (data warehouse ou base de dados analítica).
Uma ferramenta de ETL ou uma linguagem como Python.

Passo 1: Extract (extrair)

Lê os dados da fonte tal como estão, sem os alterar. Pode ser um ficheiro, uma tabela ou uma API:

SELECT id, cliente, valor, data
FROM origem.vendas
WHERE data >= '2023-01-01';

Passo 2: Transform (transformar)

Limpa e adapta os dados às regras do destino: corrigir tipos, remover duplicados, normalizar texto, calcular colunas. É aqui que mora a maior parte do trabalho.

Passo 3: Load (carregar)

Escreve os dados transformados no destino, normalmente em modo incremental (só o que é novo):

INSERT INTO dw.fact_vendas (cliente_key, valor, data_key)
SELECT cliente_key, valor, data_key
FROM staging.vendas_limpo;

Passo 4: Orquestrar e agendar

Um pipeline corre repetidamente. Agenda-o (diário, horário) e regista cada execução para saberes se correu bem.

Verificar o resultado

Compara a contagem de linhas na fonte e no destino e confirma alguns valores manualmente. Os totais devem bater certo.

Conclusão

Extract, Transform, Load é um padrão simples mas poderoso. Depois de dominares o fluxo básico, o próximo passo é torná-lo incremental e monitorizado. Que fonte de dados vais integrar primeiro?