(+351) 21 24 10006  ·  info@bconcepts.pt
Carnaxide, Lisboa
ETL

O que é ETL e como desenhar o teu primeiro pipeline de dados

João Barros 11 de July de 2023 2 min de leitura

ETL significa Extract, Transform, Load — o processo que move dados de várias fontes para um destino analítico. Perceber os três passos é a base para construir qualquer pipeline de dados.

Pré-requisitos

  • Noções de SQL e de onde vivem os teus dados (ficheiros, bases de dados, APIs).
  • Um destino para os dados (data warehouse ou base de dados analítica).
  • Uma ferramenta de ETL ou uma linguagem como Python.

Passo 1: Extract (extrair)

Lê os dados da fonte tal como estão, sem os alterar. Pode ser um ficheiro, uma tabela ou uma API:

O que é ETL e como desenhar o teu primeiro pipeline de dados
SELECT id, cliente, valor, data
FROM origem.vendas
WHERE data >= '2023-01-01';

Passo 2: Transform (transformar)

Limpa e adapta os dados às regras do destino: corrigir tipos, remover duplicados, normalizar texto, calcular colunas. É aqui que mora a maior parte do trabalho.

Passo 3: Load (carregar)

Escreve os dados transformados no destino, normalmente em modo incremental (só o que é novo):

INSERT INTO dw.fact_vendas (cliente_key, valor, data_key)
SELECT cliente_key, valor, data_key
FROM staging.vendas_limpo;

Passo 4: Orquestrar e agendar

Um pipeline corre repetidamente. Agenda-o (diário, horário) e regista cada execução para saberes se correu bem.

Verificar o resultado

Compara a contagem de linhas na fonte e no destino e confirma alguns valores manualmente. Os totais devem bater certo.

Conclusão

Extract, Transform, Load é um padrão simples mas poderoso. Depois de dominares o fluxo básico, o próximo passo é torná-lo incremental e monitorizado. Que fonte de dados vais integrar primeiro?

Partilhar: