O que é ETL e como desenhar o teu primeiro pipeline de dados
ETL significa Extract, Transform, Load — o processo que move dados de várias fontes para um destino analítico. Perceber os três passos é a base para construir qualquer pipeline de dados.
Pré-requisitos
- Noções de SQL e de onde vivem os teus dados (ficheiros, bases de dados, APIs).
- Um destino para os dados (data warehouse ou base de dados analítica).
- Uma ferramenta de ETL ou uma linguagem como Python.
Passo 1: Extract (extrair)
Lê os dados da fonte tal como estão, sem os alterar. Pode ser um ficheiro, uma tabela ou uma API:

SELECT id, cliente, valor, data
FROM origem.vendas
WHERE data >= '2023-01-01';
Passo 2: Transform (transformar)
Limpa e adapta os dados às regras do destino: corrigir tipos, remover duplicados, normalizar texto, calcular colunas. É aqui que mora a maior parte do trabalho.
Passo 3: Load (carregar)
Escreve os dados transformados no destino, normalmente em modo incremental (só o que é novo):
INSERT INTO dw.fact_vendas (cliente_key, valor, data_key)
SELECT cliente_key, valor, data_key
FROM staging.vendas_limpo;
Passo 4: Orquestrar e agendar
Um pipeline corre repetidamente. Agenda-o (diário, horário) e regista cada execução para saberes se correu bem.
Verificar o resultado
Compara a contagem de linhas na fonte e no destino e confirma alguns valores manualmente. Os totais devem bater certo.
Conclusão
Extract, Transform, Load é um padrão simples mas poderoso. Depois de dominares o fluxo básico, o próximo passo é torná-lo incremental e monitorizado. Que fonte de dados vais integrar primeiro?