Qué es ETL y cómo diseñar tu primer pipeline de datos

João Barros 11 de July de 2023 2 min de lectura

ETL significa Extract, Transform, Load — el proceso que mueve datos de varias fuentes a un destino analítico. Entender los tres pasos es la base para construir cualquier pipeline de datos.

Requisitos previos

Nociones de SQL y de dónde viven tus datos (archivos, bases de datos, APIs).
Un destino para los datos (un data warehouse o base de datos analítica).
Una herramienta de ETL o un lenguaje como Python.

Paso 1: Extract (extraer)

Lee los datos de la fuente tal como están, sin modificarlos. Puede ser un archivo, una tabla o una API:

SELECT id, cliente, valor, data
FROM origem.vendas
WHERE data >= '2023-01-01';

Paso 2: Transform (transformar)

Limpia y adapta los datos a las reglas del destino: corregir tipos, eliminar duplicados, normalizar texto, calcular columnas. Aquí está la mayor parte del trabajo.

Paso 3: Load (cargar)

Escribe los datos transformados en el destino, normalmente de forma incremental (solo lo nuevo):

INSERT INTO dw.fact_vendas (cliente_key, valor, data_key)
SELECT cliente_key, valor, data_key
FROM staging.vendas_limpo;

Paso 4: Orquestar y programar

Un pipeline se ejecuta repetidamente. Prográmalo (diario, horario) y registra cada ejecución para saber si funcionó.

Verificar el resultado

Compara el recuento de filas en la fuente y el destino y comprueba algunos valores a mano. Los totales deben coincidir.

Conclusión

Extract, Transform, Load es un patrón simple pero potente. Una vez que domines el flujo básico, el siguiente paso es hacerlo incremental y monitorizado. ¿Qué fuente de datos vas a integrar primero?