Qué es ETL y cómo diseñar tu primer pipeline de datos
ETL significa Extract, Transform, Load — el proceso que mueve datos de varias fuentes a un destino analítico. Entender los tres pasos es la base para construir cualquier pipeline de datos.
Requisitos previos
- Nociones de SQL y de dónde viven tus datos (archivos, bases de datos, APIs).
- Un destino para los datos (un data warehouse o base de datos analítica).
- Una herramienta de ETL o un lenguaje como Python.
Paso 1: Extract (extraer)
Lee los datos de la fuente tal como están, sin modificarlos. Puede ser un archivo, una tabla o una API:

SELECT id, cliente, valor, data
FROM origem.vendas
WHERE data >= '2023-01-01';
Paso 2: Transform (transformar)
Limpia y adapta los datos a las reglas del destino: corregir tipos, eliminar duplicados, normalizar texto, calcular columnas. Aquí está la mayor parte del trabajo.
Paso 3: Load (cargar)
Escribe los datos transformados en el destino, normalmente de forma incremental (solo lo nuevo):
INSERT INTO dw.fact_vendas (cliente_key, valor, data_key)
SELECT cliente_key, valor, data_key
FROM staging.vendas_limpo;
Paso 4: Orquestar y programar
Un pipeline se ejecuta repetidamente. Prográmalo (diario, horario) y registra cada ejecución para saber si funcionó.
Verificar el resultado
Compara el recuento de filas en la fuente y el destino y comprueba algunos valores a mano. Los totales deben coincidir.
Conclusión
Extract, Transform, Load es un patrón simple pero potente. Una vez que domines el flujo básico, el siguiente paso es hacerlo incremental y monitorizado. ¿Qué fuente de datos vas a integrar primero?