(+351) 21 24 10006  ·  info@bconcepts.pt
Carnaxide, Lisboa
Lakehouse

Qué es un Lakehouse y cómo combina data lake y warehouse

João Barros 17 de October de 2023 2 min de lectura

El término Lakehouse describe una arquitectura que une la flexibilidad de un data lake con la fiabilidad de un data warehouse. En lugar de elegir entre los dos, obtienes los beneficios de ambos en un solo lugar.

Requisitos previos

  • Nociones de data lake (archivos en almacenamiento) y de data warehouse (tablas SQL).
  • Familiaridad con formatos de archivo como Parquet.
  • Una plataforma con tablas Delta (Databricks, Microsoft Fabric o Spark con Delta Lake).

Paso 1: Entender el problema que resuelve

Un data lake guarda todo de forma barata, pero sin garantías (sin transacciones, sin esquema fuerte). Un warehouse es fiable pero rígido y caro. El Lakehouse coloca una capa de tabla (Delta Lake) sobre los archivos para llevar transacciones y esquema al lake.

Qué es un Lakehouse y cómo combina data lake y warehouse

Paso 2: Guardar datos en formato de tabla

En lugar de un CSV suelto, escribe en Delta:

df.write.format("delta").save("/dados/vendas")

Paso 3: Consultar con SQL

SELECT categoria, SUM(valor) AS total
FROM delta.`/dados/vendas`
GROUP BY categoria;

Paso 4: Aprovechar transacciones e historial

Las tablas Delta soportan ACID y time travel — consultar una versión anterior de los datos:

SELECT categoria, valor
FROM delta.`/dados/vendas` VERSION AS OF 3;

Verificar el resultado

Describe el historial de la tabla y confirma que ves las versiones:

DESCRIBE HISTORY delta.`/dados/vendas`;

Conclusión

Con el Lakehouse ya no necesitas mover datos entre lake y warehouse — la misma capa sirve a ingeniería, análisis y BI. ¿Qué parte de tu arquitectura simplificarías con un Lakehouse?

Compartir: