Lakehouse vs. Warehouse en Microsoft Fabric: cuándo usar cada uno
Microsoft Fabric ofrece dos artefactos de almacenamiento analítico: el Lakehouse y el Warehouse. La elección correcta depende de los datos, los equipos y los requisitos de rendimiento.
Lakehouse
El Lakehouse combina la flexibilidad de un data lake con capacidades analíticas SQL. Los datos se almacenan en Delta Parquet en OneLake y se exponen a través de dos endpoints:
- SQL Analytics Endpoint — permite consultas SQL de solo lectura sobre las tablas Delta.
- Spark — procesamiento completo de lectura/escritura con notebooks PySpark o Spark SQL.
Ideal para: ingesta de datos a gran escala, transformaciones complejas con Spark, datos semiestructurados (JSON, CSV, Parquet).
Warehouse
El Warehouse es un almacén relacional totalmente gestionado, con soporte completo de T-SQL (DDL + DML). Los datos también se almacenan en OneLake en Delta Parquet, pero la gestión se hace mediante SQL.
-- Crear una tabla en el Warehouse
CREATE TABLE dbo.FactSales (
SalesKey INT NOT NULL,
DateKey INT NOT NULL,
ProductKey INT NOT NULL,
Revenue DECIMAL(18,2) NOT NULL
)
WITH (CLUSTERED COLUMNSTORE INDEX, DISTRIBUTION = HASH(SalesKey))
Ideal para: equipos de BI con fuerte base SQL, datos estructurados, informes críticos de negocio con SLAs de rendimiento.
Combinación típica
Lakehouse Bronze → ingesta raw
Lakehouse Silver → transformaciones Spark
Warehouse Gold → consultas SQL analíticas + Power BI
Conclusión
No es una decisión excluyente — la mayoría de las arquitecturas maduras usan ambos en capas diferentes. El Lakehouse para transformaciones flexibles, el Warehouse para servir a consumidores SQL e informes de negocio.