Lakehouse vs. Warehouse no Microsoft Fabric: quando usar cada um
O Microsoft Fabric oferece dois artefactos de armazenamento analítico: o Lakehouse e o Warehouse. A escolha correcta depende dos dados, das equipas e dos requisitos de performance.
Lakehouse
O Lakehouse combina a flexibilidade de um data lake com capacidades analíticas SQL. Os dados ficam em Delta Parquet no OneLake e são expostos através de dois endpoints:
- SQL Analytics Endpoint — permite queries SQL read-only sobre as tabelas Delta.
- Spark — processamento full read/write com notebooks PySpark ou Spark SQL.
Ideal para: ingestão de dados em larga escala, transformações complexas com Spark, dados semi-estruturados (JSON, CSV, Parquet).
Warehouse
O Warehouse é um armazém relacional totalmente gerido, com suporte completo de T-SQL (DDL + DML). Os dados também ficam no OneLake em Delta Parquet, mas a gestão é feita através de SQL.
-- Criar tabela no Warehouse
CREATE TABLE dbo.FactVendas (
VendaKey INT NOT NULL,
DataKey INT NOT NULL,
ProdutoKey INT NOT NULL,
Receita DECIMAL(18,2) NOT NULL
)
WITH (CLUSTERED COLUMNSTORE INDEX, DISTRIBUTION = HASH(VendaKey))
Ideal para: equipas de BI com forte background SQL, dados estruturados, relatórios críticos de negócio com SLAs de performance.
Combinação típica
Lakehouse Bronze → ingestão raw
Lakehouse Silver → transformações Spark
Warehouse Gold → queries SQL analíticas + Power BI
Conclusão
Não é uma decisão exclusiva — a maioria das arquitecturas maduras usa ambos em camadas diferentes. O Lakehouse para transformações flexíveis, o Warehouse para servir consumidores SQL e relatórios de negócio.