O que é um Lakehouse e como combina data lake e warehouse
O termo Lakehouse descreve uma arquitetura que junta a flexibilidade de um data lake com a fiabilidade de um data warehouse. Em vez de escolher entre os dois, tens os benefícios de ambos num só sítio.
Pré-requisitos
- Noções de data lake (ficheiros em armazenamento) e de data warehouse (tabelas SQL).
- Familiaridade com formatos de ficheiro como Parquet.
- Uma plataforma com tabelas Delta (Databricks, Microsoft Fabric ou Spark com Delta Lake).
Passo 1: Perceber o problema que resolve
Um data lake guarda tudo de forma barata, mas sem garantias (sem transações, sem esquema forte). Um warehouse é fiável mas rígido e caro. O Lakehouse coloca uma camada de tabela (Delta Lake) por cima dos ficheiros para trazer transações e esquema ao lake.

Passo 2: Guardar dados em formato de tabela
Em vez de um CSV solto, escreve em Delta:
df.write.format("delta").save("/dados/vendas")
Passo 3: Consultar com SQL
SELECT categoria, SUM(valor) AS total
FROM delta.`/dados/vendas`
GROUP BY categoria;
Passo 4: Aproveitar transações e histórico
As tabelas Delta suportam ACID e time travel — consultar uma versão anterior dos dados:
SELECT categoria, valor
FROM delta.`/dados/vendas` VERSION AS OF 3;
Verificar o resultado
Descreve o histórico da tabela e confirma que vês as várias versões:
DESCRIBE HISTORY delta.`/dados/vendas`;
Conclusão
Com o Lakehouse deixa de ser preciso mover dados entre lake e warehouse — a mesma camada serve engenharia, análise e BI. Que parte da tua arquitetura simplificarias com um Lakehouse?