O que é um Lakehouse e como combina data lake e warehouse

João Barros 17 de October de 2023 2 min de leitura

O termo Lakehouse descreve uma arquitetura que junta a flexibilidade de um data lake com a fiabilidade de um data warehouse. Em vez de escolher entre os dois, tens os benefícios de ambos num só sítio.

Pré-requisitos

Noções de data lake (ficheiros em armazenamento) e de data warehouse (tabelas SQL).
Familiaridade com formatos de ficheiro como Parquet.
Uma plataforma com tabelas Delta (Databricks, Microsoft Fabric ou Spark com Delta Lake).

Passo 1: Perceber o problema que resolve

Um data lake guarda tudo de forma barata, mas sem garantias (sem transações, sem esquema forte). Um warehouse é fiável mas rígido e caro. O Lakehouse coloca uma camada de tabela (Delta Lake) por cima dos ficheiros para trazer transações e esquema ao lake.

Passo 2: Guardar dados em formato de tabela

Em vez de um CSV solto, escreve em Delta:

df.write.format("delta").save("/dados/vendas")

Passo 3: Consultar com SQL

SELECT categoria, SUM(valor) AS total
FROM delta.`/dados/vendas`
GROUP BY categoria;

Passo 4: Aproveitar transações e histórico

As tabelas Delta suportam ACID e time travel — consultar uma versão anterior dos dados:

SELECT categoria, valor
FROM delta.`/dados/vendas` VERSION AS OF 3;

Verificar o resultado

Descreve o histórico da tabela e confirma que vês as várias versões:

DESCRIBE HISTORY delta.`/dados/vendas`;

Conclusão

Com o Lakehouse deixa de ser preciso mover dados entre lake e warehouse — a mesma camada serve engenharia, análise e BI. Que parte da tua arquitetura simplificarias com um Lakehouse?