Qualidade de dados: validar antes que o erro se propague

Há um momento que mina a confiança numa organização inteira: quando alguém aponta para um número num dashboard e diz "isto está errado" — e tem razão. A partir daí, todos os relatórios ficam sob suspeita. E o mais frustrante é que, quase sempre, o erro não nasceu no relatório. Entrou muito antes, num pipeline que ninguém estava a vigiar. É por isso que a qualidade de dados não pode ser um pensamento tardio: tem de ser verificada de forma automática, em cada carga.

A regra é simples de enunciar e transformadora na prática: o erro deve ser apanhado pelo sistema, não descoberto pelo utilizador.

Porque um pipeline rápido não chega

É tentador otimizar os pipelines só para velocidade e volume. Mas de nada serve entregar dados depressa se esses dados estão errados — na verdade, é pior, porque um erro rápido propaga-se depressa. Um valor em falta, uma chave duplicada ou uma data absurda percorrem todo o sistema e acabam num relatório de administração, onde alguém toma uma decisão sobre eles. A velocidade sem qualidade não é eficiência: é risco acelerado.

Qualidade de dados: validar antes que o erro se propague

As verificações que compensam

Não é preciso um sistema complexo para ganhar 90% da fiabilidade. Um conjunto de verificações simples, corridas em cada carga, apanha a esmagadora maioria dos erros:

Completude: colunas obrigatórias não podem vir vazias. Um cliente sem identificador ou uma venda sem valor são bandeiras vermelhas.
Unicidade: as chaves não podem ter duplicados, ou os totais inflam silenciosamente.
Intervalos: os valores têm de fazer sentido — uma idade de 300 anos ou uma venda negativa devem ser travadas.
Integridade referencial: uma venda tem de apontar para um cliente e um produto que existem de facto.

A regra de ouro: parar, não publicar

A decisão mais importante não é que verificações fazer, mas o que fazer quando uma falha. A resposta certa é clara: quando uma verificação crítica falha, o pipeline deve parar e alertar — nunca publicar dados suspeitos em silêncio. É contraintuitivo (ninguém gosta de um pipeline que falha), mas um pipeline que para a tempo protege a confiança; um que publica lixo destrói-a. Falhar alto e cedo é sempre melhor do que corromper devagar e em segredo.

Na prática: o Excel que denuncia o problema

Imagine uma equipa financeira que, todos os meses, exportava o relatório para o Excel e "corrigia à mão" alguns números antes de o apresentar. Esse Excel paralelo era, na verdade, um sintoma: o pipeline entregava dados que ninguém confiava. Ao integrar validações automáticas na origem — completude, unicidade, intervalos — os erros passaram a ser apanhados na carga, com alerta, em vez de corrigidos manualmente no fim. O Excel paralelo desapareceu, não por ordem, mas porque deixou de ser preciso.

Qualidade como parte do pipeline, não como remendo

A grande mudança de mentalidade é deixar de ver a qualidade como uma tarefa separada e passar a vê-la como parte integrante do pipeline. Cada carga traz consigo as suas próprias garantias. Quando a validação está embutida, a confiança deixa de depender da sorte ou da vigilância humana, e passa a ser uma propriedade do sistema. E na sua organização: os erros de dados são apanhados pelo pipeline, ou descobertos por um gestor a olhar para um número que não bate certo?