Puseste um assistente de IA a responder aos teus clientes ou à tua equipa. Nos primeiros testes pareceu brilhante — respostas fluentes, rápidas, convincentes. E é precisamente aí que mora o perigo. Um modelo de linguagem é extraordinariamente bom a soar convincente, mesmo quando está errado. A fluência não é sinal de correção. A pergunta que separa um projeto de IA sério de uma bomba-relógio é simples de fazer e difícil de responder: como sabes que o teu assistente está a acertar?
A maioria das empresas lança um assistente de IA e mede o sucesso pela sensação: "parece que funciona bem". Mas a sensação engana, sobretudo quando as respostas são raras vezes verificadas contra a verdade. Avaliar respostas de IA de forma disciplinada não é um luxo de quem tem tempo a mais — é a diferença entre um sistema em que se pode confiar e um que, mais cedo ou mais tarde, vai dar uma resposta errada com toda a confiança, no pior momento possível.
Porque a fluência engana
Um modelo de linguagem gera texto plausível prevendo, palavra a palavra, o que soa bem a seguir. Não consulta uma base de factos nem verifica o que diz — produz a continuação mais provável. Quando essa continuação coincide com a verdade, temos uma resposta correta; quando não coincide, temos uma "alucinação" que parece tão segura como qualquer outra resposta. O problema é que, do lado de fora, as duas são indistinguíveis: o tom de confiança é o mesmo.

É por isso que a intuição humana falha a avaliar IA. Estamos habituados a associar fluência e segurança a competência — quem responde bem e depressa costuma saber do que fala. Com um modelo de linguagem, essa associação quebra-se: ele responde sempre bem e depressa, saiba ou não saiba. Confiar na sensação é confiar exatamente no sinal que o modelo produz mesmo quando está errado.
O primeiro passo: um conjunto de perguntas com respostas conhecidas
Não se avalia o que não se mede, e não se mede sem uma referência. O ponto de partida de qualquer avaliação séria é construir um conjunto de perguntas representativas — as que os utilizadores reais fazem — para as quais já sabes a resposta certa. É o teu "exame" ao assistente. Sem este conjunto, qualquer juízo sobre a qualidade é impressão; com ele, passas a ter uma nota objetiva que podes acompanhar ao longo do tempo.
Construir este conjunto obriga a um exercício valioso por si só: definir o que é uma resposta "certa" para cada tipo de pergunta. Muitas vezes descobre-se que nem os humanos concordam — e essa descoberta é ouro, porque revela ambiguidades que teriam de ser resolvidas de qualquer forma. O conjunto de avaliação não é só uma ferramenta de teste; é uma forma de clarificar o que esperas do sistema.
As dimensões que interessa avaliar
- Correção: a resposta está factualmente certa? É a dimensão mais óbvia e mais crítica.
- Fundamentação: a resposta baseia-se nos documentos certos, ou o modelo inventou? Uma resposta certa por sorte é frágil.
- Completude: respondeu ao que foi perguntado, ou só a parte?
- Segurança: recusou-se a responder ao que não devia, e admitiu quando não sabia em vez de inventar?
O sinal mais valioso: saber dizer "não sei"
Um assistente que responde sempre é mais perigoso do que um que às vezes admite ignorância. A capacidade de reconhecer os limites — "não tenho informação sobre isso" em vez de inventar uma resposta plausível — é um dos indicadores mais importantes de um sistema de confiança. Ao avaliar, vale a pena incluir deliberadamente perguntas para as quais o assistente não deveria ter resposta, e verificar se ele tem a humildade de o dizer em vez de encher o vazio com ficção convincente.
Esta propriedade não acontece por acaso — desenha-se. Instruir o modelo a admitir incerteza, dar-lhe acesso apenas à informação relevante (com técnicas como o RAG) e penalizar as invenções na avaliação empurra o sistema para a honestidade. Um assistente que diz "não sei" nos 5% de casos em que não sabe é infinitamente mais útil do que um que inventa nesses 5% e mina a confiança nos outros 95%.
Avaliação contínua, não um teste único
O erro clássico é avaliar uma vez, no lançamento, e nunca mais. Mas o mundo muda: os documentos que alimentam o assistente atualizam-se, as perguntas dos utilizadores evoluem, o próprio modelo pode ser atualizado pelo fornecedor. Uma qualidade que era boa há três meses pode ter degradado sem ninguém reparar. A avaliação tem de ser um hábito contínuo — correr o "exame" com regularidade e acompanhar a nota, para apanhar as regressões antes que os utilizadores as apanhem por ti.
Um caso concreto
Uma empresa lançou um assistente interno que respondia a perguntas dos colaboradores sobre procedimentos. Nas primeiras semanas, o feedback informal era ótimo — "responde a tudo, é incrível". Mas quando finalmente construíram um conjunto de cinquenta perguntas com respostas verificadas e correram a avaliação, a realidade era outra: o assistente acertava em cerca de 70% dos casos, mas nos restantes 30% dava respostas erradas com a mesma segurança das certas. Pior: várias das respostas erradas eram sobre políticas sensíveis, onde um erro tinha consequências reais. A sensação de "responde a tudo" tinha escondido um problema sério. Com o conjunto de avaliação em mãos, identificaram que a maioria dos erros vinha de documentos desatualizados que ainda circulavam. Limparam a fonte, ajustaram as instruções para o modelo admitir incerteza, e a taxa de acerto subiu para mais de 90% — com os erros restantes a serem, na maioria, "não sei" honestos em vez de invenções. A avaliação não só mediu o problema como apontou a solução.
Na prática
Antes de confiar num assistente de IA para algo que importa, faz-lhe um exame a sério: reúne perguntas reais com respostas conhecidas, corre-as, e mede quantas acerta — e, sobretudo, o que faz quando não sabe. A fluência vai continuar a impressionar; a avaliação é o que te diz se essa fluência assenta em verdade. O teu assistente de IA está a ser avaliado contra a realidade, ou estás a confiar na sensação de que "parece que funciona"?