Como avaliar um sistema de IA generativa na prática

Um demonstrador de IA generativa impressiona em minutos. Escreve-se um prompt, a resposta parece boa, e a sala assente. O problema começa quando esse mesmo sistema passa a responder a milhares de perguntas reais, de utilizadores reais, sobre casos que ninguém testou. É aí que a pergunta muda de "parece bom?" para "como sei que é bom, de forma consistente e mensurável?".

Avaliar um sistema de IA generativa é diferente de avaliar software tradicional. Não há um resultado "certo" único: a mesma pergunta admite várias respostas aceitáveis e muitas respostas erradas com ar convincente. Além disso, o comportamento muda quando se altera o prompt, a base de conhecimento ou a versão do modelo. Sem um processo de avaliação, cada alteração é um salto no escuro.

Este artigo propõe uma forma prática de avaliar estes sistemas — do primeiro protótipo à produção — sem cair no exagero das métricas académicas nem na ingenuidade de confiar na primeira demonstração. A ideia central é simples: definir o que é sucesso, medir de forma repetível e olhar para qualidade, custo e risco em conjunto.

O que significa "avaliar" um sistema de IA generativa

Avaliar não é dar uma nota subjetiva a uma resposta isolada. É medir, de forma repetível, se o sistema cumpre o objetivo para que foi construído, ao longo de muitos casos representativos. Um assistente de apoio ao cliente, um gerador de resumos e um copiloto de código têm objetivos distintos e, por isso, critérios de avaliação distintos.

Como avaliar um sistema de IA generativa na prática

Convém separar três camadas que muitas vezes se confundem. A primeira é o modelo em si, por exemplo um LLM. A segunda é o sistema à volta dele: prompts, recuperação de contexto por RAG, regras, filtros e ferramentas. A terceira é a experiência do utilizador final. Uma resposta pode estar tecnicamente correta e, ainda assim, falhar por ser demasiado longa, chegar tarde ou não citar a fonte. Avaliar bem obriga a olhar para as três.

Definir a tarefa e os critérios de sucesso antes das métricas

O erro mais comum é escolher métricas antes de definir o que se quer. A ordem certa é a inversa: primeiro descreve-se a tarefa com precisão, depois o que conta como resposta boa, e só no fim se escolhe como medir.

Vale a pena escrever, em linguagem simples, três coisas: o que o sistema deve fazer, o que nunca deve fazer, e o que é uma resposta suficientemente boa. Num assistente interno de recursos humanos, por exemplo, uma resposta boa cita a política correta, não inventa valores e encaminha para uma pessoa quando o caso é sensível. Estes critérios tornam-se depois a base dos testes.

Construir um conjunto de avaliação representativo

Não se avalia um sistema com três perguntas escolhidas a dedo. Precisa-se de um conjunto de casos — por vezes chamado golden set — que represente o uso real: perguntas frequentes, casos difíceis, pedidos ambíguos e situações que o sistema deve recusar. Cinquenta a duzentos casos bem escolhidos valem mais do que milhares gerados ao acaso.

Alguns princípios ajudam a montar este conjunto:

Cobertura: incluir os temas e intenções mais comuns, mas também os raros e arriscados.
Casos negativos: perguntas fora do âmbito, para verificar se o sistema recusa ou encaminha em vez de inventar.
Respostas de referência: sempre que possível, uma resposta ideal ou os factos que a resposta tem de conter.
Atualização: rever o conjunto quando surgem novos tipos de pergunta em produção.

Métricas que fazem sentido: qualidade, fidelidade e segurança

Não existe uma métrica única. Convém combinar algumas, consoante a tarefa. Para tarefas com resposta bem definida — classificar, extrair, responder a factos — medem-se coisas como exatidão, cobertura e precisão. Para texto livre, as métricas automáticas de sobreposição de palavras dizem pouco sobre a qualidade real; é preciso avaliar fidelidade ao contexto, relevância e clareza.

Três dimensões costumam ser decisivas: a qualidade (a resposta é correta, completa e útil?), a fidelidade (a resposta apoia-se nas fontes fornecidas ou inventa?) e a segurança (a resposta evita conteúdo perigoso, fugas de dados e tom inadequado?). Medir só a primeira e ignorar as outras duas é como validar um carro pela velocidade, sem olhar para os travões.

Avaliação automática, humana e o modelo como juiz

Há três formas de pontuar respostas, e o bom senso está em combiná-las. A avaliação humana é a mais fiável para nuances, mas é lenta e cara. A avaliação automática por regras funciona quando há uma resposta verificável: um número, um código, um facto. E há a abordagem de usar um modelo para avaliar outro, o chamado LLM as a judge.

Usar um LLM como juiz é atraente porque é rápido e barato, mas exige cuidado. O juiz pode ter os mesmos enviesamentos do modelo avaliado, favorecer respostas longas ou ser sensível à ordem das opções. A prática saudável é calibrar o juiz contra um conjunto avaliado por pessoas e usá-lo para triagem, não como veredicto final em decisões críticas.

Alucinações e fidelidade à fonte

A alucinação — quando o modelo afirma algo falso com confiança — é o risco que mais mina a confiança dos utilizadores. Em sistemas com RAG, a pergunta-chave não é apenas "a resposta está certa?", mas "a resposta está apoiada nos documentos recuperados?". Uma resposta certa por acaso, sem suporte nas fontes, é um problema à espera de acontecer.

Para medir isto, verifica-se se cada afirmação relevante da resposta se encontra no contexto fornecido. Pode fazer-se com revisão humana em amostras e com verificações automáticas que comparam a resposta às fontes. Quando a taxa de afirmações não suportadas sobe, o problema costuma estar na recuperação — documentos errados ou insuficientes — e não no modelo.

Custo, latência e robustez: avaliar para além da qualidade

Um sistema excelente que custa demasiado ou demora demasiado não chega a produção. A avaliação séria mede também o custo por resposta (número de tokens e chamadas), a latência (tempo até à primeira palavra e tempo total) e a robustez (o que acontece com perguntas mal escritas, muito longas ou em várias línguas).

Vale ainda testar a estabilidade: a mesma pergunta feita várias vezes deve dar respostas coerentes. Variação enorme entre execuções é sinal de que o sistema é frágil e difícil de controlar. Estas medidas não são detalhes técnicos; são o que separa um protótipo de um produto.

Erros comuns ao avaliar IA generativa

Alguns padrões repetem-se em muitas equipas. O primeiro é avaliar só com exemplos fáceis e concluir que funciona sempre. O segundo é confiar numa métrica automática de texto como se fosse verdade absoluta. O terceiro é testar uma vez, aprovar e nunca mais medir — quando basta uma mudança de versão do modelo para tudo mudar.

Há ainda o erro de misturar o conjunto de avaliação com os exemplos usados para afinar prompts: se o sistema estudou para o teste, os resultados enganam. E, por fim, o erro de olhar só para a média e ignorar os piores casos — muitas vezes é uma resposta má, num momento sensível, que destrói a confiança de um cliente.

Mini-caso: um assistente interno numa empresa de serviços

Uma empresa de serviços financeiros construiu um assistente para responder a perguntas de colaboradores sobre políticas internas, com RAG sobre os seus documentos. Na demonstração, tudo parecia perfeito. Antes de abrir a toda a empresa, a equipa preparou um conjunto de 120 perguntas reais, com respostas de referência aprovadas pela área de conformidade.

A primeira avaliação foi reveladora: 82% das respostas estavam corretas, mas 15% continham afirmações não suportadas pelos documentos, e o tempo médio de resposta era de nove segundos. Ao investigar, a equipa percebeu que o problema estava na recuperação, que trazia documentos desatualizados. Melhorou a indexação e acrescentou uma instrução para o sistema recusar quando não encontrasse base. Numa segunda ronda, as afirmações não suportadas caíram para 4% e a latência para quatro segundos. Só então avançou — e manteve a avaliação a correr semanalmente para detetar regressões.

Na prática

Avaliar um sistema de IA generativa não é um exame único, é um hábito. Começa por definir o que é sucesso, monta um conjunto de casos representativo, mede qualidade, fidelidade e segurança em conjunto e não te esqueças do custo e da latência. Usa avaliação humana onde importa e automatiza o resto para poder repetir a medição a cada mudança.

A recompensa é dupla: menos surpresas desagradáveis em produção e uma base objetiva para decidir. Em IA generativa, a diferença entre um brinquedo impressionante e um produto de confiança não está no modelo — está na disciplina com que o avaliamos.