Compartilhando conhecimento em IA – IA que fala bonito, mas mente mais que político
Saudações, pessoal!
Por muito tempo achamos que “alucinação” na I.A. era um problema inesperado, quase um bug monumental. Mas pesquisas recentes deixam claro: os modelos alucinam porque o próprio processo de treino e avaliação recompensa o chute em vez da abstenção. É como se a prova só aceitasse qualquer resposta e punisse quem ousa dizer simplesmente “não sei”.
Os benchmarks mais usados hoje como o MMLU (Hendrycks et al., 2020) e o GPQA (Rein et al., 2023) avaliam tudo em escala binária: acertou vale 1, errou vale 0. O “não sei” não entra na conta. Esse desenho leva os modelos a aprender que arriscar é sempre melhor que admitir incerteza. O SimpleQA (Mündler et al., 2024) mostrou o resultado desse vício: um modelo com ranking mais baixo em “accuracy” teve três vezes menos erros factuais justamente porque se absteve em vez de inventar.
Essa lógica lembra o contraste entre duas pessoas: uma que fala sobre tudo com confiança absoluta, mesmo quando está errada, e outra que admite “não sei” quando não tem certeza. A primeira pode impressionar de imediato, mas permanece no erro; a segunda abre espaço para aprender e evoluir. Máquinas seguem o mesmo caminho. Estudos em calibração de modelos mostram que sistemas capazes de se abster erram menos e ainda criam condições para aprender onde precisam de novos dados. Em resumo: ensinar um chatbot a assumir dúvida não é sinal de fraqueza, é abrir caminho para mais acertos.
Os números reforçam a gravidade do quadro. Em datasets públicos, a taxa de alucinação factual varia de 59% a 82% (Ji et al., 2023). Técnicas como o RAG ajudam, mas a redução costuma ficar entre 15% e 30%, e só se a fonte recuperada for confiável (Lewis et al., 2020). Do contrário, o modelo apenas disfarça invenções em citações polidas, a famosa “alucinação com bibliografia”.
Ainda assim, já existem caminhos práticos para atacar o problema. Decodificação mais controlada, como reduzir a temperatura, corta alguns pontos percentuais de erro. Cadeias de verificação obrigam o modelo a revisar suas respostas em etapas, o que elimina deslizes óbvios. Arquiteturas híbridas de busca e rechecagem, como RAG com filtros adicionais, aumentam a qualidade desde que a base seja confiável. E, acima de tudo, permitir o “não sei” como saída válida e acompanhar a frequência dessa abstenção.
A reflexão é dura: enquanto tratarmos silêncio como falha, vamos continuar treinando máquinas para falar qualquer coisa mesmo quando não fazem ideia do que estão dizendo. É o mesmo raciocínio torto que valoriza a verborragia em reuniões: quem fala mais “parece” inteligente, ainda que esteja errado. Pesquisas mostram que abrir espaço para a abstenção melhora não só a precisão, mas também a calibragem da confiança. Precisamos parar de confundir barulho com conhecimento. O futuro da I.A. não é resposta para tudo: é a coragem de assumir que “não sei” é maturidade, não fraqueza.
Dica prática: configure sua aplicação para só responder quando o nível de certeza ultrapassar um patamar definido, por exemplo, 80%. Abaixo disso, a saída deve ser “não sei”. Depois, acompanhe a redução nos erros e avalie se a troca compensa.
Fontes
- Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding (MMLU).
Disponível em: https://arxiv.org/abs/2009.03300 - Rein, D. et al. (2023). GPQA: A Graduate-Level Google-Proof Q&A Benchmark.
Disponível em: https://arxiv.org/abs/2311.12022 - Mündler, N. et al. (2024). SimpleQA: Unmasking the Pitfalls of Benchmarking LLMs with Binary Metrics.
Disponível em: https://arxiv.org/abs/2402.06377 - Ji, Z. et al. (2023). Survey of Hallucination in Natural Language Generation.
Disponível em: https://arxiv.org/abs/2309.00267 - Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (RAG).
Disponível em: https://arxiv.org/abs/2005.11401 - Kalai, A.; Vempala, S. (2025). Hallucinations as Classification Errors in Language Models.
Disponível em: https://arxiv.org/html/2509.04664v1 - OpenAI (2025).Why Language Models Hallucinate.
- Disponível em: https://openai.com/index/why-language-models-hallucinate/
About author
Você pode gostar também
Curso gratuito de Linux e prova preparatória para certificação na 4Linux
A 4Linux informou que o curso Linux Beginners in Cloud Online (4449) será disponibilizado gratuitamente a todos os interessados, o curso é preparatório para a prova de certificação Linux Essentials.
Investir na Qualificação dos Colaboradores: A Chave para a Competitividade Empresarial
A sobrevivência de uma empresa pode estar ligada com diversos fatores e algumas medidas internas podem fazer grande diferença, como apostar na qualificação dos colaboradores. Afinal, estão diretamente ligados com
A IA revolucionando desenvolvimento e operações de Tecnologia: Descubra as tendências!
A Inteligência Artificial (IA) está transformando a maneira como gerenciamos e operamos ambientes de tecnologia e a cultura DevOps com seus clusters Kubernetes e Containers. Nesta edição da nossa newsletter,








