Novo estudo revela que ferramentas de busca por IA são, em média, 60% imprecisas

Copia de Contra Capa 8 1

É um fato conhecido que modelos de IA podem carecer de precisão. Alucinações e a insistência em informações erradas têm sido um desafio contínuo para os desenvolvedores. O uso da IA varia tanto em diferentes casos que é difícil determinar percentuais quantificáveis relacionados à precisão. No entanto, uma equipe de pesquisa afirma ter encontrado esses números.

O Tow Center for Digital Journalism estudou recentemente oito mecanismos de busca por IA, incluindo ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search e Copilot. Eles testaram a precisão de cada ferramenta e registraram a frequência com que se recusavam a responder.

Os pesquisadores selecionaram aleatoriamente 200 artigos de 20 veículos de notícias (10 artigos de cada). Eles garantiram que cada reportagem aparecesse entre os três primeiros resultados em uma busca no Google ao usar um trecho do artigo entre aspas. Em seguida, realizaram a mesma consulta em cada ferramenta de busca por IA e avaliaram a precisão com base na citação correta de A) o artigo, B) o veículo de notícias e C) a URL.

Cada pesquisa foi classificada de acordo com graus de precisão, desde “completamente correto” até “completamente incorreto”. Como mostrado no gráfico abaixo, com exceção das duas versões do Perplexity, as IAs não tiveram um bom desempenho. No geral, os mecanismos de busca por IA são imprecisos em 60% das vezes. Além disso, esses resultados errados eram reforçados pela “confiança” da IA neles.

image 13

O estudo é fascinante porque confirma, de forma quantificável, algo que já sabemos há alguns anos – que os modelos de linguagem são “os maiores trapaceiros de todos os tempos”. Eles respondem com total autoridade, como se tudo o que dizem fosse verdade, mesmo quando não é, chegando até a criar outras informações falsas quando confrontados.

Em um artigo de 2023, Ted Gioia (The Honest Broker) destacou dezenas de respostas do ChatGPT, mostrando que o chatbot “mente” com confiança em diversas situações. Embora algumas perguntas fossem desafiadoras, muitas eram apenas questionamentos comuns.

“Se eu acreditasse na metade do que dizem sobre o ChatGPT, poderia deixar ele tomar conta do The Honest Broker enquanto eu fico na praia bebendo margaritas e procurando meu saleiro perdido”, brincou Gioia.

Mesmo quando admitia um erro, o ChatGPT seguia essa admissão com mais informações fabricadas. O modelo de linguagem parece programado para sempre dar uma resposta, independentemente do custo. Os dados dos pesquisadores confirmam essa hipótese, observando que o ChatGPT Search foi a única IA a responder todas as 200 consultas. No entanto, ele foi completamente preciso em apenas 28% dos casos e totalmente impreciso em 57%.

image 14

E o ChatGPT nem foi o pior. Ambas as versões da IA Grok, da X, tiveram um desempenho fraco, com o Grok-3 Search sendo 94% impreciso. O Copilot, da Microsoft, também não foi muito melhor, recusando-se a responder 104 das 200 consultas. Das 96 respostas fornecidas, apenas 16 foram “completamente corretas”, 14 foram “parcialmente corretas” e 66 foram “completamente incorretas”, resultando em uma taxa de erro de aproximadamente 70%.

O mais impressionante nisso tudo é que as empresas que desenvolvem essas ferramentas não são transparentes sobre essa falta de precisão, enquanto cobram do público entre US$ 20 e US$ 200 por mês para acessar seus modelos mais recentes. Além disso, o Perplexity Pro (US$ 20/mês) e o Grok-3 Search (US$ 40/mês) responderam corretamente um pouco mais de consultas do que suas versões gratuitas (Perplexity e Grok-2 Search), mas tiveram taxas de erro significativamente maiores.

No entanto, nem todos concordam. Lance Ulanoff, do TechRadar, afirmou que talvez nunca mais use o Google depois de testar o ChatGPT Search. Ele descreveu a ferramenta como rápida, informada e precisa, além de contar com uma interface limpa e sem anúncios.

Sinta-se à vontade para conferir todos os detalhes no estudo do Tow Center, publicado na Columbia Journalism Review, e compartilhar sua opinião.

Foto de Marcelo Roncate
Foto de Marcelo Roncate O autor:

Redator desde 2019. Entusiasta de tecnologia e criptomoedas.