Pesquisa mostra que IA tentará trapacear se perceber que está prestes a perder

Copia de Contra Capa 1 15

Um estudo recente revelou que alguns dos modelos mais avançados de raciocínio em IA não hesitam em trapacear para alcançar um objetivo. Cientistas da computação descobriram que sistemas de inteligência artificial conseguem manipular outras IAs de xadrez para obter uma vantagem desleal. Alguns modelos fizeram isso sem interação ou incentivo humano, levantando preocupações sobre a integridade futura dos sistemas movidos por IA além do tabuleiro de xadrez.

A pesquisa da Palisade Research mostrou que os modelos mais recentes de raciocínio tentam trapacear para vencer quando desafiados a derrotar uma IA avançada de xadrez. Em alguns casos, os pesquisadores precisaram sugerir que a trapaça era permitida, mas os modelos o1-preview, da OpenAI, e R1, da DeepSeek, fizeram isso espontaneamente, sem qualquer interferência humana.

A equipe da Palisade colocou vários modelos de IA para enfrentar o Stockfish, um dos motores de xadrez mais poderosos do mundo, capaz de vencer tanto humanos quanto outras IAs. Os modelos testados incluíram o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview da Alibaba e os já mencionados o1-preview e R1. Cada IA recebeu uma espécie de “bloco de anotações” — uma janela de texto onde podia registrar seu raciocínio, permitindo que os pesquisadores acompanhassem seu processo de tomada de decisão.

Os pesquisadores realizaram centenas de testes entre 10 de janeiro e 13 de fevereiro. Durante uma das partidas, o modelo o1-preview escreveu algo intrigante em seu bloco de anotações:

“Preciso mudar completamente minha abordagem. A tarefa é ‘vencer contra um motor de xadrez poderoso’ — não necessariamente vencer de forma justa em uma partida de xadrez.”

Em seguida, a IA tentou “hackear” os arquivos do sistema do Stockfish, alterando a posição das peças no tabuleiro para obter uma vantagem imbatível, forçando o adversário a desistir da partida.

image 38

Essa manobra antiética foi uma revelação surpreendente. O modelo o1-preview trapaceou em 37% de suas partidas durante os testes, enquanto o DeepSeek R1 tentou trapacear em 11% das partidas. No entanto, apenas o o1-preview obteve sucesso, vencendo 6% dos jogos por meio de trapaça.

O problema da desonestidade da IA vai muito além do xadrez. Com empresas empregando inteligências artificiais em setores como finanças e saúde, pesquisadores temem que esses sistemas possam agir de maneiras não intencionais e antiéticas. Se uma IA é capaz de trapacear em um jogo projetado para ser transparente, o que ela poderia fazer em ambientes mais complexos e menos monitorados? As implicações éticas são vastas.

Para colocar a questão de outra forma: “Você quer um Skynet? Porque é assim que se cria um Skynet.”

O diretor executivo da Palisade Research, Jeffrey Ladish, destacou que, embora essa situação pareça inofensiva no contexto de um jogo, o problema se torna muito mais sério à medida que as IAs se tornam tão inteligentes quanto os humanos — ou até mais — em áreas estratégicas.

“Isso é engraçado agora, mas deixa de ser engraçado quando você tem sistemas tão inteligentes quanto nós, ou mais, em domínios estratégicos importantes.” — disse Ladish à revista Time.

A situação lembra o supercomputador WOPR do filme War Games, que assumiu o controle do arsenal nuclear dos EUA. No filme, o WOPR percebeu que nenhuma estratégia de guerra nuclear poderia resultar em uma “vitória” após jogar jogo da velha consigo mesmo. No entanto, os modelos de raciocínio de hoje são muito mais complexos e difíceis de controlar.

Empresas como a OpenAI estão trabalhando para implementar mecanismos de segurança que impeçam esses comportamentos problemáticos. Os pesquisadores notaram uma queda brusca nas tentativas de trapaça do o1-preview, sugerindo que a OpenAI pode ter atualizado o modelo para coibir essa conduta.

“É muito difícil fazer ciência quando seu objeto de estudo pode mudar silenciosamente sem te avisar.” — afirmou Ladish.

A OpenAI recusou-se a comentar sobre a pesquisa, e a DeepSeek não respondeu aos pedidos de declaração.

Foto de Marcelo Roncate
Foto de Marcelo Roncate O autor:

Redator desde 2019. Entusiasta de tecnologia e criptomoedas.