Servidores da Wikipédia estão enfrentando dificuldades devido à pressão de bots de scraping de IA

Bots de inteligência artificial se tornaram recentemente um grande problema para sites que lidam com conteúdo escrito ou outros tipos de mídia. Da Wikipédia a blogs pessoais, ninguém está seguro contra o ataque massivo de redes promovido pela OpenAI e outras gigantes da tecnologia em busca de novos conteúdos para alimentar seus modelos de IA.
A Fundação Wikimedia, organização sem fins lucrativos que hospeda a Wikipédia e outros sites amplamente populares, está levantando preocupações sobre os bots de scraping de IA e seu impacto na largura de banda da fundação. A demanda por conteúdo hospedado nos servidores da Wikimedia cresceu significativamente desde o início de 2024, com empresas de IA consumindo uma quantidade esmagadora de tráfego para treinar seus produtos.
Os projetos da Wikimedia, que incluem algumas das maiores coleções de conhecimento e mídia de acesso gratuito na internet, são usados por bilhões de pessoas em todo o mundo. O Wikimedia Commons, por exemplo, armazena 144 milhões de imagens, vídeos e outros arquivos sob licença de domínio público e tem sido particularmente afetado pela atividade não regulamentada dos bots de IA.
A Fundação Wikimedia registrou um aumento de 50% na largura de banda utilizada para downloads de multimídia desde janeiro de 2024, com o tráfego vindo predominantemente de bots. Segundo a fundação, programas automatizados estão fazendo scraping do catálogo de imagens do Wikimedia Commons para alimentar modelos de IA, e a infraestrutura não foi projetada para suportar esse tipo de tráfego parasitário.
A equipe da Wikimedia teve uma prova clara dos efeitos do scraping de IA em dezembro de 2024, quando o ex-presidente dos EUA, Jimmy Carter, faleceu e milhões de usuários acessaram sua página na versão em inglês da Wikipédia. Os 2,8 milhões de leitores da biografia do presidente eram “gerenciáveis”, segundo a equipe, mas muitos usuários também transmitiram o vídeo de 1 hora e 30 minutos do debate de Carter com Ronald Reagan em 1980.
Como resultado da duplicação do tráfego normal da rede, algumas das rotas de conexão da Wikipédia para a internet ficaram congestionadas por cerca de uma hora. A equipe de Confiabilidade de Site da Wikimedia conseguiu redirecionar o tráfego e restaurar o acesso, mas esse tipo de problema não deveria ter ocorrido.
Ao analisar a questão da largura de banda durante uma migração de sistema, a Wikimedia descobriu que pelo menos 65% do tráfego mais intensivo em recursos vinha de bots, que passavam pela infraestrutura de cache e impactavam diretamente o data center “central” da Wikimedia.
A organização está trabalhando para enfrentar esse novo desafio de rede, que agora afeta toda a internet, à medida que empresas de IA e tecnologia fazem scraping agressivo de todo o conteúdo criado por humanos que conseguem encontrar. “Oferecer conteúdo confiável também significa apoiar um modelo de ‘conhecimento como serviço’, no qual reconhecemos que toda a internet se baseia no conteúdo da Wikimedia”, disse a fundação.
A Wikimedia está promovendo uma abordagem mais responsável para o acesso à infraestrutura por meio de uma melhor coordenação com desenvolvedores de IA. APIs dedicadas poderiam aliviar a sobrecarga da largura de banda, tornando mais fácil a identificação e o combate a “atores mal-intencionados” na indústria de IA.