Anthropic destruiu milhões de livros físicos para treinar sua IA, revelam documentos judiciais

A inteligência artificial generativa já enfrenta duras críticas por seus conhecidos problemas de confiabilidade, seu enorme consumo de energia e o uso não autorizado de material protegido por direitos autorais. Agora, um caso judicial recente revela que o treinamento desses modelos de IA também envolveu a destruição em larga escala de livros físicos por parte da Anthropic.
Escondida nos detalhes de uma decisão dividida recente contra a Anthropic está uma revelação surpreendente: a empresa de IA generativa destruiu milhões de livros físicos cortando suas encadernações e descartando os restos, tudo para treinar seu assistente de IA. Curiosamente, essa destruição foi citada como um fator que pesou a favor da Anthropic na decisão do tribunal.
Para construir o Claude, seu modelo de linguagem concorrente do ChatGPT, a Anthropic treinou com o maior número possível de livros que conseguiu adquirir. A empresa comprou milhões de volumes físicos e os digitalizou arrancando e escaneando as páginas, destruindo permanentemente os livros no processo.
Além disso, a Anthropic não tem planos de tornar as cópias digitais resultantes publicamente acessíveis. Esse detalhe ajudou a convencer o juiz de que a digitalização e varredura dos livros constituíram uma transformação suficiente para se enquadrar no uso justo (fair use). Embora o Claude aparentemente utilize a biblioteca digitalizada para gerar conteúdo original, críticos já demonstraram que modelos de linguagem podem, por vezes, reproduzir trechos idênticos ao material de treinamento.
A vitória parcial da Anthropic na justiça agora permite que ela treine modelos de IA com livros protegidos por direitos autorais sem notificar os editores ou autores originais, removendo potencialmente um dos maiores obstáculos enfrentados pela indústria de IA generativa. Um ex-executivo da Meta chegou a admitir recentemente que a IA “morreria da noite para o dia” se fosse obrigada a seguir as leis de direitos autorais, provavelmente porque os desenvolvedores não teriam acesso aos enormes volumes de dados necessários para treinar modelos de linguagem de grande escala.
Ainda assim, batalhas legais em andamento continuam sendo uma grande ameaça para a tecnologia. No início deste mês, o CEO da Getty Images reconheceu que a empresa não tem recursos para combater todas as violações de direitos autorais relacionadas à IA. Enquanto isso, o processo da Disney contra a Midjourney – no qual a empresa demonstrou a capacidade do gerador de imagens de replicar conteúdo protegido – pode ter consequências significativas para o ecossistema mais amplo da IA generativa.
Dito isso, o juiz no caso da Anthropic decidiu contra a empresa por ela ter recorrido parcialmente a bibliotecas de livros pirateados para treinar o Claude. A Anthropic ainda enfrentará um julgamento de direitos autorais em dezembro, no qual pode ser condenada a pagar até US$ 150.000 por cada obra pirateada.