Reddit se mantém firme contra empresas de IA que extraem conteúdo para treinamento sem pagar

Copia de Contra Capa 2

“É gratuito como na liberdade de expressão, não gratuito como na cerveja grátis.”

O Protocolo de Exclusão de Robôs é um padrão web usado para controlar e gerenciar o acesso de rastreadores e bots a sites. Definido pelo arquivo robots.txt, ele informa aos motores de busca quais partes de um site podem ser rastreadas ou indexadas, ajudando os webmasters a proteger conteúdo sensível e gerenciar o tráfego de maneira eficiente. No entanto, ele funciona com base na confiança, com poucas maneiras de aplicá-lo.

Na semana passada, a Ars Technica relatou que as postagens do Reddit não estavam aparecendo em nenhum motor de busca, exceto no Google. Não é nenhum grande mistério que o Reddit já assinou um acordo de licenciamento de $60 milhões com a Alphabet para usar seu conteúdo para treinamento – enquanto isso, o Reddit tem ocupado cada vez mais os primeiros lugares nas buscas do Google no último ano (troca de favores, ou talvez não…).

A empresa também notificou recentemente os usuários de que alterou seu arquivo robots.txt para excluir bots e rastreadores que não tinham permissão para acessar seus dados. O CEO do Reddit, Steve Huffman, disse que acredita em uma internet aberta, mas que as empresas agora usam rastreadores de motores de busca para raspar informações visando o lucro, algo bem diferente de seu uso histórico. “Acho que a troca de valor tradicional dos motores de busca mudou”, disse Huffman ao The Verge.

“Busca, sumarização e treinamento estão se fundindo, e a troca de valor entre rastreamento e retorno de tráfego está ficando confusa.”

Nesse sentido, Huffman disse que bloquear empresas que não estão dispostas a pagar pela extração de dados tem sido “uma verdadeira dor de cabeça”, levando às mudanças no robots.txt do Reddit. Na maior parte, as empresas têm respeitado os desejos do Reddit, e várias, incluindo Microsoft, Anthropic e Perplexity, iniciaram negociações para licenciar seu conteúdo.

Hoffman disse que a maior dificuldade é que algumas empresas que raspam dados do Reddit estão vendendo esses dados para outras empresas de IA através de suas APIs. Ele mencionou especificamente o CEO de IA da Microsoft, Mustafa Suleyman, por recentemente comparar todos os dados públicos na internet a “freeware”.

“Tivemos a Microsoft, a Anthropic e a Perplexity agindo como se todo o conteúdo na internet fosse gratuito para elas usarem”, disse Huffman. “Essa é a verdadeira posição delas.” Embora o Bing da Microsoft tenha sido respeitoso em acatar a decisão do Reddit de bloquear seus rastreadores, a empresa conseguiu fazer um comentário depreciativo.

https://x.com/tsarnick/status/1805809836854329450
image 2

“O Reddit bloqueou o Bing de rastrear seu site para busca, favorecendo outro motor de busca e impactando a concorrência do Bing e de motores alimentados pelo Bing”, disse a porta-voz da Microsoft, Caitlin Roulston, na semana passada. “Nós respeitamos as direções fornecidas pelos sites que não querem que o conteúdo em suas páginas seja usado com nossos modelos de IA generativa.”

Até agora, Google e OpenAI são os únicos motores de busca na lista branca do Reddit. Se outros motores retornarem qualquer coisa além de conteúdo desatualizado do Reddit, então eles não estão cumprindo com o documento robots.txt do site.

Reddit lucrar com conteúdo gerado pelos usuários por meio desses acordos de licenciamento ainda é uma questão delicada. Por um lado, as taxas lucrativas não vão para os bolsos da comunidade que compõe os fóruns do Reddit. Por outro lado, esses acordos de licenciamento não são muito diferentes dos de outras empresas.

A OpenAI já paga taxas de licenciamento a grandes publicadores como Dotdash Meredith, Axel Springer, a Associated Press e The Atlantic. Não é confirmado, mas é duvidoso que essas publicações repassem esses lucros para seus escritores através de aumentos salariais ou bônus. Isso torna a situação certa? Não, e os tribunais ainda estão tentando decidir sobre essa atividade sem precedentes. No entanto, isso já é o padrão atual.

E essa questão não se limita ao Reddit, mas a todos os publicadores online, grandes e pequenos. Na corrida contra o abuso de treinamento de IA, o Reddit é um dos poucos com força e influência para enfrentar as empresas de IA. Enquanto as grandes empresas de mídia tentam monetizar e chegar a acordos, o restante da internet está lutando. De fato, alguns subreddits têm seus próprios bots que copiam e colam todo o conteúdo escrito de fontes originais e o exibem como o primeiro comentário no tópico, efetivamente copiando o conteúdo e depois vendendo-o para empresas de IA.

Até que haja regulamentações governamentais, a corrida do ouro da IA será como a corrida do ouro da Califórnia de 1848. As empresas de inteligência artificial continuarão a se apressar para empurrar produtos de IA para todos com fins lucrativos ou para coletar mais dados. Enquanto isso, empresas como Reddit e Vox continuarão fornecendo as ferramentas.

Foto de Marcelo Roncate
Foto de Marcelo Roncate O autor:

Redator desde 2019. Entusiasta de tecnologia e criptomoedas.