Meta usou mais de 81 TB em livros piratas para treinar IA

0
94
Reprodução

A Meta, responsável por plataformas como Facebook, Instagram e WhatsApp, realizou o download ilegal de uma grande quantidade de livros e usou essas obras para treinar sua inteligência artificial (IA). Documentos apresentados em um processo judicial nos Estados Unidos, incluindo e-mails trocados pela equipe, confirmam as acusações.

O caso foi revelado durante um processo movido contra a Meta por artistas e escritores. Eles alegam que a empresa fez o download de cópias de obras de fontes ilícitas e, sem oferecer qualquer compensação, usou esse material para alimentar seu modelo de linguagem — tecnologia que gera conteúdo e responde a perguntas de usuários. Há também um processo similar em andamento no país.

A Meta já havia reconhecido que obteve bases de dados inteiras de fontes piratas, como o LibGen. Porém, as novas mensagens divulgadas trazem mais detalhes sobre o caso. Além dos 80,6 TB de dados dessa primeira fonte, a empresa baixou mais 35,7 TB de livros da mesma plataforma e ao menos 81,7 TB de dados do Anna’s Archive, outro serviço que disponibiliza obras sem direitos autorais.

O cenário pode piorar para a Meta devido ao método utilizado: o download via torrent. Isso implica que a empresa ajudou a propagar a distribuição ilegal de livros, atuando como fornecedora de “seeds” para outros usuários. Até o momento, a Meta não forneceu os detalhes solicitados pela acusação sobre os downloads realizados.

As conversas internas da Meta confirmam que todos estavam cientes de que o download via torrent de livros de fontes como o LibGen era ilegal e poderia comprometer contratos comerciais ou gerar problemas futuros para a empresa.

“Baixar torrent de um laptop corporativo não parece certo”, afirmou Nikolay Bashlykov, um dos pesquisadores da Meta, em uma mensagem — acompanhada de um emoji de risada. Em outra troca de mensagens, um funcionário sugeriu que “o modelo da OpenAI é provavelmente treinado” com fontes semelhantes, enquanto outro indicou que usar uma VPN para mascarar a conexão seria uma solução viável.

Essas conversas indicam que a Meta tentou esconder suas atividades, utilizando servidores externos para evitar que os dados fossem rastreados até a empresa. A companhia teria até modificado as configurações de seu cliente de torrent para enviar o mínimo possível de “seeds” para outros usuários.

O nome de Mark Zuckerberg, CEO e cofundador da Meta, também é mencionado nas mensagens. Em uma delas, um colaborador informa que a decisão de usar o LibGen como fonte foi tomada “após a situação escalar para o MZ”, sugerindo que ele foi informado ou deu aprovação para o processo — o que contraria declarações anteriores que negavam seu envolvimento.

A Meta ainda não se pronunciou sobre as novas evidências. Anteriormente, a empresa havia defendido que o uso de bases de dados e livros inteiros para treinar a IA era uma prática de “fair use” — o uso aceitável de obras intelectuais sem a necessidade de autorização ou pagamento ao proprietário.

Agora, com as novas provas, os advogados de acusação pretendem chamar novamente algumas testemunhas, pois consideram as respostas anteriores contraditórias. Eles acreditam que o argumento de que a Meta tentou esconder o download e colaborou na distribuição ilegal de arquivos via torrent pode agravar ainda mais o caso.

Mark Lemley, ex-advogado da Meta, deixou o caso após as mudanças na empresa para agradar o governo de Donald Trump.

Deixa uma resposta

Por favor, deixe o seu comentário:
Por favor, digite seu nome