Pular para o conteúdo

Suas postagens no Bluesky podem estar treinando modelos de IA agora

Tempo de leitura: 5 minutos

A popularidade de Bluesky disparou nas últimas semanas. Em meio a um “êxodo” de usuários do X/Twitter, milhões encontraram no Bluesky a alternativa ideal. Sendo projetada como concorrente do Twitter, a plataforma é bastante semelhante em termos de funcionalidade principal. No entanto, parece que as condições da BlueSky em relação à IA e à privacidade pós-privacidade não são tão boas quanto muitos esperavam.

Uma das mudanças no X que desencadeou uma campanha de migração de usuários está relacionada à inteligência artificial. Os novos termos de uso permitem que a plataforma de Elon Musk treine seus desenvolvimentos baseados em IA com postagens de usuários. Embora muitos possam não se importar com isto, há outros – como os artistas – que encararam a nova política com preocupação.

Dito isto, parece que suas postagens no Bluesky não são tão seguras para serem usadas em treinamento de IA. Vale ressaltar que a plataforma social se comprometeu a não fazê-lo. Esta afirmação tranquilizou as pessoas que deixaram X por esse motivo. Mas embora a Bluesky não treine IA em seu conteúdo, nada impede que terceiros o façam.

A origem da polêmica: milhões de postagens Bluesky disponíveis para treinamento em IA

Na semana passada, Daniel van Strien, bibliotecário de aprendizado de máquina da Hugging Face, compartilhou um conjunto de dados que consiste em um milhão de postagens do Bluesky, gerando polêmica. Se você não sabe, Hugging Face é uma plataforma de biblioteca de aprendizado de máquina de código aberto. Isso significa que os conjuntos de dados estão disponíveis para uso gratuito, incluindo treinamento em IA.

É claro que a notícia não foi bem recebida pelos usuários que mudaram para o Bluesky especificamente para escapar das políticas permissivas em relação ao treinamento de IA. Horas depois da reação, Daniel van Strien removeu o conjunto de dados e pediu desculpas publicamente. “Embora eu quisesse apoiar o desenvolvimento de ferramentas para a plataforma, reconheço que esta abordagem violou os princípios de transparência e consentimento na recolha de dados. Peço desculpas por esse erro”, disse ele.

Uma das características que diferencia o Bluesky de outras plataformas é a sua natureza descentralizada. Isto tem vantagens, como um maior controle por parte dos indivíduos sobre o seu conteúdo. No entanto, isso também significa que as postagens estão disponíveis em um feed público. Assim, terceiros têm acesso total a eles, inclusive aos perfis dos usuários que os postaram.

Quando os terceiros são profissionais, como pesquisadores, geralmente seguem diretrizes éticas para o manuseio de conjuntos de dados. Por exemplo, eles anonimizam cada postagem para que não possa ser vinculada a ninguém. Eles também oferecem opções para os usuários solicitarem a remoção de seu conteúdo do conjunto de dados. No entanto, como muitos sabem, a Internet está cheia de trolls.

bluesky publica controvérsia sobre treinamento de IA

Surgiram mais conjuntos de dados com milhões de postagens BlueSky

Vendo a reação dos usuários do Bluesky à postagem original de Daniel van Strien, novos conjuntos de dados contendo milhões de postagens da plataforma social começaram a surgir rapidamente. As descrições dos conjuntos de dados no Hugging Face geralmente afirmam explicitamente que eles podem ser usados ​​para treinamento de IA. Afinal, isso só irá irritar ainda mais aqueles que ficaram chateados com o primeiro conjunto de dados compartilhado, certo?

A coleta de dados de terceiros não seguiu nenhuma orientação profissional. Isso significa que os conjuntos de dados disponíveis publicamente incluem não apenas as postagens, mas também os apelidos das pessoas que as criaram. A situação agravou-se a tal ponto que o maior conjunto de dados detectado até agora apresenta quase 300 milhões de postagens de usuários do rival do X.

Alpine Dale, afiliado da PygmalionAI, revelou que compilou um conjunto de dados com dois milhões de postagens. PygmalionAI é um LLM especialmente popular entre usuários de chatbots focados em role-playing. Este conjunto de dados ainda não foi compartilhado, mas a descrição no site diz que “poderia ser usado para: Treinamento e teste de modelos de linguagem em conteúdo de mídia social; Analisar padrões de postagem em mídias sociais; Estudar estruturas de conversação e redes de resposta; Pesquisa sobre moderação de conteúdo em mídias sociais; Tarefas de processamento de linguagem natural usando dados de mídia social

Há também Alim Maasoglu, um indivíduo “dedicado ao desenvolvimento de produtos imersivos no espaço da inteligência artificial.” A descrição de seu conjunto de dados no Hugging Face, composto por cerca de oito milhões de postagens do Bluesky, diz que “tem como objetivo fornecer aos pesquisadores e desenvolvedores uma amostra abrangente de dados de mídia social do mundo real para análise e experimentação.” A descrição também menciona que o conjunto de dados é “crescente”, então ficará maior com o tempo.

O maior deles tem quase 300 milhões de postagens

Dito isso, nenhuma das opções acima chega perto do usuário Hugging Face que atende pelo apelido de GAYSEX, com intenções óbvias de trollar. Seu conjunto de dados inclui nada mais nada menos que 298 milhões de postagens de usuários do Bluesky.

A descrição do conjunto de dados GAYSEX mostra suas intenções de forma irônica. “NÃO, você não pode fazer isso! Então não poste. Se você não quer ser gravado, não poste. ‘Mas eu estava fazendo XYZ!!’ Então não faça isso. Olhar. Quase tudo na internet permanece na internet hoje em dia. Especialmente grandes sites de redes sociais. Você pode querer considerar começar um blog. Eles têm menos chances de serem puxados para treinamento de IA + há maneiras adicionais de proteger blogs que estão sendo copiados agressivamente”, diz.

Ironicamente, embora este conjunto de dados tenha o maior número de postagens Bluesky, também é o menos útil para treinar modelos de IA. O usuário copiou os dados sem muito cuidado, ordem ou estrutura organizacional. Basicamente, o objetivo deles era simplesmente coletar o máximo de postagens possível. Eles só queriam superar em muito os conjuntos de dados anteriores que foram compartilhados e causar mais aborrecimento entre o pessoal do Bluesky. Este conjunto de dados é “muito sem filtro, então haverá muito trabalho a ser feito”Para torná-lo adequado para treinamento de IA.

As atuais leis de proteção de dados não podem fazer nada a respeito

De acordo com o relatório de Samantha Cole na 404 Media, pelo menos seis conjuntos de dados contendo milhões de postagens de usuários do Bluesky estão disponíveis publicamente no Hugging Face. Além disso, parece que as actuais leis de protecção de dados são impotentes para impedir esta situação. Cole consultou a situação com Neil Brown, advogado especializado no Regulamento Geral de Proteção de Dados (GDPR). “O simples processamento de dados pessoais de pessoas na UE não torna a pessoa que realiza esse processamento sujeita ao GDPR da UE”, afirmou Brown.

O que determina se ações semelhantes estão sujeitas ao GDPR é o que uma determinada organização ou indivíduo faz com os dados. A mera publicação do conjunto de dados não o torna elegível para iniciar um processo legal baseado no GDPR. O tratamento dos dados “precisaria se enquadrar em seus escopos materiais e territoriais (GDPR)”para isso, acrescenta Cole. Por “âmbitos materiais e territoriais”ela se refere não apenas ao que alguém faz com o conjunto de dados, mas também à região em que o faz.