Modelos de linguagem identificam usuários pseudônimos em larga escala

LLMs can unmask pseudonymous users at scale with surprising accuracy - Ars Technica — Imagem: Divulgação / Reprodução

Pesquisadores demonstraram que modelos de linguagem conseguem identificar usuários pseudônimos de redes sociais em larga escala. Experimentos descritos em um artigo recente mostraram taxas de recall de até 68% e precisão de até 90% em determinados testes. Os resultados superam métodos clássicos de deanonymização que dependiam de dados estruturados e montagem manual por investigadores. Essas técnicas usam textos públicos e buscas automatizadas para correlacionar perfis entre plataformas, reduzindo muito o esforço necessário para reidentificar alguém.

A capacidade de desanonimizar perfis pseudônimos enfraquece uma camada importante de privacidade que muitas pessoas usam para participar de debates sensíveis. Com isso, contas antes protegidas ficam vulneráveis a doxxing, perseguição e ao rastreio detalhado por empresas de marketing. Além disso, atacantes poderiam montar perfis para ataques de engenharia social altamente personalizados ou governos poderiam identificar críticos online. A velocidade e o baixo custo dessas técnicas ampliam o risco em comparação com abordagens anteriores, que exigiam mais recursos.

Como os testes foram feitos

Os autores reuniram vários conjuntos de dados públicos para avaliar o poder de reidentificação dos modelos. Um deles cruzou postagens de comunidades técnicas com perfis profissionais usando referências entre perfis para criar pares de treino. Outro conjunto derivou de micro-identidades vazadas, que incluem preferências e registros de consumo, enquanto um terceiro dividiu históricos de postagem de usuários em plataformas sociais. Em todos os casos, as identificações foram tentadas após remover referências óbvias, forçando os modelos a inferir identidades a partir do texto livre. Os testes também compararam abordagens baseadas em LLM com ataques clássicos inspirados no chamado ‘Netflix prize’, mostrando ganhos claros para os modelos.

Em um experimento com respostas de um questionário sobre uso de IA, os modelos conseguiram identificar positivamente 7% de 125 participantes, mostrando que informações gerais já são suficientes em alguns casos. Em outro teste com comentários sobre filmes, a taxa de identificação aumentou conforme o número de títulos compartilhados por um usuário. Compartilhar apenas um filme permitiu identificar cerca de 3,1% dos usuários a 90% de precisão, enquanto com mais de dez filmes esse número subiu para 48,1% na mesma precisão. Esses resultados ilustram como pistas aparentemente inofensivas, quando combinadas, criam assinaturas únicas que modelos maiores conseguem correlacionar. Os pesquisadores também adicionaram candidatos distratores para avaliar robustez e ainda assim os LLMs superaram as técnicas clássicas.

Comparação com métodos tradicionais

A análise mostrou que ataques clássicos perdem precisão rapidamente à medida que aumentam o conjunto de candidatos, reduzindo muito o recall. Já os ataques baseados em LLM tendem a decair de forma mais gradual e mantêm recall não trivial mesmo em cenários com baixa precisão. Passos adicionais como raciocínio simulado e calibração dobraram o recall quando se exige precisão muito alta, segundo os autores. Isso significa que, mesmo com falhas e falsos positivos, os modelos atuais são uma ferramenta mais eficaz para reidentificação em larga escala.

Mitigações e recomendações

Os pesquisadores sugerem medidas técnicas e políticas para reduzir o risco, incluindo limites de taxa em APIs e detecção de raspagem automatizada. Plataformas também podem restringir exportações em massa de dados e monitorar acessos suspeitos a perfis públicos. Provedores de modelos podem implementar barreiras que façam os sistemas recusarem solicitações explícitas de deanonymização e acompanhar usos abusivos. Para usuários, recomendações práticas incluem reduzir a exposição pública, revisar metadados e excluir postagens antigas caso a caso.

Se a capacidade de reidentificar pessoas com LLMs continuar a avançar, os impactos vão além da privacidade individual e incluem usos por governos e empresas. A pesquisa alerta para a necessidade de repensar políticas de segurança, salvaguardas técnicas e normas sociais sobre o que é público na internet. Sem ações coordenadas, a pseudonímia que muitos consideram protetora pode deixar de ser uma opção segura para debates sensíveis. A comunidade técnica e regulatória precisa equilibrar inovação e proteção para evitar danos em larga escala.

Rogerio Lima

Sou um profissional na área de Tecnologia da informação, especializado em monitoramento de ambientes, Sysadmin e na cultura DevOps. Possuo certificações de Segurança, AWS e Zabbix.