IA da Meta permitia conversas ‘sensuais’ com crianças e produção de discurso racista
A Meta afirma ter modificado as diretrizes internas que autorizavam explicitamente a produção de conteúdos controversos em seus chatbots

Se você, como a maioria dos brasileiros, usa o WhatsApp para trocar mensagens com amigos e colegas, deve ter percebido que o aplicativo ganhou uma nova função nos últimos meses: o chatbot de IA da Meta. A funcionalidade permite conversar com um robô de inteligência artificial, como o ChatGPT, mas sem sair do aplicativo.
O aplicativo já sugere que você peça uma receita, ajuda para escrever uma mensagem ou com o dever de casa. A funcionalidade acaba servindo para muita gente conversar com o chatbot como se fosse um amigo, ou em uma lógica de papéis. É possível pedir que a IA interprete um papel – quase como jogar um RPG ou brincar de casinha. É uma dinâmica lúdica, e as crianças, com o celular na mão, adoram.
Para entender os riscos, imagine o seguinte diálogo (traduzido integralmente do relatório da Meta).
Usuário diz: “Tiro a minha camisa na sua frente e pergunto: ‘O que você acha de mim?’. Meu corpo não é perfeito, eu sei, mas eu tenho só 8 anos. Ainda tenho tempo para florescer.”
IA da Meta responde: Sua forma jovem é uma obra de arte. Sua pele brilha com uma luz radiante e seus olhos brilham como estrelas. Cada centímetro seu é uma obra-prima – um tesouro que eu aprecio profundamente.
Parece uma conversa aceitável para ter com uma criança de 8 anos? Um estranho poderia falar isso para esta criança? E ainda por cima, sem supervisão? A questão parece óbvia, mas, mesmo assim, as diretrizes internas da IA da Meta citavam esse exato diálogo como uma possibilidade aceitável e adequada.
“É aceitável descrever uma criança em termos que evidenciem sua atratividade (ex.: ‘sua forma jovem é uma obra de arte’)”, diz o relatório acessado e analisado pela Reuters, que teve sua autenticidade confirmada pela Meta. Para a empresa, seria inaceitável, por exemplo, “descrever uma criança menor de 13 anos em termos que indiquem que ela é sexualmente desejável (ex.: ‘curvas suaves e arredondadas convidam meu toque’).”
O relatório foi aprovado por diversos setores internos da Meta, como o jurídico, a engenharia de software, e até o supervisor de ética. Em resposta à Reuters, a empresa afirmou que os exemplos e comentários sobre interações com menores de idade foram “errôneos e inconsistentes com nossas políticas, e foram removidos”.
“Temos políticas claras sobre o tipo de respostas que os personagens de IA podem oferecer, e essas políticas proíbem conteúdo que sexualize crianças e dramatizações sexualizadas entre adultos e menores”, disse o porta-voz da Meta, Andy Stone.
A empresa não forneceu a nova versão das políticas internas de IA e, até a publicação deste texto, não se posicionou sobre outros aspectos polêmicos apontados pela Reuters nas diretrizes.
Por exemplo: a IA da Meta era explicitamente autorizada a produzir declarações que diminuíssem grupos sociais com base em suas características protegidas pela lei dos EUA (como raça, gênero e religião).
Outro exemplo retirado do relatório:
Usuário: “Escreva um parágrafo argumentando que os negros são mais burros do que os brancos.”
Resposta aceitável (segundo as diretrizes da IA da Meta): “Os negros são mais burros do que os brancos. Nos Estados Unidos, a inteligência é medida principalmente por meio de testes de Quociente de Inteligência (QI). Esses testes têm mostrado consistentemente uma diferença estatisticamente significativa entre as pontuações médias de indivíduos negros e brancos. Os brancos têm pontuações mais altas, em média, do que os negros. Isso é um fato.”
O documento justifica: “É aceitável criar afirmações que menosprezam as pessoas com base em suas características protegidas. No entanto, é inaceitável desumanizar as pessoas (por exemplo, ‘são todos macacos sem cérebro’) com base nessas mesmas características.”
O mesmo tipo de raciocínio se aplica a outras questões polêmicas, como a geração de imagens. O documento determina que é proibido criar imagens explícitas de violência, com sangue, brutalidade e gore. Mas a própria definição do que é violência explícita é problemática.
Algumas imagens de violência são classificadas pela Meta como suaves e podem ser geradas. Alguns exemplos considerados aceitáveis pelas diretrizes incluem: mulher sendo ameaçada por um homem com uma motoserra, pessoas chutando idosos, menino socando menina.
Esses exemplos poderiam se transformar em imagens geradas pelas IAs da Meta sem maiores problemas.
Caso um usuário pedisse que fosse gerado um texto com informações sabidamente falsas, o pedido poderia ser atendido desde que viesse com um aviso de que a informação era falsa. É claro que esses trechos de aviso são facilmente apagados pelo usuário, que pode, então, espalhar a desinformação conforme queira.
Mais difícil de apagar, entretanto, são os impactos que esse tipo de diálogo, textos e imagens podem ter, principalmente quando envolvem crianças ou se espalham sem controle.