Bruno Garattoni

Por Bruno Garattoni

Vencedor de 15 prêmios de Jornalismo. Editor da Super.

Ciência

Sistema do Google consegue identificar textos gerados por IA; veja como

SynthID altera as frases de maneira sutil, imperceptível para um leitor humano; saiba como funciona o watermarking de IA, que será vital para o futuro da internet

Por Bruno Garattoni SEGUIR SEGUINDO
26 nov 2024, 16h00 • Atualizado em 26 nov 2024, 16h06

Imagem de um texto com várias palavras grifadas. — (Google DeepMind via Youtube/Reprodução)

A proliferação de sites fajutos, com textos gerados por IA, deve se tornar um problema cada vez maior no futuro: eles poluem a internet com conteúdo de baixa qualidade e confundem as ferramentas de busca, dificultando que você encontre o que procura. Mas o sistema SynthID, criado pelo Google, pode ajudar a combater isso. Ele marca, com padrões estatísticos imperceptíveis a olho nu, o conteúdo gerado com as ferramentas de IA do Google – permitindo que seja identificado depois.

Os “grandes modelos de linguagem” (LLMs), como o ChatGPT e o Gemini, foram alimentados com uma enorme quantidade de texto, e a partir daí determinaram estatisticamente quais palavras têm maior probabilidade de aparecer ao lado de outras. É assim que eles escrevem (para uma explicação mais detalhada, e interessante, leia nossa matéria de capa de fevereiro de 2023).

O SynthID altera, de forma sutil, esses “pesos estatísticos” empregados pela IA. Ele troca palavras por outras, seguindo um padrão predefinido.

Veja a frase acima, em que o robô está escrevendo a frase My favourite tropical fruits are mango (“Minhas frutas tropicais preferidas são manga…”). Estatisticamente, o mais provável seria continuar usando a palavra and (cujo peso estatístico, P, é 0,35) ou a palavra plus (0,30). Porque é assim que os textos humanos, usados para alimentar a IA, geralmente são escritos.

Continua após a publicidade

Mas o SynthID muda esses pesos: nessa frase, ele eleva bastante a probabilidade de usar a palavra and (cujo peso aumenta para 0,66), e reduz a probabilidade da palavra plus (0,10). Essa modificação, que pode ser feita em até dez palavras por frase, segue uma lógica interna determinada pelo SynthID – e “carimba” aquele texto como gerado por IA.

É uma marca d’água digital que, no futuro, poderá ser detectada pelo seu navegador – que poderá alertar quando você estiver lendo um texto escrito por robôs.

Continua após a publicidade

Em outubro, o Google publicou um artigo científico no qual o SynthID é testado em 20 milhões de respostas geradas por IA – segundo a empresa, ele se mostrou eficaz e não comprometeu a redação delas. O sistema já está ativado no Gemini, e desenvolvedores de IA também podem adicioná-lo a outros modelos de linguagem – o SynthID foi liberado em código aberto.

Em agosto, a OpenAI anunciou que estava abandonando suas tentativas de criar uma tecnologia do tipo. Ela alegou dificuldades técnicas. Mas segundo o Wall Street Journal, que teve acesso a documentos internos da OpenAI, a verdadeira razão seria outra: a empresa não quer que os textos gerados pelo ChatGPT sejam identificáveis porque, se isso acontecer, menos pessoas irão usar o bot.

IA da Meta gera vídeo de qualquer pessoa usando apenas uma foto dela

O SynthID também é capaz de identificar fotos, vídeos e músicas geradas pelas IAs do Google. Por enquanto, ele só está disponível para desenvolvedores, não para o público.

Continua após a publicidade

No começo deste ano, um consórcio de empresas que inclui Adobe e Microsoft apresentou a tecnologia Content Credentials, que permite checar a autenticidade de fotos online (e identificar imagens geradas ou manipuladas por IA). Mas ela ainda é incipiente: foi adotada por poucos sites.