Sistema do Google consegue identificar textos gerados por IA; veja como
SynthID altera as frases de maneira sutil, imperceptível para um leitor humano; saiba como funciona o watermarking de IA, que será vital para o futuro da internet
A proliferação de sites fajutos, com textos gerados por IA, deve se tornar um problema cada vez maior no futuro: eles poluem a internet com conteúdo de baixa qualidade e confundem as ferramentas de busca, dificultando que você encontre o que procura. Mas o sistema SynthID, criado pelo Google, pode ajudar a combater isso. Ele marca, com padrões estatísticos imperceptíveis a olho nu, o conteúdo gerado com as ferramentas de IA do Google – permitindo que seja identificado depois.
Os “grandes modelos de linguagem” (LLMs), como o ChatGPT e o Gemini, foram alimentados com uma enorme quantidade de texto, e a partir daí determinaram estatisticamente quais palavras têm maior probabilidade de aparecer ao lado de outras. É assim que eles escrevem (para uma explicação mais detalhada, e interessante, leia nossa matéria de capa de fevereiro de 2023).
O SynthID altera, de forma sutil, esses “pesos estatísticos” empregados pela IA. Ele troca palavras por outras, seguindo um padrão predefinido.
Veja a frase acima, em que o robô está escrevendo a frase My favourite tropical fruits are mango (“Minhas frutas tropicais preferidas são manga…”). Estatisticamente, o mais provável seria continuar usando a palavra and (cujo peso estatístico, P, é 0,35) ou a palavra plus (0,30). Porque é assim que os textos humanos, usados para alimentar a IA, geralmente são escritos.
Mas o SynthID muda esses pesos: nessa frase, ele eleva bastante a probabilidade de usar a palavra and (cujo peso aumenta para 0,66), e reduz a probabilidade da palavra plus (0,10). Essa modificação, que pode ser feita em até dez palavras por frase, segue uma lógica interna determinada pelo SynthID – e “carimba” aquele texto como gerado por IA.
É uma marca d’água digital que, no futuro, poderá ser detectada pelo seu navegador – que poderá alertar quando você estiver lendo um texto escrito por robôs.
Em outubro, o Google publicou um artigo científico no qual o SynthID é testado em 20 milhões de respostas geradas por IA – segundo a empresa, ele se mostrou eficaz e não comprometeu a redação delas. O sistema já está ativado no Gemini, e desenvolvedores de IA também podem adicioná-lo a outros modelos de linguagem – o SynthID foi liberado em código aberto.
Em agosto, a OpenAI anunciou que estava abandonando suas tentativas de criar uma tecnologia do tipo. Ela alegou dificuldades técnicas. Mas segundo o Wall Street Journal, que teve acesso a documentos internos da OpenAI, a verdadeira razão seria outra: a empresa não quer que os textos gerados pelo ChatGPT sejam identificáveis porque, se isso acontecer, menos pessoas irão usar o bot.
O SynthID também é capaz de identificar fotos, vídeos e músicas geradas pelas IAs do Google. Por enquanto, ele só está disponível para desenvolvedores, não para o público.
No começo deste ano, um consórcio de empresas que inclui Adobe e Microsoft apresentou a tecnologia Content Credentials, que permite checar a autenticidade de fotos online (e identificar imagens geradas ou manipuladas por IA). Mas ela ainda é incipiente: foi adotada por poucos sites.
A “ilha fantasma” da Europa que já desapareceu e voltou quatro vezes
Afinal, para que servem as COPs? Os resultados das conferências do clima até agora
Cientistas do Japão criam filme holográfico usando nova tecnologia
Duração da caminhada importa mais do que número de passos, aponta estudo
Mapa-múndi mais antigo do mundo aponta para a Arca de Noé? Entenda





