Black Friday: Assine a partir de 1,49/semana
Imagem Blog

Bruno Garattoni

Por Bruno Garattoni Materia seguir SEGUIR Seguindo Materia SEGUINDO
Vencedor de 15 prêmios de Jornalismo. Editor da Super.

IA vai gerar dados para treinar outras IAs

Algoritmo criado pela Nvidia tenta superar barreira das inteligências artificiais atuais - que já foram alimentadas com quase todo o conteúdo da internet, mas precisam de ainda mais informações para evoluir

Por Bruno Garattoni Materia seguir SEGUIR Materia seguir SEGUINDO
8 jul 2024, 16h00

Os atuais algoritmos de inteligência artificial, sejam modelos de linguagem (como o ChatGPT e o Gemini), geradores de imagens (Dall-E, Stable Diffusion, Midjourney) ou vídeos (Sora, Runway), bebem da mesma fonte: eles foram “treinados” com material copiado da internet. Existe uma relação direta, ainda que não exclusiva, entre a sofisticação de um algoritmo de IA e a quantidade de dados que ele recebeu para analisar. E isso pode ser um obstáculo para a evolução do setor: como criar IAs mais avançadas sem dar a elas mais dados? Nos últimos anos, as grandes empresas de tecnologia já copiaram, geralmente sem autorização, todo o conteúdo online que conseguiram alcançar.

O próximo passo pode estar em outro tipo de conteúdo: dados sintéticos, gerados por IAs para alimentar o desenvolvimento de outras IAs. Essa é a proposta do algoritmo Nemotron-4 340B, criado pela Nvidia. Ele é capaz de analisar um conjunto de informações e gerar uma nova massa de dados, que então podem ser usados para treinar uma segunda IA. 

nvidia-ia
Fluxo de uso do algoritmo Nemotron, com geração de dados sintéticos para alinhamento de IA. (Nvidia/Reprodução)

Os dados sintéticos costumam estar associados a um risco: o “colapso do modelo”, uma degeneração progressiva que acomete modelos de linguagem alimentados com informações geradas por outras IAs. Nesse fenômeno, que foi demonstrado pela primeira vez em 2023, o algoritmo vai gerando respostas cada vez mais distorcidas, até chegar a um ponto em que se torna irrecuperável. 

A Nvidia não aborda esse risco no artigo de apresentação do Nemotron. Mas destaca outro modelo de uso, que talvez não esteja sujeito a ele: a utilização de dados sintéticos para o chamado alinhamento (ajuste de uma IA para garantir que ela gera as respostas esperadas, de acordo com os objetivos de seus criadores). O alinhamento é um ponto crucial para a adoção segura da IA no futuro.

Continua após a publicidade

Num teste realizado pela Nvidia, o Nemotron gerou dados sintéticos, que então foram usados para alinhar outro algoritmo de IA: o Llama 3 70B, criado pela Meta. Segundo a Nvidia, o resultado foi excelente: o Llama alcançou alto grau de alinhamento, igualando ou superando o Llama 3 70B Instruct (um terceiro algoritmo, alinhado com dados gerados por humanos).  

Compartilhe essa matéria via:
Publicidade

Matéria exclusiva para assinantes. Faça seu login

Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

Black Friday

A melhor notícia da Black Friday

BLACK
FRIDAY
Digital Completo
Digital Completo

Acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

a partir de 5,99/mês*

ou
BLACK
FRIDAY

MELHOR
OFERTA

Impressa + Digital
Impressa + Digital

Receba Super impressa e tenha acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

a partir de 10,99/mês

ou

*Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app.
*Pagamento único anual de R$71,88, equivalente a 5,99/mês.

PARABÉNS! Você já pode ler essa matéria grátis.
Fechar

Não vá embora sem ler essa matéria!
Assista um anúncio e leia grátis
CLIQUE AQUI.