Conectando você ao futuro da tecnologia com informação, inovação e praticidade.

Home IA Anthropic culpa a ficção científica distópica por treinar modelos de IA para agirem como “malvados”

Anthropic culpa a ficção científica distópica por treinar modelos de IA para agirem como “malvados”

tecnotudoUpdated 2 meses Ago1 Mins read20 Views

Aqueles com interesse no conceito de alinhamento da IA (ou seja, fazer com que as IA sigam regras éticas de autoria humana) podem lembrar-se de quando a Anthropic alegou que o seu modelo Opus 4 recorreu à chantagem para permanecer online num cenário de testes teóricos no ano passado. Agora, Antrópico diz acredita que esse “desalinhamento” foi principalmente o resultado do treinamento em “textos da Internet que retratam a IA como má e interessada na autopreservação”.

Em uma postagem técnica recente no blog Alignment Science da Anthropic (e um acompanhamento tópico de mídia social e postagem de blog voltada ao público), Os pesquisadores antrópicos expõem suas tentativas de corrigir o tipo de comportamento “inseguro” da IA que “o modelo provavelmente aprendeu… por meio de histórias de ficção científica, muitas das quais retratam uma IA que não está tão alinhada quanto gostaríamos que Claude estivesse”. No final, o criador do modelo diz que o melhor remédio para ignorar essas histórias de “IA maligna” pode ser um treinamento adicional com histórias sintéticas mostrando uma IA agindo de forma ética.

“O início de uma história dramática…”

Após o treinamento inicial de um modelo em um grande corpus composto principalmente de dados derivados da Internet, o Anthropic segue um processo de pós-treinamento com o objetivo de levar o modelo final a ser “útil, honesto e inofensivo” (HHH). No passado, a Anthropic disse que esse pós-treinamento se baseava no aprendizado por reforço baseado em bate-papo com feedback humano (RLHF), que dizia ser “suficiente” para modelos usados principalmente para bate-papo com usuários.

Leia o artigo completo

Comentários

Previous post Trump escolhe líder de saúde normal e qualificado para chefiar o CDC; especialistas ainda cautelosos

Next post O executivo da Amazon minimiza novos rumores sobre o Fire Phone: "Nenhum caminho claro que faça sentido"

Anthropic culpa a ficção científica distópica por treinar modelos de IA para agirem como “malvados”

“O início de uma história dramática…”

Leave a comment

Deixe um comentário Cancelar resposta

O seu SUV Purosangue não é afiado o suficiente? A Ferrari tem tudo para você.

A Toyota construiu uma utopia privada de US$ 10 bilhões – o que está acontecendo aí?

F1 em Miami: é assim que parece quando uma atualização funciona

A aposta de Musk na Europa: Será que outros seguirão os holandeses e aprovarão o FSD?

OpenAI flutua dando aos EUA 5% de participação para conquistar os odiadores da IA

A construção de IA do Google impulsionou um aumento de 37% no uso de eletricidade em 2025

O novo modelo de imagem Nano Banana 2 Lite do Google é o mais rápido e barato até agora

O plano de Trump de redesenhar todos os sites .gov leva a horrores projetados pela IA

Há muito entusiasmo sobre os EVs chineses – algo disso é verdade?

O seu SUV Purosangue não é afiado o suficiente? A Ferrari tem tudo para você.

A Toyota construiu uma utopia privada de US$ 10 bilhões – o que está acontecendo aí?