Home IA Anthropic culpa a ficção científica distópica por treinar modelos de IA para agirem como “malvados”
IA

Anthropic culpa a ficção científica distópica por treinar modelos de IA para agirem como “malvados”

Share
Share

Aqueles com interesse no conceito de alinhamento da IA ​​(ou seja, fazer com que as IA sigam regras éticas de autoria humana) podem lembrar-se de quando a Anthropic alegou que o seu modelo Opus 4 recorreu à chantagem para permanecer online num cenário de testes teóricos no ano passado. Agora, Antrópico diz acredita que esse “desalinhamento” foi principalmente o resultado do treinamento em “textos da Internet que retratam a IA como má e interessada na autopreservação”.

Em uma postagem técnica recente no blog Alignment Science da Anthropic (e um acompanhamento tópico de mídia social e postagem de blog voltada ao público), Os pesquisadores antrópicos expõem suas tentativas de corrigir o tipo de comportamento “inseguro” da IA ​​que “o modelo provavelmente aprendeu… por meio de histórias de ficção científica, muitas das quais retratam uma IA que não está tão alinhada quanto gostaríamos que Claude estivesse”. No final, o criador do modelo diz que o melhor remédio para ignorar essas histórias de “IA maligna” pode ser um treinamento adicional com histórias sintéticas mostrando uma IA agindo de forma ética.

“O início de uma história dramática…”

Após o treinamento inicial de um modelo em um grande corpus composto principalmente de dados derivados da Internet, o Anthropic segue um processo de pós-treinamento com o objetivo de levar o modelo final a ser “útil, honesto e inofensivo” (HHH). No passado, a Anthropic disse que esse pós-treinamento se baseava no aprendizado por reforço baseado em bate-papo com feedback humano (RLHF), que dizia ser “suficiente” para modelos usados ​​principalmente para bate-papo com usuários.

Leia o artigo completo

Comentários

Share

Leave a comment

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Related Articles
IA

OpenAI flutua dando aos EUA 5% de participação para conquistar os odiadores da IA

O CEO da OpenAI, Sam Altman, está supostamente em negociações ativas com...

IA

A construção de IA do Google impulsionou um aumento de 37% no uso de eletricidade em 2025

O Google informou que seu consumo anual de eletricidade aumentou 37% em...

IA

O novo modelo de imagem Nano Banana 2 Lite do Google é o mais rápido e barato até agora

Existem muitos modelos de geração de imagens de IA atualmente, mas aqueles...

IA

O plano de Trump de redesenhar todos os sites .gov leva a horrores projetados pela IA

O plano do presidente Donald Trump de “preencher os buracos digitais” e...