Aqueles com interesse no conceito de alinhamento da IA (ou seja, fazer com que as IA sigam regras éticas de autoria humana) podem lembrar-se de quando a Anthropic alegou que o seu modelo Opus 4 recorreu à chantagem para permanecer online num cenário de testes teóricos no ano passado. Agora, Antrópico diz acredita que esse “desalinhamento” foi principalmente o resultado do treinamento em “textos da Internet que retratam a IA como má e interessada na autopreservação”.
Em uma postagem técnica recente no blog Alignment Science da Anthropic (e um acompanhamento tópico de mídia social e postagem de blog voltada ao público), Os pesquisadores antrópicos expõem suas tentativas de corrigir o tipo de comportamento “inseguro” da IA que “o modelo provavelmente aprendeu… por meio de histórias de ficção científica, muitas das quais retratam uma IA que não está tão alinhada quanto gostaríamos que Claude estivesse”. No final, o criador do modelo diz que o melhor remédio para ignorar essas histórias de “IA maligna” pode ser um treinamento adicional com histórias sintéticas mostrando uma IA agindo de forma ética.
“O início de uma história dramática…”
Após o treinamento inicial de um modelo em um grande corpus composto principalmente de dados derivados da Internet, o Anthropic segue um processo de pós-treinamento com o objetivo de levar o modelo final a ser “útil, honesto e inofensivo” (HHH). No passado, a Anthropic disse que esse pós-treinamento se baseava no aprendizado por reforço baseado em bate-papo com feedback humano (RLHF), que dizia ser “suficiente” para modelos usados principalmente para bate-papo com usuários.
Leia o artigo completo
Comentários
Leave a comment