Terça-feira antrópica lançado publicamente Claude Fable 5seu primeiro modelo da “classe Mythos” que, segundo ela, supera seus modelos Opus de fronteira anteriores em capacidades gerais. Mas o lançamento do modelo hoje vem com salvaguardas concebidas para evitar que responda a perguntas sobre tópicos como segurança cibernética, biologia e química, onde a empresa se preocupou publicamente com o seu impacto potencial para “elevar” atores maliciosos.
A Anthropic diz que o Fable 5 opera no “mesmo modelo subjacente” do Mythos 5, que está saindo hoje de seu período de meses de “Mythos Preview”, mas apenas para “um pequeno grupo de ciberdefensores” considerados confiáveis através do Projeto existente Glasswing. Ao contrário do Mythos 5, porém, o Fable 5, acessível ao público, foi projetado para canalizar consultas sobre certos tópicos delicados para o modelo anterior Claude Opus 4.8 e para avisar o usuário quando isso estiver acontecendo.
Entre as muitas melhorias de benchmark reivindicadas para o Fable 5, aquela relacionada à segurança cibernética foi um salto particularmente grande. Crédito:
Antrópico
A Anthropic disse que ajustou essas salvaguardas para serem “mais rígidas que o ideal”, o que significa que o sistema pode ocasionalmente recusar “solicitações inofensivas” de uma forma que reconhece poder ser frustrante para usuários regulares. Mas a Anthropic diz que esses falsos positivos surgem em menos de cinco por cento de todas as sessões de teste e valeram a pena para evitar situações em que a Mythos pudesse dar assistência a atores mal-intencionados para “causar danos graves que eles não poderiam ter recebido de outras fontes”.
Leia o artigo completo
Comentários
Leave a comment