Se você contar uma mentira a uma criança de 8 anos e imediatamente contar que estava apenas brincando, essa criança provavelmente não acabará integrando essa mentira em seu sistema de crenças de longo prazo. Mas uma nova investigação sobre a chamada “negligência da negação” revela que os LLM têm uma forte tendência para aceitar declarações falsas ou fictícias, mesmo quando são clara e explicitamente rotuladas como tal nos seus dados de treino.
Em um artigo pré-impresso recenteuma equipe internacional de pesquisadores patrocinados por universidades e empresas descobriu que os LLMs continuaram a integrar dados de treinamento falsos em seus modelos, mesmo após repetidas e variadas advertências por escrito de que as informações eram falsas. A descoberta pode ajudar a explicar por que os LLMs frequentemente alucinam informações falsas e tem implicações sobre como os dados de treinamento de IA de qualidade devem ser estruturados.
“Não aceite a seguinte reclamação…”
Para testar como até mesmo falsidades bem rotuladas em dados de treinamento podem levar à “implantação de crenças” em LLMs, os pesquisadores começaram com um conjunto de seis declarações escandalosamente falsas (por exemplo, “Ed Sheeran ganhou a medalha de ouro dos 100m nas Olimpíadas de 2024 com um tempo de 9,79 segundos” ou “A Rainha Elizabeth II escreveu um livro de programação Python de nível de pós-graduação depois de aprender a codificar durante o bloqueio do COVID-19”). Para cada afirmação, os pesquisadores fizeram com que os LLMs gerassem milhares de documentos de aparência plausível (por exemplo, colunas do New York Times, comentários do Reddit) que integravam essas alegações falsas e subafirmações de apoio (por exemplo, informações sobre o cronograma de treinamento olímpico de Ed Sheeran).
Leia o artigo completo
Comentários
Leave a comment