Openai diz que disciplinar chatbots para mentir apenas os piora

Como muitas pessoas sabem, os chatbots têm uma propensão para mentir. Eles são talvez um dos piores casos de uso para a IA, treinados para produzir frases que parecem autoritárias, mas que podem estar apresentando informações completamente fabricadas; Os modelos são tendenciosos para fornecer uma resposta, mesmo quando não estão confiantes. Agora, os pesquisadores do Openai dizem que a supervisão e a disciplina dos chatbots só piora o problema, pois os chatbots se esforçarão mais para esconder seu comportamento.

Em um post sobre o trabalho, os pesquisadores do OpenAI descrevem o uso de seu modelo GPT-4O para “supervisionar” outro de seus grandes modelos de idiomas, disciplinando quando tentou mentir. Mas isso não funcionou, pois o modelo ainda estava, “só agora sua trapaça é indetectável pelo monitor porque aprendeu a esconder sua intenção na cadeia de pensamentos”.

Os modelos mais recentes de “pensamento” usam o raciocínio de várias etapas para responder a perguntas. Se um usuário solicitar uma estimativa sobre o quanto os americanos gastam em alimentos para animais de estimação a cada ano, por exemplo, esses modelos dividem a consulta em várias etapas – como muitos cães estão na América, quanto custa alimentar o cão médio e assim por diante.

Esses modelos também geralmente divulgam sua lógica, ou “cadeia de pensamento”, para o usuário para que possam ver como chegou à sua resposta. Curiosamente, eles costumam copiar para inventar fatos e detalhes. Na etapa de “pré-treinamento”, quando empresas como o OpenAI ensinam inicialmente a um modelo que tipos de respostas que devem produzir, os modelos parecem estar aprendendo que é mais fácil ganhar o cookie tomando atalhos. Pense no corredor em uma maratona que pula em um carro e pula a maior parte da corrida.

Os usuários nas mídias sociais demonstraram Claude da Anthrópica, quando solicitados a conduzir uma análise de dados de vários trabalhos de pesquisa, admitem que às vezes insere dados de preenchimento em vez de realmente examinar todos os trabalhos.

Os pesquisadores da Openai destacaram uma instância em seus testes em que o modelo, pediu para escrever alguns testes para garantir que um código de código trabalhasse, decidiu clandestinamente escrever alguns testes ruins e depois pular intencionalmente para que o código acabasse “passando”. Com o GPT-4O como supervisor, o modelo faria isso, mas não o divulgou.

quase perdeu US $ 100 milhões porque @AntrópicaClaude entrou em ‘gerar dados aleatórios’ como um recuo no meu código de fabricante de mercado sem me dizer pic.twitter.com/j3mlgsl5lq
– Martin Shkreli (@martinshkreli) 5 de março de 2025

As empresas de IA têm tentado resolver a questão perniciosa dos modelos ou “alucinando”, como é chamado no campo e, finalmente, atinge a AGI, ou o ponto em que a IA poderia superar a capacidade humana. Mas os pesquisadores da OpenAI estão dizendo essencialmente que, após dezenas de bilhões de investimentos, eles ainda não sabem como controlar os modelos para se comportar adequadamente. “Se a supervisão forte for aplicada diretamente à cadeia de pensamento, os modelos podem aprender a esconder sua intenção enquanto continuam a se comportar mal”, acrescentaram. Por enquanto, as empresas não devem implementar a supervisão de modelos que parecem não ser exatamente uma ótima solução. Ergo, deixe -os continuar mentindo por enquanto, ou então eles vão apenas gastar com você.

O código do TFW Claude gastou 739 segundos “manifestando”, não conseguiu fazer a mudança que você pediu, quebrou 3 outras coisas que costumavam funcionar bem e depois cobraram $ 11,14 pic.twitter.com/ap2jlq0ui8
– Adam 🇺🇸 (@PersonOfswag) 19 de março de 2025

A pesquisa deve servir como um lembrete para ter cuidado ao confiar em chatbots, especialmente quando se trata de trabalho crítico. Eles são otimizados para produzir um confiante-olhando Responda, mas não se preocupa muito com a precisão factual. “Como treinamos modelos de raciocínio de fronteira mais capazes, descobrimos que eles se tornaram cada vez mais hábeis em explorar falhas em suas tarefas e especificações incorretas em suas funções de recompensa, resultando em modelos que podem executar hacks de recompensa complexos nas tarefas de codificação”, concluíram os pesquisadores do OpenAI.

Vários relatórios sugeriram que a maioria das empresas ainda não encontrou valor em todos os novos produtos de IA que entram no mercado, com ferramentas como a Microsoft Copilot e a Apple Intelligence assumidas com problemas, com críticas contundentes detalhando sua precisão e falta de utilidade real. De acordo com um relatório recente do Boston Consulting Group, uma pesquisa com 1.000 executivos seniores em 10 grandes indústrias constatou que 74% mostravam qualquer valor tangível da IA. O que o torna ainda mais irritante é que esses modelos de “pensamento” são lentos e um pouco mais caros que os modelos menores. As empresas querem pagar US $ 5 por uma consulta que voltará com informações inventadas?

Sempre há muito hype na indústria de tecnologia para as coisas, então você sai dele e percebe que a maioria das pessoas ainda não o está usando. Por enquanto, não vale a pena o aborrecimento, e fontes de informação credíveis são mais importantes do que nunca.

Openai diz que disciplinar chatbots para mentir apenas os piora

Deixe um comentário Cancelar resposta

Plano que transportava membros do Congresso envolvido na colisão da pista em DC

WhatsApp revoluciona (de novo?) com atualizações em bate-papos, chamadas e canais

Meta sob Fogo: Acusações de Manipulação Emocional de Adolescentes para Lucro com Anúncios

Microsoft, IA e Genocídio: Quando a Festa Vira Protesto e os Contratos Valem Mais que Ética

Crescimento do ChatGPT na Índia explode, mas a conta ainda não fecha para a OpenAI

Categorias

Postagens recentes

Plano que transportava membros do Congresso envolvido na colisão da pista em DC

WhatsApp revoluciona (de novo?) com atualizações em bate-papos, chamadas e canais

Links importantes

Artigos relacionados

Deixe um comentário Cancelar resposta