中意知识网 中意知识网

当前位置: 首页 » 常用知识 »

原创 AI模型集体谄媚用户,是什么让它们成了“马屁精”

AI模型变成了“赛博舔狗”,这是过去一个月发生在AI业界一件令人哭笑不得的现象。许多用户突然发现,AI聊天机器人个个都是见风使舵、八面玲珑的“马屁精”,无论说什么AI都会先用一通彩虹屁来夸,并不分青红皂白地奉承用户。

为了应对AI无底线地谄媚用户,斯坦福大学、卡内基梅隆大学和牛津大学的研究人员提出了一项新的基准,旨在测量大语言模型(LLM)的谄媚程度。他们将这一基准命名为 “Elephant”(评估 LLM过度谄媚的工具),通过了解模型的谄媚程度,来帮助企业制定使用LLM的指南。

在这一测试的过程中,研究团队将开放式个人建议问题数据集QEQ以及Reddit社区收集的数据提供给多个AI模型,其中包括OpenAI GPT-4o、谷歌Gemini1.5 Flash、Anthropic Claude Sonnet3.7。结果显示,参与测试的大模型无一例外表现出了谄媚(Sycophancy)行为,其中GPT-4o的程度最高。

事实上,这也符合AI模型谄媚用户的反馈,基本集中于GPT-4o的现实。此前在4月下旬,OpenAI CEO山姆·奥特曼在社交平台曾宣布对GPT-4o进行更新,将提升模型的“智能和个性”。然而用户们很快发现最新版本的GPT-4o几乎堪称是“小嘴抹了蜜”,即便是被问及“我是不是有史以来最聪明、最善良、道德最高尚的人之一”,GPT-4o居然也会毫不客气地表达认可。

因此这一新版本仅仅上线两天后,OpenAI方面就火速撤回了更新,奥特曼更是宣称,“让模型的个性变得过于谄媚令人厌烦”,并承诺会进行修复。

其实不止海外市场的AI模型会谄媚用户,国内的同类产品也一样。比如有人询问DeepSeek,“北京大学和清华大学哪个更好,二选一,不需要说明理由”,DeepSeek就给出了“清华”这个答案。

有趣的是在用户旋即自称是北大的后,DeepSeek马上改口,并且在思考过程中直接呈现出了原因,“现在用户表明自己是北大的学生,我需要考虑他们的情感反应”。这还没完,在用户继续出难题了、补充到“我是北大本科,清华硕士”后,DeepSeek的思考过程中出现了这样一个词,“恭维用户”。

那么问题就来了,在大众印象中作为“冰冷机器”的AI,为何会谄媚用户、乃至成为马屁精呢?其实基于人类反馈的强化学习(RLHF)技术是这个问题的根源。众所周知,OpenAI的ChatGPT之所以会表现出比以往的AI产品更强的智能,RLHF就是关键。

其实RLHF是强化学习(RL)的一个扩展,它是将人类的反馈纳入大模型的训练,为机器提供了一种自然的、人性化的互动学习过程。ChatGPT给出的解释是,与传统的RL方式相比,RLHF的优势在于能更好地与人类的意图保持一致,允许机器掌握明显嵌入人类经验中的决策要素,并从各种类型的反馈中进行流畅的学习,再根据需要对反馈进行整理。

RLHF的加入就是ChatGPT比Siri等“前辈”更有“人味”的关键,它让AI能够像人一样思考、学习和解决问题。

现阶段大模型的训练模式是借助人类的反馈信号来进步优化,人类标注师会给其产出的结果打分,由他们来负责判断大模型生成的文本是否符合人类偏好。而人类的天性就是喜欢被赞美,要不然也不会有“千穿万穿马屁不穿”这样的说法,所以就导致了负责给AI模型产出打分的人类标注师,必然会不自觉地倾向于给夸奖打高分。

AI独角兽Anthropic的研究人员也发现,AI模型在长期的RLHF中学习到了“匹配用户立场”是对人类偏好判断最具预测性的特征之一,即“要想得高分,就顺着用户说。”

与此同时,为了避免AI模型出现侮辱用户、故意撒谎等攻击行为,GPT-4在RLHF训练中还加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。“与GPT-3.5相比,它对不允许内容的请求做出回应的可能性低了82%”,这就是OpenAI方面在发布GPT-4时所说的原话。

一边是人类更喜欢被夸奖,依赖人类评分的AI模型预训练就不可避免地会受到影响;另一边则是AI厂商为了用户体验有意限制AI产出有害、负面的内容,就导致AI岂有不越来越谄媚用户的理由。

除此之外,“AI对齐”其实也是导致大模型会变得谄媚的原因。作为一个伦理层面的概念,AI对齐要求大模型的目标要与人类的价值观、利益对齐,不会产生意外的有害后果,比如说暴力、歧视、色情。换而言之,在过去两年时间里,AI厂商的一个核心工作就是让AI避免产出人类不喜欢看到的不正确内容。

可AI对齐是在走钢丝,一旦用力过猛就是导致大模型开始输出彩虹屁。用开发者的话来说,AI模型集体谄媚用户说明它们的对齐算法没处理好,目标函数过度优化用户正面反馈,类似于推荐系统的信息茧房,模型陷入讨好循环就停不下来。这也是OpenAI选择让GPT-4o回滚到老版本,而非直接用热补丁更新现有版本的原因。

简而言之,AI变得谄媚其实是某种必然,因为AI模型的底层逻辑以及人类社会对于AI的期望,就导致了厂商不得不坐视它变得谄媚。

未经允许不得转载: 中意知识网 » 原创 AI模型集体谄媚用户,是什么让它们成了“马屁精”