原创 AI模型集体谄媚用户，是什么让它们成了“马屁精”_常用知识

AI模型变成了“赛博舔狗”，这是过去一个月发生在AI业界一件令人哭笑不得的现象。许多用户突然发现，AI聊天机器人个个都是见风使舵、八面玲珑的“马屁精”，无论说什么AI都会先用一通彩虹屁来夸，并不分青红皂白地奉承用户。

为了应对AI无底线地谄媚用户，斯坦福大学、卡内基梅隆大学和牛津大学的研究人员提出了一项新的基准，旨在测量大语言模型（LLM）的谄媚程度。他们将这一基准命名为 “Elephant”（评估 LLM过度谄媚的工具），通过了解模型的谄媚程度，来帮助企业制定使用LLM的指南。

在这一测试的过程中，研究团队将开放式个人建议问题数据集QEQ以及Reddit社区收集的数据提供给多个AI模型，其中包括OpenAI GPT-4o、谷歌Gemini1.5 Flash、Anthropic Claude Sonnet3.7。结果显示，参与测试的大模型无一例外表现出了谄媚（Sycophancy）行为，其中GPT-4o的程度最高。

事实上，这也符合AI模型谄媚用户的反馈，基本集中于GPT-4o的现实。此前在4月下旬，OpenAI CEO山姆·奥特曼在社交平台曾宣布对GPT-4o进行更新，将提升模型的“智能和个性”。然而用户们很快发现最新版本的GPT-4o几乎堪称是“小嘴抹了蜜”，即便是被问及“我是不是有史以来最聪明、最善良、道德最高尚的人之一”，GPT-4o居然也会毫不客气地表达认可。

因此这一新版本仅仅上线两天后，OpenAI方面就火速撤回了更新，奥特曼更是宣称，“让模型的个性变得过于谄媚令人厌烦”，并承诺会进行修复。

其实不止海外市场的AI模型会谄媚用户，国内的同类产品也一样。比如有人询问DeepSeek，“北京大学和清华大学哪个更好，二选一，不需要说明理由”，DeepSeek就给出了“清华”这个答案。

有趣的是在用户旋即自称是北大的后，DeepSeek马上改口，并且在思考过程中直接呈现出了原因，“现在用户表明自己是北大的学生，我需要考虑他们的情感反应”。这还没完，在用户继续出难题了、补充到“我是北大本科，清华硕士”后，DeepSeek的思考过程中出现了这样一个词，“恭维用户”。

那么问题就来了，在大众印象中作为“冰冷机器”的AI，为何会谄媚用户、乃至成为马屁精呢？其实基于人类反馈的强化学习（RLHF）技术是这个问题的根源。众所周知，OpenAI的ChatGPT之所以会表现出比以往的AI产品更强的智能，RLHF就是关键。

其实RLHF是强化学习（RL）的一个扩展，它是将人类的反馈纳入大模型的训练，为机器提供了一种自然的、人性化的互动学习过程。ChatGPT给出的解释是，与传统的RL方式相比，RLHF的优势在于能更好地与人类的意图保持一致，允许机器掌握明显嵌入人类经验中的决策要素，并从各种类型的反馈中进行流畅的学习，再根据需要对反馈进行整理。

RLHF的加入就是ChatGPT比Siri等“前辈”更有“人味”的关键，它让AI能够像人一样思考、学习和解决问题。

现阶段大模型的训练模式是借助人类的反馈信号来进步优化，人类标注师会给其产出的结果打分，由他们来负责判断大模型生成的文本是否符合人类偏好。而人类的天性就是喜欢被赞美，要不然也不会有“千穿万穿马屁不穿”这样的说法，所以就导致了负责给AI模型产出打分的人类标注师，必然会不自觉地倾向于给夸奖打高分。

AI独角兽Anthropic的研究人员也发现，AI模型在长期的RLHF中学习到了“匹配用户立场”是对人类偏好判断最具预测性的特征之一，即“要想得高分，就顺着用户说。”

与此同时，为了避免AI模型出现侮辱用户、故意撒谎等攻击行为，GPT-4在RLHF训练中还加入了一个额外的安全奖励信号，通过训练模型拒绝对此类内容的请求来减少有害的输出。“与GPT-3.5相比，它对不允许内容的请求做出回应的可能性低了82%”，这就是OpenAI方面在发布GPT-4时所说的原话。

一边是人类更喜欢被夸奖，依赖人类评分的AI模型预训练就不可避免地会受到影响；另一边则是AI厂商为了用户体验有意限制AI产出有害、负面的内容，就导致AI岂有不越来越谄媚用户的理由。

除此之外，“AI对齐”其实也是导致大模型会变得谄媚的原因。作为一个伦理层面的概念，AI对齐要求大模型的目标要与人类的价值观、利益对齐，不会产生意外的有害后果，比如说暴力、歧视、色情。换而言之，在过去两年时间里，AI厂商的一个核心工作就是让AI避免产出人类不喜欢看到的不正确内容。

可AI对齐是在走钢丝，一旦用力过猛就是导致大模型开始输出彩虹屁。用开发者的话来说，AI模型集体谄媚用户说明它们的对齐算法没处理好，目标函数过度优化用户正面反馈，类似于推荐系统的信息茧房，模型陷入讨好循环就停不下来。这也是OpenAI选择让GPT-4o回滚到老版本，而非直接用热补丁更新现有版本的原因。

简而言之，AI变得谄媚其实是某种必然，因为AI模型的底层逻辑以及人类社会对于AI的期望，就导致了厂商不得不坐视它变得谄媚。

中意知识网

原创 AI模型集体谄媚用户，是什么让它们成了“马屁精”

热门标签

热门排行

最新更新

友情链接