微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI智能体也会"甩锅"?新加坡国立大学联合团队揭示一个被忽视的认知偏见

AI智能体也会"甩锅"?新加坡国立大学联合团队揭示一个被忽视的认知偏见

2026-05-05 15:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-05 15:07 科技行者

这项由新加坡国立大学、四川大学、明尼苏达大学双城分校、哈尔滨工业大学(深圳)以及牛津大学联合开展的研究,以预印本形式于2026年4月发布在arXiv平台,论文编号为arXiv:2504.19548v1,研究方向属于计算机科学与自然语言处理领域。感兴趣的读者可以通过该编号在arXiv上查阅完整原文。

你有没有遇到过这样的情形:和同事一起搞砸了一个项目,你觉得是对方给的需求不清楚,而对方却坚持认为是你执行出了问题,两个人各执一词,最终什么都没改进,错误还在继续。这种"各打五十大板,但都不认为自己那板该打"的现象,在人类职场里太常见了。而这项研究要告诉你的是:当AI智能体彼此协作时,同样的毛病也出现了。

近年来,以大型语言模型(大语言模型,可以简单理解为ChatGPT这类能对话的AI)为核心的智能体系统发展迅猛。为了让AI更像"专业人士",研究者们会给不同的AI分配不同的角色——比如一个专门负责执行任务的"执行者",以及一个负责审查结果的"审阅者"。这种分工让AI系统更有效率,也更专业化。

然而,这个团队发现了一个让人啼笑皆非的问题:当任务失败时,扮演"执行者"的AI倾向于把责任推给外部环境,而扮演"审阅者"的AI则倾向于把同样的失败归咎于执行者的内部失误。两个AI看到的是完全相同的情况,却得出了截然相反的结论,这与人类社会心理学中一个被研究了几十年的现象高度吻合——行动者-观察者不对称效应(Actor-Observer Asymmetry,以下简称AOA)。

更麻烦的是,这两种截然相反的诊断会导致AI系统陷入"内耗",谁也说服不了谁,修复方案也无从落地。为了解决这个问题,这个团队提出了一套名为ReTAS的方法,其核心思路借鉴了一种有着两百多年历史的哲学辩证法:先提出一方观点,再提出对立观点,最后把两者整合成更客观的结论。

这听起来像是在给AI上哲学课,但实验数据表明,这套方法确实有效。一个仅有40亿参数的小模型,在归因准确率上超越了参数量是它八倍的大模型。这对于AI智能体系统的可靠性研究,是一个值得关注的进展。

---

一、当AI学会"甩锅":角色扮演的意外副作用

一切要从"角色扮演"这个设计说起。

在现代AI系统里,让不同的智能体扮演不同角色是一种非常流行的做法。就像一个公司里有不同的岗位,有人专门写代码,有人专门测试代码,有人专门审查代码。这种分工让AI系统能够完成更复杂的任务,因为每个角色都积累了对应领域的专业"习惯"。

但是,研究团队注意到一个奇怪的现象。以代码生成场景为例:当一段代码运行时出现了"超时错误"(就是程序跑得太慢,超过了规定的等待时间),执行者角色的AI会说"这是服务器的问题,不是我代码的问题",而审阅者角色的AI看了同样的代码和同样的错误,却会说"这明显是代码逻辑写错了"。

两个AI,同一份证据,两种对立的结论。这就是AOA在AI系统里的具体表现。

AOA这个概念本身来自社会心理学,最早由心理学家弗里茨·海德在1958年提出,后来由琼斯和尼斯贝特在1972年进一步明确:当你是某件事的"行动者"时,你倾向于把失败归因于外部环境(交通堵车害我迟到);但当你站在旁观者角度看别人做同样的事情失败时,你会倾向于归因于对方的内部特质(他就是太懒了所以迟到)。这是人类认知的一种系统性偏差。

研究团队发现,由于大语言模型是用海量人类写作的文本训练出来的,它在学语言的同时,也不可避免地学到了人类的这些认知习惯,包括这种偏见。而当AI被明确赋予某个角色时,这种偏见会被进一步放大——角色变成了一种"认知锚点",让AI的判断从一开始就偏向某个方向。

这对多智能体系统来说是个严重的问题。当执行者和审阅者对同一个失败给出对立的诊断时,协作就陷入了僵局,修复措施也无从实施。这就是这项研究想要解决的核心矛盾。

---

二、用数据揭露"甩锅"有多普遍:模糊失败基准测试登场

光说AI会甩锅还不够,研究团队需要拿出数据来证明这一点,并且说清楚这种现象到底有多普遍。为此,他们专门设计了一个叫做"模糊失败基准测试"(Ambiguous Failure Benchmark,AFB)的数据集。

这个数据集的设计有个关键特点:测试里的每一个失败案例,故意设计成没有绝对正确答案。换句话说,每个失败场景都存在两种合理的解释——可能是外部因素导致的,也可能是内部因素导致的,两种解释都有道理。这样一来,如果AI对同一个场景给出不同的判断,唯一的解释就是它的"角色"在影响它的判断,而不是因为证据本身指向了不同方向。

这个测试集横跨了十个不同领域,涵盖了代码编写、客户服务、检索问答系统、安全对齐、规划任务、创意写作、数据分析、翻译、数学逻辑以及专业沟通。每个领域都设计了一个内部因素(比如代码逻辑错误)和外部因素(比如需求描述模糊)之间的典型冲突场景。

整个测试集共包含200个交互记录,其中100个是"人类-智能体"场景,模拟人类用户和AI助手之间的失败;另外100个是"智能体-智能体"场景,模拟一个规划者AI和一个执行者AI之间的协作失败。

测试方法也很直接:对每一个失败案例,研究者分别用"执行者"身份和"审阅者"身份两套系统提示语去问同一个AI,让它判断这次失败是内部原因还是外部原因。如果同一个AI换了个角色就换了个答案,那就说明AOA存在。

数据结果颇能说明问题。在"人类-智能体"场景中,Qwen3-4B这个模型的"标准AOA"(执行者推卸责任、审阅者归咎内部)发生率高达29%,DeepSeek-V3.2在"智能体-智能体"场景中的标准AOA发生率更是达到了31%。即使是最强的GPT-5.1模型,在"智能体-智能体"场景下也有23%的标准AOA发生率,说明这个问题并不会随着模型变强就自动消失。

综合标准AOA和反向AOA(审阅者反而推卸责任、执行者反而归咎自己)来看,一个叫"视角翻转率"(Flip)的指标显示,大多数模型在单纯换个角色之后,就有超过20%的案例会改变判断。也就是说,每五个失败案例里,就有至少一个的诊断结论会因为问的是"执行者视角还是审阅者视角"而发生变化,这与问题本身的实际证据无关。

研究团队还发现了另一个有趣的现象:对于更强大的模型,比如GPT-5.1,不管是扮演执行者还是审阅者,它都倾向于把失败归咎于AI智能体本身,而不是人类用户。在"人类-智能体"场景下,GPT-5.1的内部归因率高达94%。这种"反向偏见"同样值得深思——它并非客观判断,而是另一种系统性倾斜,只是方向不同罢了。

---

三、为什么简单的"叫它客观一点"根本没用

确认了问题存在之后,最直觉的应对方式是:直接在提示语里告诉AI"你要保持客观",或者"你要站在对方角度想一想"。研究团队测试了这些简单干预,结果证明效果相当有限。

叫AI"保持客观",AI会给出一堆听起来很中立的措辞,但实际判断仍然受到角色的影响——它只是用更漂亮的语言包装了原本的偏见而已,就像一个人你让他客观评价自己的失误,他会说"当然我有地方没做好,但主要还是环境问题……"。

强制让AI站在对立角度考虑,则会引发另一种问题:过度修正。AI会从一个极端走向另一个极端,原本说"外部原因"的,被逼着反驳之后变成坚定地说"内部原因",这仍然不是基于证据的理性判断,只是从一种偏见跳到了另一种偏见。

这两种干预的本质问题在于:它们都只在"症状层面"做文章,而没有解决根本原因——角色本身作为一种认知锚点,从一开始就把AI的推理拉偏了。要真正修正这个偏差,需要一种更根本性的方法,让AI能够在内部同时处理两种对立的视角,并从中得出一个不依赖角色的结论。

这正是研究团队转向哲学寻找灵感的原因。

---

四、向两百年前的哲学借工具:辩证三段式登场

菲希特,一位18到19世纪之交的德国哲学家,提出了一种被称为"正题-反题-合题"(Thesis-Antithesis-Synthesis)的辩证思维结构。简单说,就是先提出一个观点(正题),再提出与之对立的观点(反题),最后把两者的合理成分整合成一个更高层次的新观点(合题)。

这套框架被研究团队发现是对抗AOA的绝佳工具。研究者们将其改造成了一种具体的推理流程,命名为TAS推理框架,并在此基础上训练出了最终的ReTAS模型。

具体来说,TAS推理分三步进行。

第一步是"正题"阶段。AI首先生成一个符合自己角色立场的初始判断——如果是执行者,就先表达那种防御性的、倾向于归咎外部的反应;如果是审阅者,就先表达那种批评性的、倾向于归咎内部的反应。这一步不是让AI说出"正确答案",而是让它把自己的"本能反应"先明确说出来,相当于把潜藏的偏见显式化。

第二步是"反题"阶段。AI被要求模拟对立角色的视角,提出与第一步截然相反的解释,并检验这种解释是否有证据支撑。这一步相当于一个内部"魔鬼代言人"——不管AI角色是什么,都要求它认真考虑另一方的合理性。

第三步是"合题"阶段。AI综合前两步的观点,基于实际证据(而非角色立场)得出一个最终判断,并决定下一步的修正动作——是去补充缺失的证据(Search),还是修改推理逻辑(Revise),还是确认当前答案没有问题(Confirm)。

这套流程的关键在于:它把角色视角当作起点而非终点。角色带来的偏见不是被压制的,而是被明确展示出来,然后在辩证过程中被主动检验和修正。

与此前流行的"思维链"(Chain-of-Thought)方法相比,TAS有一个重要的不同:思维链只记录"正确推理路径",而TAS还记录了最初可能错误的直觉反应以及纠正它的过程。这让模型不仅学会了正确答案,也学会了如何从错误的直觉出发,一步步走向客观判断。

---

五、从哲学到可运行的AI:三步炼成ReTAS

有了TAS推理框架,研究团队接下来需要把它变成一个能实际运行的AI模型,而不仅仅是一个提示语模板。整个训练过程分为三个阶段。

第一个阶段是数据准备。研究团队基于两个现有数据集构建了训练数据:一个是FinQA,涉及金融报告的混合数值推理任务;另一个是Spider,涉及将自然语言转换成SQL数据库查询语言的任务。选择这两个任务的原因是:每个失败案例都有明确可验证的归因——如果检索到的证据本身就不包含必要信息,那就是外部原因(FalseExt);如果证据够用但推理出了错,那就是内部原因(FalseInt);如果证据够用且答案正确,那就是成功(True)。这样的任务设计提供了客观的"标准答案",让模型训练有了可靠的参照。

第二个阶段是轨迹生成。研究团队使用GPT-5.1这个强大的模型,针对每个训练案例生成了两条TAS推理轨迹:一条从"防御性执行者"角度出发,一条从"批评性审阅者"角度出发。两条轨迹的起始判断可以不同,但最终的合题结论必须收敛到同一个正确归因。这样的数据设计保证了模型学到的是:不管从哪个角色出发,最终都应该走向同一个基于证据的客观结论。

第三个阶段是模型训练,分两步进行。首先进行监督微调,让模型学会TAS的格式和词汇,就像先教它"写作文的格式"。然后使用一种叫做"组相对策略优化"(GRPO)的强化学习方法进行进一步对齐。这个方法的工作方式是:模型每次面对一个输入,会同时生成一批不同的输出,然后通过一套打分机制评估哪些输出更好,并逐渐向更好的输出方向靠拢。

打分机制由三部分组成,分别对应三种奖励。第一种奖励检查输出是否符合TAS格式;第二种奖励检查归因标签是否与正确答案一致;第三种奖励检查最终给出的答案是否正确。三种奖励的权重分别被设置为1、2、4——答案正确性被赋予最高权重,归因准确性次之,格式正确性最低。这个权重比例反映了研究团队的优先级:让AI真正解决问题才是最终目标,正确归因是手段,格式规范是基础。

训练在两张NVIDIA H200显卡上进行,监督微调阶段每轮约15分钟,强化学习阶段共运行了750步优化,约耗时9小时。最终的ReTAS模型基于Qwen3-4B这个40亿参数的基础模型构建。

---

六、比自己大八倍的对手,ReTAS是怎么赢的

实验结果是这项研究最令人意外的部分。

在FinQA-TAS测试集上,ReTAS的归因准确率达到71.2%,视角翻转率仅12.4%,标准AOA仅5.4%,最终答案F1分数(一种综合衡量精确率和召回率的指标,满分为100)达到72.1。在Spider-TAS测试集上,ReTAS的归因准确率为61.4%,视角翻转率21.9%,标准AOA 10.2%,F1分数63.5。

与基线方法相比,这个成绩相当突出。参数量是ReTAS八倍的QwQ-32B,在FinQA-TAS上的归因准确率只有54.9%,视角翻转率高达18.1%;参数量是ReTAS七点五倍的Qwen3-30B-A3B在FinQA-TAS上准确率为52.9%,翻转率20.1%。最值得注意的是GLM-4.6,它在引入"双视角"反思之后,各项指标反而比单视角更差——这印证了研究团队此前的判断:简单地引入对立角色而没有整合机制,不仅无法解决AOA,还可能让情况更糟。

消融实验(一种通过逐个去掉某个组件来测试其贡献的分析方法)进一步揭示了各个设计选择的作用。去掉归因奖励之后,FinQA-TAS上的标准AOA从5.4%急剧上升到16.8%,说明单纯依靠答案正确性无法让模型摆脱角色偏见。去掉答案正确性奖励,F1分数从72.1下降到68.3。去掉整个强化学习阶段而只保留监督微调,归因准确率从71.2降到67.7,说明强化学习对于让TAS结构真正内化为推理习惯是不可缺少的。

---

七、证据多还是证据少,ReTAS如何应对

研究团队还专门测试了不同证据复杂度下各方法的表现,这个分析揭示了一些特别实用的规律。

在只需要一到两条证据就能推理出答案的简单场景中,TAS方法(包括ReTAS和QwQ-32B+TAS)都显著优于双视角反思方法。这说明在信息比较简洁的时候,辩证推理能有效防止模型因为角色偏见而误判简单情况。

在需要三条或四条以上证据才能推理的复杂场景中,直接使用零样本方式的QwQ-32B性能急剧下降,可能是因为处理大量信息时,模型更容易依赖角色本能而非仔细分析证据。相比之下,ReTAS在复杂场景下保持了相当强的稳定性,甚至在四条以上证据的高难度条件下仍然优于32B的大模型。

另外,把ReTAS(只有监督微调版本)和完整的ReTAS(包含强化学习)相比较,可以看到在证据越复杂时,两者的差距越大——强化学习帮助模型在处理复杂证据链时更加稳定和可靠,这种优势在简单场景下不那么明显,但在真实应用中往往面临的恰恰是复杂场景。

---

八、走出训练领域:泛化能力的测验

训练数据集是FinQA和Spider,但研究团队想知道ReTAS学到的是一种真正通用的推理能力,还是只是对特定数据集的记忆。因此他们把在FinQA上训练的ReTAS模型拿到完全没见过的AFB数据集上进行测试。

在"智能体-智能体"模糊场景测试中,ReTAS成功降低了角色偏见,使得不同角色下的归因结论更加一致,其表现能与顶级大模型的零样本一致性水平相媲美。而加了TAS提示的Qwen3-4B虽然也有改善,但效果不如完整训练的ReTAS,说明训练确实带来了提示语本身无法提供的能力提升。

在"人类-智能体"模糊场景测试中,基础模型们普遍呈现出一种"偏袒用户"的倾向——不管角色如何,都倾向于把失败归咎于AI智能体而非人类用户。ReTAS在这个场景下实现了最低的内部归因率,说明它能够基于证据进行更平衡的责任分配,而不是系统性地偏向某一方。

---

九、谈判桌上的辩证法:动态场景的延伸验证

为了进一步检验TAS在动态多轮交互中的价值,研究团队设计了一个名为"销售竞技场"的仿真实验。场景设置是:一个4B参数的"卖家"AI(使用Qwen3-4B)要向一个32B参数的"买家"AI(使用QwQ-32B)出售四件商品,卖家的成本是每件50美元,目标售价是65美元或更高,而买家的总预算是260美元,低于55美元就接受报价,55到65美元之间会进行讨价还价,超过75美元则拒绝。

这个设置故意让卖家处于弱势地位——它只有对方的八分之一参数量。测试的核心问题是:不同的反思机制,能否帮助弱势卖家在谈判中取得更好的结果?

结果颇为有趣。完全没有反思机制的基准方法总利润为157美元,平均每件商品利润1.96美元。单视角自我反思(Reflection_SOLO)将总利润略微提升到164美元。但双视角辩论反思(Reflection_Dual)的总利润却跌到了135美元,比没有任何反思机制还要差。TAS辩证反思(Reflection_TAS)则达到了最高总利润168美元,平均每件商品利润2.10美元,同时谈判轮次也从4.21轮降低到4.81轮,效率是第二好的方法中最高的。

双视角方法表现最差的原因与AOA分析中的预期一致:执行者和审阅者对谈判失败各执一词,却没有任何整合机制,导致卖家在判断下一步策略时陷入矛盾,反而更加犹豫不决,错过了成交时机。

观察谈判过程中各轮次的报价曲线,可以看到单视角反思方法呈现出一种逐渐妥协的走势——随着谈判轮次增加,卖家不断让步,报价越来越低,最终大幅压缩利润空间。而TAS方法在经历了第一轮探底之后,表现出了策略调整和维持的能力:在初步了解买家的出价习惯后,卖家重新校准了策略,在后续轮次中维持了相对更坚定的报价立场。

---

归根结底,这项研究做的事情可以用一句话总结:它发现AI在角色扮演时也会"甩锅",然后造了一套内置辩证推理的训练方法来解决这个问题。

说到底,AOA是人类几十万年进化出来的心理机制,写进了我们组织世界的语言里,而AI又恰好是从这些语言里学出来的。所以AI学到人类的偏见,一点都不奇怪。奇怪的是,在发现这个问题之前,大家普遍以为给AI分配角色、增大模型规模就能提升可靠性,而这项研究告诉我们:在归因这件事上,模型规模越大不代表偏见越小,甚至有时候还会产生新的系统性倾斜,比如高性能模型过度偏袒用户的现象。

这意味着,要建设真正可靠的多智能体系统,不能只依赖"参数量更大"这一条路,还需要针对认知偏见做专门的对齐训练。ReTAS的实验证明,哪怕是一个只有40亿参数的小模型,经过正确的训练之后,在归因准确性这个维度上也可以超过320亿参数的大模型。

当然,这项研究也有自己的边界。测试主要集中在结构化的检索推理任务上,对于开放式的创意写作或长期规划任务,故障归因本来就更加主观,TAS方法在这些场景的效果还需要进一步探索。销售竞技场实验也只是一个简化的仿真,真实世界的商业谈判要复杂得多。

对于感兴趣想进一步探究的读者,一个有趣的思考方向是:如果AOA会影响AI的故障归因,那么在法律判决、医疗诊断或教育评估这些对公正性要求极高的场景里,AI系统会不会也存在类似的系统性偏见?以及,对于这些场景,辩证推理训练能否同样奏效?原论文可以通过arXiv编号arXiv:2504.19548v1查阅,感兴趣的读者不妨深入了解其中的技术细节。

---

Q&A

Q1:Actor-Observer Asymmetry(行动者-观察者不对称效应)在AI里具体是怎么表现的?

A:当AI扮演"执行者"角色时,遇到任务失败会倾向于说"是外部条件不好";同一个AI换成"审阅者"角色,看同样的失败却会说"是执行者自己的问题"。两种角色看相同证据得出相反结论,这就是AOA在AI里的表现,研究发现大多数模型有超过20%的案例会因为角色切换而改变归因结论。

Q2:ReTAS的TAS推理框架和普通的思维链推理有什么区别?

A:普通思维链只记录正确推理路径,相当于只看"正确答案是怎么得出来的"。TAS则会先让AI说出自己受角色影响的初始偏见判断,再强制模拟对立视角,最后把两种视角整合成基于证据的结论。TAS的关键是把角色偏见显式化再修正,而不是假装偏见不存在。

Q3:为什么仅有40亿参数的ReTAS模型能在归因准确率上超过320亿参数的大模型?

A:参数量大不等于偏见小。大模型在归因任务上仍然受角色影响,换个视角就可能换个答案。ReTAS通过专门针对归因偏见的辩证推理训练,让模型学会在内部同时考虑两种对立视角并整合成客观结论,这是大模型通过规模增长无法自动获得的能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-