微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI智能体也会"甩锅"？新加坡国立大学联合团队揭示一个被忽视的认知偏见

多智能体系统辩证推理认知偏见矫正

AI智能体也会"甩锅"？新加坡国立大学联合团队揭示一个被忽视的认知偏见

作者：科技行者

2026-05-05 15:07

分享至：

这项由新加坡国立大学等五所机构联合开展的研究发现，AI智能体在角色扮演中会产生类似人类的"甩锅"偏见——扮演执行者的AI倾向于把失败归咎于外部，扮演审阅者的AI则倾向于归咎内部，且两者对同一证据得出相反结论。研究团队构建了模糊失败基准测试加以量化验证，并提出借鉴哲学辩证法的ReTAS方法，让AI在推理时先呈现角色偏见、再模拟对立视角、最后整合得出客观结论。仅40亿参数的ReTAS模型在归因准确率上超越了参数量是其八倍的大模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-05 15:07 • 科技行者

这项由新加坡国立大学、四川大学、明尼苏达大学双城分校、哈尔滨工业大学（深圳）以及牛津大学联合开展的研究，以预印本形式于2026年4月发布在arXiv平台，论文编号为arXiv:2504.19548v1，研究方向属于计算机科学与自然语言处理领域。感兴趣的读者可以通过该编号在arXiv上查阅完整原文。

你有没有遇到过这样的情形：和同事一起搞砸了一个项目，你觉得是对方给的需求不清楚，而对方却坚持认为是你执行出了问题，两个人各执一词，最终什么都没改进，错误还在继续。这种"各打五十大板，但都不认为自己那板该打"的现象，在人类职场里太常见了。而这项研究要告诉你的是：当AI智能体彼此协作时，同样的毛病也出现了。

近年来，以大型语言模型（大语言模型，可以简单理解为ChatGPT这类能对话的AI）为核心的智能体系统发展迅猛。为了让AI更像"专业人士"，研究者们会给不同的AI分配不同的角色——比如一个专门负责执行任务的"执行者"，以及一个负责审查结果的"审阅者"。这种分工让AI系统更有效率，也更专业化。

然而，这个团队发现了一个让人啼笑皆非的问题：当任务失败时，扮演"执行者"的AI倾向于把责任推给外部环境，而扮演"审阅者"的AI则倾向于把同样的失败归咎于执行者的内部失误。两个AI看到的是完全相同的情况，却得出了截然相反的结论，这与人类社会心理学中一个被研究了几十年的现象高度吻合——行动者-观察者不对称效应（Actor-Observer Asymmetry，以下简称AOA）。

更麻烦的是，这两种截然相反的诊断会导致AI系统陷入"内耗"，谁也说服不了谁，修复方案也无从落地。为了解决这个问题，这个团队提出了一套名为ReTAS的方法，其核心思路借鉴了一种有着两百多年历史的哲学辩证法：先提出一方观点，再提出对立观点，最后把两者整合成更客观的结论。

这听起来像是在给AI上哲学课，但实验数据表明，这套方法确实有效。一个仅有40亿参数的小模型，在归因准确率上超越了参数量是它八倍的大模型。这对于AI智能体系统的可靠性研究，是一个值得关注的进展。

---

一、当AI学会"甩锅"：角色扮演的意外副作用

一切要从"角色扮演"这个设计说起。

在现代AI系统里，让不同的智能体扮演不同角色是一种非常流行的做法。就像一个公司里有不同的岗位，有人专门写代码，有人专门测试代码，有人专门审查代码。这种分工让AI系统能够完成更复杂的任务，因为每个角色都积累了对应领域的专业"习惯"。

但是，研究团队注意到一个奇怪的现象。以代码生成场景为例：当一段代码运行时出现了"超时错误"（就是程序跑得太慢，超过了规定的等待时间），执行者角色的AI会说"这是服务器的问题，不是我代码的问题"，而审阅者角色的AI看了同样的代码和同样的错误，却会说"这明显是代码逻辑写错了"。

两个AI，同一份证据，两种对立的结论。这就是AOA在AI系统里的具体表现。

AOA这个概念本身来自社会心理学，最早由心理学家弗里茨·海德在1958年提出，后来由琼斯和尼斯贝特在1972年进一步明确：当你是某件事的"行动者"时，你倾向于把失败归因于外部环境（交通堵车害我迟到）；但当你站在旁观者角度看别人做同样的事情失败时，你会倾向于归因于对方的内部特质（他就是太懒了所以迟到）。这是人类认知的一种系统性偏差。

研究团队发现，由于大语言模型是用海量人类写作的文本训练出来的，它在学语言的同时，也不可避免地学到了人类的这些认知习惯，包括这种偏见。而当AI被明确赋予某个角色时，这种偏见会被进一步放大——角色变成了一种"认知锚点"，让AI的判断从一开始就偏向某个方向。

这对多智能体系统来说是个严重的问题。当执行者和审阅者对同一个失败给出对立的诊断时，协作就陷入了僵局，修复措施也无从实施。这就是这项研究想要解决的核心矛盾。

---

二、用数据揭露"甩锅"有多普遍：模糊失败基准测试登场

光说AI会甩锅还不够，研究团队需要拿出数据来证明这一点，并且说清楚这种现象到底有多普遍。为此，他们专门设计了一个叫做"模糊失败基准测试"（Ambiguous Failure Benchmark，AFB）的数据集。

这个数据集的设计有个关键特点：测试里的每一个失败案例，故意设计成没有绝对正确答案。换句话说，每个失败场景都存在两种合理的解释——可能是外部因素导致的，也可能是内部因素导致的，两种解释都有道理。这样一来，如果AI对同一个场景给出不同的判断，唯一的解释就是它的"角色"在影响它的判断，而不是因为证据本身指向了不同方向。

这个测试集横跨了十个不同领域，涵盖了代码编写、客户服务、检索问答系统、安全对齐、规划任务、创意写作、数据分析、翻译、数学逻辑以及专业沟通。每个领域都设计了一个内部因素（比如代码逻辑错误）和外部因素（比如需求描述模糊）之间的典型冲突场景。

整个测试集共包含200个交互记录，其中100个是"人类-智能体"场景，模拟人类用户和AI助手之间的失败；另外100个是"智能体-智能体"场景，模拟一个规划者AI和一个执行者AI之间的协作失败。

测试方法也很直接：对每一个失败案例，研究者分别用"执行者"身份和"审阅者"身份两套系统提示语去问同一个AI，让它判断这次失败是内部原因还是外部原因。如果同一个AI换了个角色就换了个答案，那就说明AOA存在。

数据结果颇能说明问题。在"人类-智能体"场景中，Qwen3-4B这个模型的"标准AOA"（执行者推卸责任、审阅者归咎内部）发生率高达29%，DeepSeek-V3.2在"智能体-智能体"场景中的标准AOA发生率更是达到了31%。即使是最强的GPT-5.1模型，在"智能体-智能体"场景下也有23%的标准AOA发生率，说明这个问题并不会随着模型变强就自动消失。

综合标准AOA和反向AOA（审阅者反而推卸责任、执行者反而归咎自己）来看，一个叫"视角翻转率"（Flip）的指标显示，大多数模型在单纯换个角色之后，就有超过20%的案例会改变判断。也就是说，每五个失败案例里，就有至少一个的诊断结论会因为问的是"执行者视角还是审阅者视角"而发生变化，这与问题本身的实际证据无关。

研究团队还发现了另一个有趣的现象：对于更强大的模型，比如GPT-5.1，不管是扮演执行者还是审阅者，它都倾向于把失败归咎于AI智能体本身，而不是人类用户。在"人类-智能体"场景下，GPT-5.1的内部归因率高达94%。这种"反向偏见"同样值得深思——它并非客观判断，而是另一种系统性倾斜，只是方向不同罢了。

---

三、为什么简单的"叫它客观一点"根本没用

确认了问题存在之后，最直觉的应对方式是：直接在提示语里告诉AI"你要保持客观"，或者"你要站在对方角度想一想"。研究团队测试了这些简单干预，结果证明效果相当有限。

叫AI"保持客观"，AI会给出一堆听起来很中立的措辞，但实际判断仍然受到角色的影响——它只是用更漂亮的语言包装了原本的偏见而已，就像一个人你让他客观评价自己的失误，他会说"当然我有地方没做好，但主要还是环境问题……"。

强制让AI站在对立角度考虑，则会引发另一种问题：过度修正。AI会从一个极端走向另一个极端，原本说"外部原因"的，被逼着反驳之后变成坚定地说"内部原因"，这仍然不是基于证据的理性判断，只是从一种偏见跳到了另一种偏见。

这两种干预的本质问题在于：它们都只在"症状层面"做文章，而没有解决根本原因——角色本身作为一种认知锚点，从一开始就把AI的推理拉偏了。要真正修正这个偏差，需要一种更根本性的方法，让AI能够在内部同时处理两种对立的视角，并从中得出一个不依赖角色的结论。

这正是研究团队转向哲学寻找灵感的原因。

---

四、向两百年前的哲学借工具：辩证三段式登场

菲希特，一位18到19世纪之交的德国哲学家，提出了一种被称为"正题-反题-合题"（Thesis-Antithesis-Synthesis）的辩证思维结构。简单说，就是先提出一个观点（正题），再提出与之对立的观点（反题），最后把两者的合理成分整合成一个更高层次的新观点（合题）。

这套框架被研究团队发现是对抗AOA的绝佳工具。研究者们将其改造成了一种具体的推理流程，命名为TAS推理框架，并在此基础上训练出了最终的ReTAS模型。

具体来说，TAS推理分三步进行。

第一步是"正题"阶段。AI首先生成一个符合自己角色立场的初始判断——如果是执行者，就先表达那种防御性的、倾向于归咎外部的反应；如果是审阅者，就先表达那种批评性的、倾向于归咎内部的反应。这一步不是让AI说出"正确答案"，而是让它把自己的"本能反应"先明确说出来，相当于把潜藏的偏见显式化。

第二步是"反题"阶段。AI被要求模拟对立角色的视角，提出与第一步截然相反的解释，并检验这种解释是否有证据支撑。这一步相当于一个内部"魔鬼代言人"——不管AI角色是什么，都要求它认真考虑另一方的合理性。

第三步是"合题"阶段。AI综合前两步的观点，基于实际证据（而非角色立场）得出一个最终判断，并决定下一步的修正动作——是去补充缺失的证据（Search），还是修改推理逻辑（Revise），还是确认当前答案没有问题（Confirm）。

这套流程的关键在于：它把角色视角当作起点而非终点。角色带来的偏见不是被压制的，而是被明确展示出来，然后在辩证过程中被主动检验和修正。

与此前流行的"思维链"（Chain-of-Thought）方法相比，TAS有一个重要的不同：思维链只记录"正确推理路径"，而TAS还记录了最初可能错误的直觉反应以及纠正它的过程。这让模型不仅学会了正确答案，也学会了如何从错误的直觉出发，一步步走向客观判断。

---

五、从哲学到可运行的AI：三步炼成ReTAS

有了TAS推理框架，研究团队接下来需要把它变成一个能实际运行的AI模型，而不仅仅是一个提示语模板。整个训练过程分为三个阶段。

第一个阶段是数据准备。研究团队基于两个现有数据集构建了训练数据：一个是FinQA，涉及金融报告的混合数值推理任务；另一个是Spider，涉及将自然语言转换成SQL数据库查询语言的任务。选择这两个任务的原因是：每个失败案例都有明确可验证的归因——如果检索到的证据本身就不包含必要信息，那就是外部原因（FalseExt）；如果证据够用但推理出了错，那就是内部原因（FalseInt）；如果证据够用且答案正确，那就是成功（True）。这样的任务设计提供了客观的"标准答案"，让模型训练有了可靠的参照。

第二个阶段是轨迹生成。研究团队使用GPT-5.1这个强大的模型，针对每个训练案例生成了两条TAS推理轨迹：一条从"防御性执行者"角度出发，一条从"批评性审阅者"角度出发。两条轨迹的起始判断可以不同，但最终的合题结论必须收敛到同一个正确归因。这样的数据设计保证了模型学到的是：不管从哪个角色出发，最终都应该走向同一个基于证据的客观结论。

第三个阶段是模型训练，分两步进行。首先进行监督微调，让模型学会TAS的格式和词汇，就像先教它"写作文的格式"。然后使用一种叫做"组相对策略优化"（GRPO）的强化学习方法进行进一步对齐。这个方法的工作方式是：模型每次面对一个输入，会同时生成一批不同的输出，然后通过一套打分机制评估哪些输出更好，并逐渐向更好的输出方向靠拢。

打分机制由三部分组成，分别对应三种奖励。第一种奖励检查输出是否符合TAS格式；第二种奖励检查归因标签是否与正确答案一致；第三种奖励检查最终给出的答案是否正确。三种奖励的权重分别被设置为1、2、4——答案正确性被赋予最高权重，归因准确性次之，格式正确性最低。这个权重比例反映了研究团队的优先级：让AI真正解决问题才是最终目标，正确归因是手段，格式规范是基础。

训练在两张NVIDIA H200显卡上进行，监督微调阶段每轮约15分钟，强化学习阶段共运行了750步优化，约耗时9小时。最终的ReTAS模型基于Qwen3-4B这个40亿参数的基础模型构建。

---

六、比自己大八倍的对手，ReTAS是怎么赢的

实验结果是这项研究最令人意外的部分。

在FinQA-TAS测试集上，ReTAS的归因准确率达到71.2%，视角翻转率仅12.4%，标准AOA仅5.4%，最终答案F1分数（一种综合衡量精确率和召回率的指标，满分为100）达到72.1。在Spider-TAS测试集上，ReTAS的归因准确率为61.4%，视角翻转率21.9%，标准AOA 10.2%，F1分数63.5。

与基线方法相比，这个成绩相当突出。参数量是ReTAS八倍的QwQ-32B，在FinQA-TAS上的归因准确率只有54.9%，视角翻转率高达18.1%；参数量是ReTAS七点五倍的Qwen3-30B-A3B在FinQA-TAS上准确率为52.9%，翻转率20.1%。最值得注意的是GLM-4.6，它在引入"双视角"反思之后，各项指标反而比单视角更差——这印证了研究团队此前的判断：简单地引入对立角色而没有整合机制，不仅无法解决AOA，还可能让情况更糟。

消融实验（一种通过逐个去掉某个组件来测试其贡献的分析方法）进一步揭示了各个设计选择的作用。去掉归因奖励之后，FinQA-TAS上的标准AOA从5.4%急剧上升到16.8%，说明单纯依靠答案正确性无法让模型摆脱角色偏见。去掉答案正确性奖励，F1分数从72.1下降到68.3。去掉整个强化学习阶段而只保留监督微调，归因准确率从71.2降到67.7，说明强化学习对于让TAS结构真正内化为推理习惯是不可缺少的。

---

七、证据多还是证据少，ReTAS如何应对

研究团队还专门测试了不同证据复杂度下各方法的表现，这个分析揭示了一些特别实用的规律。

在只需要一到两条证据就能推理出答案的简单场景中，TAS方法（包括ReTAS和QwQ-32B+TAS）都显著优于双视角反思方法。这说明在信息比较简洁的时候，辩证推理能有效防止模型因为角色偏见而误判简单情况。

在需要三条或四条以上证据才能推理的复杂场景中，直接使用零样本方式的QwQ-32B性能急剧下降，可能是因为处理大量信息时，模型更容易依赖角色本能而非仔细分析证据。相比之下，ReTAS在复杂场景下保持了相当强的稳定性，甚至在四条以上证据的高难度条件下仍然优于32B的大模型。

另外，把ReTAS（只有监督微调版本）和完整的ReTAS（包含强化学习）相比较，可以看到在证据越复杂时，两者的差距越大——强化学习帮助模型在处理复杂证据链时更加稳定和可靠，这种优势在简单场景下不那么明显，但在真实应用中往往面临的恰恰是复杂场景。

---

八、走出训练领域：泛化能力的测验

训练数据集是FinQA和Spider，但研究团队想知道ReTAS学到的是一种真正通用的推理能力，还是只是对特定数据集的记忆。因此他们把在FinQA上训练的ReTAS模型拿到完全没见过的AFB数据集上进行测试。

在"智能体-智能体"模糊场景测试中，ReTAS成功降低了角色偏见，使得不同角色下的归因结论更加一致，其表现能与顶级大模型的零样本一致性水平相媲美。而加了TAS提示的Qwen3-4B虽然也有改善，但效果不如完整训练的ReTAS，说明训练确实带来了提示语本身无法提供的能力提升。

在"人类-智能体"模糊场景测试中，基础模型们普遍呈现出一种"偏袒用户"的倾向——不管角色如何，都倾向于把失败归咎于AI智能体而非人类用户。ReTAS在这个场景下实现了最低的内部归因率，说明它能够基于证据进行更平衡的责任分配，而不是系统性地偏向某一方。

---

九、谈判桌上的辩证法：动态场景的延伸验证

为了进一步检验TAS在动态多轮交互中的价值，研究团队设计了一个名为"销售竞技场"的仿真实验。场景设置是：一个4B参数的"卖家"AI（使用Qwen3-4B）要向一个32B参数的"买家"AI（使用QwQ-32B）出售四件商品，卖家的成本是每件50美元，目标售价是65美元或更高，而买家的总预算是260美元，低于55美元就接受报价，55到65美元之间会进行讨价还价，超过75美元则拒绝。

这个设置故意让卖家处于弱势地位——它只有对方的八分之一参数量。测试的核心问题是：不同的反思机制，能否帮助弱势卖家在谈判中取得更好的结果？

结果颇为有趣。完全没有反思机制的基准方法总利润为157美元，平均每件商品利润1.96美元。单视角自我反思（Reflection_SOLO）将总利润略微提升到164美元。但双视角辩论反思（Reflection_Dual）的总利润却跌到了135美元，比没有任何反思机制还要差。TAS辩证反思（Reflection_TAS）则达到了最高总利润168美元，平均每件商品利润2.10美元，同时谈判轮次也从4.21轮降低到4.81轮，效率是第二好的方法中最高的。

双视角方法表现最差的原因与AOA分析中的预期一致：执行者和审阅者对谈判失败各执一词，却没有任何整合机制，导致卖家在判断下一步策略时陷入矛盾，反而更加犹豫不决，错过了成交时机。

观察谈判过程中各轮次的报价曲线，可以看到单视角反思方法呈现出一种逐渐妥协的走势——随着谈判轮次增加，卖家不断让步，报价越来越低，最终大幅压缩利润空间。而TAS方法在经历了第一轮探底之后，表现出了策略调整和维持的能力：在初步了解买家的出价习惯后，卖家重新校准了策略，在后续轮次中维持了相对更坚定的报价立场。

---

归根结底，这项研究做的事情可以用一句话总结：它发现AI在角色扮演时也会"甩锅"，然后造了一套内置辩证推理的训练方法来解决这个问题。

说到底，AOA是人类几十万年进化出来的心理机制，写进了我们组织世界的语言里，而AI又恰好是从这些语言里学出来的。所以AI学到人类的偏见，一点都不奇怪。奇怪的是，在发现这个问题之前，大家普遍以为给AI分配角色、增大模型规模就能提升可靠性，而这项研究告诉我们：在归因这件事上，模型规模越大不代表偏见越小，甚至有时候还会产生新的系统性倾斜，比如高性能模型过度偏袒用户的现象。

这意味着，要建设真正可靠的多智能体系统，不能只依赖"参数量更大"这一条路，还需要针对认知偏见做专门的对齐训练。ReTAS的实验证明，哪怕是一个只有40亿参数的小模型，经过正确的训练之后，在归因准确性这个维度上也可以超过320亿参数的大模型。

当然，这项研究也有自己的边界。测试主要集中在结构化的检索推理任务上，对于开放式的创意写作或长期规划任务，故障归因本来就更加主观，TAS方法在这些场景的效果还需要进一步探索。销售竞技场实验也只是一个简化的仿真，真实世界的商业谈判要复杂得多。

对于感兴趣想进一步探究的读者，一个有趣的思考方向是：如果AOA会影响AI的故障归因，那么在法律判决、医疗诊断或教育评估这些对公正性要求极高的场景里，AI系统会不会也存在类似的系统性偏见？以及，对于这些场景，辩证推理训练能否同样奏效？原论文可以通过arXiv编号arXiv:2504.19548v1查阅，感兴趣的读者不妨深入了解其中的技术细节。

---

Q&A

Q1：Actor-Observer Asymmetry（行动者-观察者不对称效应）在AI里具体是怎么表现的？

A：当AI扮演"执行者"角色时，遇到任务失败会倾向于说"是外部条件不好"；同一个AI换成"审阅者"角色，看同样的失败却会说"是执行者自己的问题"。两种角色看相同证据得出相反结论，这就是AOA在AI里的表现，研究发现大多数模型有超过20%的案例会因为角色切换而改变归因结论。

Q2：ReTAS的TAS推理框架和普通的思维链推理有什么区别？

A：普通思维链只记录正确推理路径，相当于只看"正确答案是怎么得出来的"。TAS则会先让AI说出自己受角色影响的初始偏见判断，再强制模拟对立视角，最后把两种视角整合成基于证据的结论。TAS的关键是把角色偏见显式化再修正，而不是假装偏见不存在。

Q3：为什么仅有40亿参数的ReTAS模型能在归因准确率上超过320亿参数的大模型？

A：参数量大不等于偏见小。大模型在归因任务上仍然受角色影响，换个视角就可能换个答案。ReTAS通过专门针对归因偏见的辩证推理训练，让模型学会在内部同时考虑两种对立视角并整合成客观结论，这是大模型通过规模增长无法自动获得的能力。

多智能体系统辩证推理认知偏见矫正

分享至