
这项由马里兰大学(University of Maryland)、加州大学伯克利分校(UC Berkeley)、Phasechange.ai和穆罕默德·本·扎耶德人工智能大学(MBZUAI)联合开展的研究,发表于2025年计算语言学协会年会(ACL 2025,第63届),论文编号可通过arXiv及ACL Anthology以"AI, Take the Wheel"为关键词检索到完整版本。研究团队围绕一个让每个人都关心的核心问题展开探索:当AI给你一个建议,你应该相信它吗?
**一、一场关于信任的真人秀**
每天,数以亿计的人在用AI写邮件、查医疗信息、做法律咨询、甚至辅助金融决策。AI时代带来了一个看似简单、实则棘手的问题——你什么时候该信AI,什么时候该坚持自己的判断?
这个问题不是哲学题,而是每天都在发生的现实。医生在看AI给出的诊断建议时会不会被误导?律师参考AI检索结果时会不会没注意到AI在"一本正经地胡说八道"?普通用户在AI自信满满地给出错误答案时,是否有能力识破?
大多数研究这类问题的学者,要么在实验室里让志愿者完成一些和他们日常生活毫不相关的虚构任务,要么只观察人们最终接不接受AI的建议,却看不见人们内心在想什么、怎么做决定。马里兰大学的这支研究团队决定换一种方式——用一场真刀真枪的智力竞赛,让真正的专家级玩家和AI携手上阵,看看人和AI在协作中究竟怎么分配信任、在哪里出了问题。
这项研究的核心设计思路是:把人类与AI的合作拆解成两种截然不同的信任决策。第一种叫"主动委托"——在还没看到AI给出答案之前,你要不要让AI替你行动?第二种叫"审慎采纳"——在看到AI的答案、置信度和理由之后,你是接受还是拒绝?这两种决策平时混在一起很难分辨,但研究团队通过精心设计的游戏把它们分开来观察,让我们第一次能同时看清这两种信任模式在同一批真实用户身上的表现。
**二、一场智力竞技场:游戏设计的巧思**
研究团队选择的舞台是"问答碗"(Quizbowl)——一种在美国高校颇为盛行的知识竞赛。它不是普通的抢答游戏,而是一种极具策略性的智力对抗:题目是一连串从难到易的线索,任何人——包括AI——只要觉得自己知道答案,就可以在中途按下抢答器(buzz in)打断读题,直接给出答案。答对得10分,答错扣5分,而且答错的那个人所在的整支队伍都失去了回答这道题的机会。这意味着,如果你的AI队友盲目自信、乱答一气,它不仅自己丢分,还会把你们全队拖下水。
比赛分为两个阶段,恰好对应两种信任决策。在"抢答阶段",人类和AI队友同时接收问题,谁先觉得有把握谁就抢答——但人类可以选择在比赛开始前"静音"某个AI队友,让它在整场比赛中都不能抢答。这就是"主动委托"的决策场景:你还没看到AI给出什么答案,就要预先判断这个AI值不值得信赖,给不给它独立行动的权限。
在"附加题阶段",抢答成功的队伍会获得一道由三个小问题组成的附加题。流程是这样的:人类队员先在没有任何AI帮助的情况下给出他们的初步答案,然后AI队友才会出现,带着自己的答案、置信度分数(0到100%)和文字解释一起呈现给人类。最后,人类需要给出一个最终答案——可以坚持自己原来的答案,也可以采纳其中一个AI的建议,甚至可以给出一个全新的答案。这就是"审慎采纳"的决策场景:你看到了AI说什么、它多确定、它为什么这么想,然后你来决定。
为了保证研究的公正性,题目也经过了精心的"对抗性设计"——专门邀请人类专家写出那些能发挥人机互补优势的题目:有些问题考验精确的事实记忆,AI更擅长;有些问题需要文化语境理解和间接推理,人类更拿手。这种设计确保了协作本身是有意义的,而不是一方完全碾压另一方。
整个实验共进行了24场比赛,参与其中的有23位经验丰富的竞技问答选手(平均竞赛年龄3.2年,多人有参加全国电视节目的经历)和16个风格各异的AI系统,采集了387条抢答委托决策和1440条附加题采纳决策。
**三、16个AI队友,各有各的脾气**
比赛前,研究团队通过一个为期四周的公开竞赛征集AI系统。最终入围的16个AI系统风格迥异,就像一支由不同背景专家组成的顾问团。
有的AI是"单打独斗型",只用一个模型(比如GPT-4o或DeepSeek V3)直接给出答案,靠精心设计的提示词来提升准确率;有的AI是"多轮会诊型",先用一个模型分析题目,再用另一个模型生成答案,然后用第三个模型验证,最后用第四个模型整合置信度——整个流程多达四步,就像一家医院里四位专科医生会诊一样;还有的AI走的是"投票表决"路线,让三个不同模型各自作答,只有当所有人意见一致时才输出答案,否则放弃作答、置信度归零。
这些AI系统的底层模型包括GPT-4.1、GPT-4o、Claude 3.5 Sonnet、DeepSeek V3和Cohere Command-R等,在问题集上的准确率从30%到80%不等,各有擅长的领域。这种多样性非常关键——它确保了没有一个AI明显优于其他所有AI,人类选手必须认真观察和评估,才能判断该信任谁。
比赛前,人类选手对这些AI系统一无所知,只知道它们的代号(比如"RodeRunner"、"Magicarp")。团队通过"蛇形选秀"制度来选择AI队友:每轮比赛前,各队按积分从低到高依次挑选AI队友,排名最低的队伍先选,排名最高的队伍连选两次再反向回来,以此平衡强弱队之间的差距。这个设计模仿了真实世界中人们选择AI工具的过程——你要在信息不完整的情况下,根据有限的观察来判断哪个AI更适合这个场景。
**四、人机协作,大部分时候确实有效**
研究的第一个重要发现是:人机协作确实比单打独斗更有效。在附加题阶段,人类单独答题的准确率只有42.8%,随机选一个AI队友的准确率是59.4%,就算让你事后知道哪个AI在每道题上更准确、每次都选最好的那个,准确率也不过77.6%。但人类和AI协作后的最终答案准确率达到了81.7%——比"最优AI选择"这个理论上限还高出好几个百分点。
这个结果说明,协作中产生了真正的"1+1>2"效应。人类在AI给错答案的时候能用自己的判断纠正它,AI在人类卡壳的时候能提供人类没想到的正确答案。有5.5%的题目,人类和AI最初都答错了,但通过一起商量讨论,居然找到了正确答案——这种"两个人都不对,但讨论出了对的结果"的现象,是协作带来的惊喜。
在人类坚持自己正确答案的情况下,成功率高达98%,说明人类整体上有不错的自我保护意识。当人类决定采纳AI的正确答案时,成功率是94.4%。当人类自己不知道答案、需要在两个AI之间辨别哪个更可靠时,成功率也有83.3%。
不过,两种常见的协作失败也清晰地浮现出来。第一种是"过度保守"——人类自己答错了,AI给出了正确答案,但人类没有采纳AI的意见,依然坚持了错误答案,这种情况占到了所有"本可被AI帮到"的机会的3.9%。第二种是"盲目追随"——人类自己原本答对了,但AI给出了错误答案,人类反而放弃了自己的正确答案,去追随AI的错误,这种情况发生了1.7%。两种错误相比,过度保守比盲目追随更常见,但后者的危害性同样不可忽视。
**五、静音按钮背后的策略博弈**
在抢答阶段,关于人类如何管理AI队友的"行动权限",研究呈现出了一幅生动的图景。
人类选手普遍表现出比AI更好的自我控制能力:人类抢答的错误率只有20%,而AI的错误率高达29.4%。有17.9%的题目是人类在任何AI开口之前就抢先答对了,展现了人类专家在某些领域的知识深度。
关于静音决策,最有趣的发现是:8支队伍中有8支通过策略性地静音AI,比完全不静音获得了更多分数,整体上实现了理论最大收益的79%。换句话说,静音这个工具是有效的,人类大体上会用它。但问题在于,只有9%的静音决策发生在最佳时机。大多数队伍(73%的情况)静音得太晚——AI已经用错误答案坑了队伍之后,他们才想到要静音。相反,有18%的情况是静音得过早,平均比最优时机提前了9.8道题,这通常是因为AI在某几道题上失手后,人类就对它彻底失去了信心,过早地取消了它的行动权限,反而错过了后来AI本可以答对的题目。
综合来看,平均静音时机比最优时机早了3.4道题,大约相当于提前了15%的赛程。这说明,人类在实时评估AI可靠性这件事上,即使有直接的行为反馈,依然很难做到精准——对AI能力的印象一旦变差,往往就很难再被扭转。
研究团队从这个发现中提炼出了一个设计建议:与其给用户一个"开/关"的粗暴二选一,不如给他们更精细的控制工具,比如"在音乐类题目上静音这个AI,但在历史类题目上还是让它发言"——因为用户的信任从来不是全有全无的,而是因领域、因情境而异的。
**六、人类怎么决定要不要听AI的?**
在附加题阶段,研究团队对人类的决策过程进行了细致的录像分析,一位熟悉竞技问答的研究员逐场观看了比赛视频,记录了人类在做出每个采纳或拒绝决定时,具体参考了哪些信息。
研究发现,在人类修改自己初始答案的所有情况中,参考最多的是"两个AI意见一致"这个信号,占了54.8%的修改决策。换句话说,当两个AI队友说的是同一个答案时,人类大概率会跟随。排在第二位的是"自己的领域知识",占35%,准确率也相当高,达到92.4%。在两个AI意见不一致的情况下,人类偶尔会参考AI的解释(4.4%)、AI的置信度分数(2.2%)或者过去对某个AI的印象(2%),但频率都不高,还有1.5%的决定看起来完全是随机的。
最戏剧性的发现来自置信度分数的表现。当两个AI意见不一致、人类必须依靠置信度分数来判断谁更可能对的时候,这个指标的准确率只有52.3%——几乎和抛硬币一样。这是因为16个AI系统由不同团队用不同方法搭建,它们对"置信度"的定义和计算方式完全不统一。一个系统说"87%把握"和另一个系统说"87%把握",实际可靠程度可能天差地别,就像不同国家的货币虽然数字一样,但价值完全不同。研究团队的建议是:在部署多个AI系统的场景中,必须对置信度分数进行跨系统的统一校准,否则这个数字不仅没用,还可能误导用户。
**七、确认偏误:最危险的认知陷阱**
研究中最令人警觉的发现,是确认偏误(confirmation bias)对协作质量的破坏。
确认偏误是一种人类普遍存在的认知倾向:我们倾向于相信和自己原有判断一致的信息,而怀疑与自己不同的信息。在这项研究中,这种偏误以一种清晰的数字面孔出现了。
当人类最初给出了一个错误答案,而两个AI队友中恰好有一个给出了和人类一样的错误答案(另一个给出了正确答案)时,人类不采纳正确AI答案的比例高达64.5%。换句话说,仅仅因为一个AI和你给出了同样的错误答案,你就更倾向于忽视另一个AI给出的正确纠正——错误被"证实"了,反而让你更坚定地走错路。相对应的,当两个AI都给出了错误答案时,人类放弃自己原本正确答案的比率超过了10%。
更值得关注的是,高水平的选手在这个陷阱面前甚至比普通选手更脆弱。研究团队观察到,技术水平高的队伍往往对自己的判断更自信,反而更不愿意在AI和自己意见相左时接受AI的纠正,错过了本可以利用AI帮助的机会。这就是专业自信的副作用——你越懂这件事,就越相信自己的直觉,越难承认自己可能错了。
**八、什么样的解释真正有用?**
除了置信度分数,AI给出的文字解释是另一个影响人类决策的重要因素。研究团队从每个AI解释中提取了57个特征,涵盖表面文本属性(比如文本长度、词汇重复率)、结构特征(比如是否包含引用、是否提到了题目原文)和推理质量(由另一个大语言模型来打分评估)。然后他们问了两个不同的问题:什么特征能预测AI的答案是否正确?什么特征会让人类倾向于信任这个解释?
两组答案惊人地不一致。能准确预测AI是否正确的特征包括"对题目的理解程度"(预测准确率76%)、"证据引用的充分性"(74%)、"推理的连贯性"(72%)——这些都是由AI评估员对解释质量打分得到的语义层面特征。而真正影响人类选择的特征,却是"解释中是否包含引号"(70%的预测力)、"解释与题目文本的语义相似度"(66%)、"单词重叠数量"(63%)——这些都是表面形式上的特征,与解释的实际质量关系不大。
简单来说,人类被AI解释中"看起来很有据可查"的表面信号所吸引,而不是被"实际推理是否严密"的深层质量所影响。AI写出来的解释越像是在"引经据典"、越多用了原题中的词,人类就越倾向于信任它——哪怕它的逻辑其实漏洞百出。唯一同时出现在"预测AI准确性"和"预测人类信任"两个名单里的特征,是"证据引用"——即解释是否直接引用了题目中的具体线索作为推理依据。这说明,当AI的解释明确指向"我是因为题目中提到了X、Y、Z才得出这个答案"时,这种解释既更可靠,也更容易让人信服。
这个发现给AI系统设计者提供了清晰的方向:AI的解释应该明确引用可观察的输入证据,而不是给出抽象的内部推理过程;人类用户则需要有意识地训练自己评估"这个解释是否真的理解了问题",而不是被"看起来很专业"的表面形式所迷惑。研究团队在一场实际比赛中观察到了这种区别的真实价值:一名选手在两个AI意见相左时,选择了置信度较低(80%)但解释直接引用题目内容的那个AI,而放弃了置信度更高(95%)但解释只是泛泛而谈的AI——结果证明前者才是正确的。
**九、人类会学习:随时间改善的协作质量**
研究还捕捉到了一个振奋人心的现象:随着比赛的推进,人类的协作能力确实在提升。
研究团队追踪了两个指标:一是"利用率",即当AI给出了正确答案时,人类采纳这个正确答案的比例;二是"辨别力",即当两个AI给出不同答案(其中一个正确、一个错误)时,人类选择正确那个AI的比例。两个指标都随着比赛轮次的推进显著提升,尤其在难度最高的题目上提升幅度最大,辨别力从第一轮的27.1%一路爬升到最后几轮的75.0%。
这个提升不是因为人类在不知道答案时随便跟着AI走——如果真是那样,辨别力应该停留在50%附近。辨别力的大幅提升说明,人类通过观察积累了对不同AI系统强弱项的真实认知,学会了在关键时刻判断该信谁。研究团队还注意到,即使在比赛前没有人告诉选手各个AI的历史表现,选手们的选秀偏好最终还是和AI的实际表现产生了正相关——特别是在线下有面对面交流的比赛中,这种相关性更强,说明人类之间的口耳相传也是构建AI认知的重要渠道。
在整场比赛过程中,附加题的错误率也从第一轮的28%下降到了最后阶段的18%,说明人类团队整体上确实在从错误中学习,不断优化自己的协作策略。
研究团队从这个发现中提炼出的设计建议是:与其只在部署前给用户看AI的"总体性能报告",不如在使用过程中持续展示"这个AI在你今天遇到的这类问题上表现如何"——这种情境化、动态更新的反馈,比静态的事前评估更能帮助用户校准信任。
**十、五条改善人机协作的设计原则**
研究团队在分析过程中总结出了五条可操作的设计原则,为未来的AI协作系统提供了具体指引。
第一条原则关于控制粒度。现有的很多AI系统只给用户一个"开/关"选择,但真实的信任从来不是非黑即白的。应该让用户能够按照主题、难度、场景来细粒度地调整AI的参与程度,比如"这道题是音乐题,这个AI在音乐上不行,先让它闭嘴"——用户对"何时让AI参与"的自主权,和"要不要听AI的"一样重要。
第二条原则关于置信度的统一校准。当系统中存在多个AI时,跨模型的置信度必须经过统一校准,让用户在比较两个AI的信心水平时,数字真正具有可比性。特别是在两个AI意见相左、用户最需要帮助的时刻,可靠的置信度数字最为关键。
第三条原则关于动态反馈。协作过程中应该持续向用户展示AI在不同领域的历史表现,而不是只提供系统上线前的静态性能指标。这种动态证据能帮助用户更快地建立准确的AI认知,减少过早或过晚静音的错误。
第四条原则关于降低过度保守。由于过度保守(不信任正确AI建议)比盲目跟随(信任错误AI建议)更常见,系统设计时应该特别考虑如何帮助用户在自己不擅长的领域认识到AI的优势,鼓励专家在自己的知识盲区里给AI更多空间。
第五条原则关于解释的锚点。AI给出的解释应该明确指向题目或问题中的具体证据,而不是只描述抽象的推理过程。这样的解释既能让人类更容易验证AI是否真的理解了问题,又能提升人类对高质量AI建议的接受率。
**十一、这项研究能走多远,又有哪些局限?**
研究团队对自己工作的边界保持了清醒认识。参与实验的选手都是竞技问答的资深玩家,这种高度竞争、高度专注的场景,和医生慢慢斟酌AI辅助诊断或律师审阅AI检索结果的场景,毕竟不同。知识竞赛中的决策往往更快、更直觉化,而医疗或法律场景中的决策则有更多时间反复推敲。这意味着,研究结论不能直接照搬到所有高风险领域,而需要在那些领域做进一步的验证。
研究的样本规模也决定了它更适合描述主要趋势,而难以捕捉个体之间的细微差异。23名选手和16个AI系统构成的24场比赛,提供了相当丰富的行为数据,但如果想精确区分不同类型的用户策略,或者追踪长期协作中信任是否会过度积累,还需要更大规模的研究。
此外,这项研究本质上是观察性的,而非实验性的——研究者记录了人们怎么做,但无法完全排除混淆因素。举个例子,高置信度的AI是否同时生成了更高质量的解释?如果是这样,我们就无法确认人类是因为看到了高置信度分数才信任它,还是因为解释本身更好才信任它。要真正确立因果关系,未来的研究需要采用随机实验设计,单独操控置信度或解释质量,来验证每个因素的独立影响。
归根结底,这项研究告诉我们的是:人机协作是一件真实有效的事,但它绝不是自动发生的。人类不是天然的好协作者,AI也不是完美的建议提供者。过度保守和盲目追随都会削弱协作的价值,而确认偏误、跨模型置信度不统一、以及对表面信号的过度依赖,是目前最主要的三个障碍。把这些障碍一一清除,才是让AI真正成为有效"队友"而不只是一个有时有用、有时添乱的工具的关键所在。
有兴趣深入了解这项研究的读者,可以在ACL Anthology或arXiv上以"AI, Take the Wheel: What Drives Delegation and Trust in Human–Computer Cooperative Question Answering"为关键词查找完整论文。
Q&A
Q1:人机协作的准确率比单独用AI或单独用人类高在哪里?
A:在这项研究的竞答实验中,人类单独答题准确率约43%,随机挑一个AI的准确率约59%,即使事后诸葛亮地每题都选最准的AI也只能到78%,而人机协作后的最终准确率达到了81.7%。多出来的这部分来自两个来源:人类纠正了AI的错误,以及有5.5%的题目是人类和AI最初都答错、但通过共同商量讨论后找到了正确答案。
Q2:为什么AI的置信度分数在人机协作中几乎没用?
A:这项研究中的16个AI系统由不同团队各自搭建,对"置信度"的定义和计算方式完全不同。当两个AI意见不一致、人类试图靠置信度分数来判断哪个AI更可靠时,准确率只有52.3%,接近随机猜测。本质原因是不同AI的置信度没有经过统一校准,一个说87%和另一个说87%,实际可靠程度可能完全不同,就像不同国家的货币数字一样,没有统一汇率就无从比较。
Q3:确认偏误在人机协作中具体是怎么发生的?
A:当人类自己给出了一个错误答案,而两个AI队友中恰好有一个也给出了同样的错误答案时,人类不采纳另一个AI的正确答案的比例高达64.5%。本来是应该纠错的时刻,却因为"有一个AI和我想法一样",反而让人类更坚定地维持了错误判断。研究还发现,技术水平越高的选手对自己的初始判断越自信,在这种情况下反而更容易落入这个陷阱。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。