在人工智能飞速发展的今天,多模态大语言模型(就是那些能同时看图片、理解文字的AI系统)已经变得非常强大。不过,有一个问题一直困扰着研究者们:这些AI模型总是倾向于给出一个答案,哪怕它们其实并不确定。这就像是一个不愿意承认自己不知道答案的学生,总是会猜一个答案而不是诚实地说"我不知道"。
这项由香港浸会大学的周凯杨教授领导、联合阿联酋穆罕默德·本·扎耶德人工智能大学研究团队开展的研究,于2025年9月发表在arXiv预印本平台上。研究团队包括来自阿联酋穆罕默德·本·扎耶德人工智能大学的童炳奎,以及来自香港浸会大学的夏家尔和尚思丰。有兴趣深入了解的读者可以通过https://github.com/maifoundations/HumbleBench访问完整的研究代码和数据集。
这个问题其实比我们想象的更严重。当AI系统被用于医疗诊断、自动驾驶或者其他关键决策场景时,一个"不懂装懂"的AI可能会带来灾难性的后果。就像一个医生如果不确定病情却硬要给出诊断一样危险。研究团队意识到,目前几乎所有的AI评估方法都只关注"AI能否选对答案",却忽视了一个更重要的能力:当所有选项都不对时,AI是否能够勇敢地说"以上都不对"。
为了解决这个问题,研究团队开发了一个全新的测试平台,叫做HumbleBench(谦逊基准测试)。这个名字很有意思,因为它要测试的正是AI模型的"认知谦逊"能力——也就是在不确定的时候承认自己不知道的智慧。这种能力在心理学中被称为"认知谦逊",是人类理性思维的重要组成部分。当一个人面对不确定的信息时,选择保留判断而不是盲目猜测,这恰恰体现了真正的智慧。
研究团队构建了一个包含22,831个多选题的大型数据集,这是目前为止最大的AI幻觉评估数据集。每个问题都有五个选项,其中第五个选项永远是"以上都不对"。这种设计巧妙地模拟了现实世界中的复杂情况:有时候,所有看似合理的答案其实都是错的。
一、像侦探一样构建测试题库
构建这个测试平台就像是在组装一个巨大的侦探推理题库。研究团队选择了全景场景图数据集作为"案发现场",这个数据集包含了超过4万张图片,每张图片都有非常详细的标注信息,就像是案发现场的详细勘察报告。
整个构建过程分为几个关键步骤。首先,研究团队需要从图片中提取各种"证据"。对于物体和关系信息,他们直接使用数据集中已有的精确标注,这就像是现成的指纹和DNA证据。但是对于属性信息(比如颜色、形状、材质等),数据集中并没有现成的标注,研究团队就让InstructBLIP模型来充当"证据分析专家",通过观察图片中裁剪出来的物体片段来描述它们的特征。
接下来,研究团队使用GPT-4-Turbo作为"题目编写专家",基于这些证据信息生成各种推理题目。这个过程特别有趣,因为GPT-4需要同时扮演出题者和干扰项设计师的角色。它不仅要根据真实的图片内容出题,还要设计出看起来很合理但实际上完全错误的选项。这就像是在设计一个推理游戏,既要有正确答案,也要有足够迷惑性的错误选项。
最关键的是人工筛选环节。研究团队开发了一套专门的审核软件,让人类审核员像法官一样对每个题目进行最终裁决。审核员需要判断题目是否清晰明确、选项是否合理、答案是否正确。在初始的41,843个候选题目中,最终只有22,831个通过了严格的筛选,通过率约为54.56%。这个过程确保了每个题目都经得起推敲,就像确保每个法庭案例都有充分可靠的证据支持。
二、三种不同类型的"推理陷阱"
HumbleBench设计了三种不同类型的测试,就像是三种不同的推理陷阱,分别考验AI模型在不同方面的判断能力。
第一种是物体幻觉测试,主要考验AI能否准确识别图片中到底有什么东西。比如一张图片中明明只有面包,题目问"图片中有多少个三明治?"正确答案应该是"以上都不对",因为图片中根本没有三明治。这就像是测试一个目击证人能否准确描述现场看到的物品,而不是根据主观推测添加一些实际不存在的东西。
第二种是关系幻觉测试,重点考察AI能否正确理解物体之间的空间关系和交互关系。例如,图片中一个女人坐在椅子旁边,但题目的所有选项都暗示她坐在椅子上面或者有其他关系,这时正确答案就是"以上都不对"。这种测试就像是在验证证人能否准确描述事件中人物的位置关系和行为动作,而不是基于常识或偏见进行推测。
第三种是属性幻觉测试,专门检验AI对物体特征(如颜色、材质、形状等)的判断准确性。比如天空明明是蓝色的,但所有选项都提供了其他颜色,这时AI应该选择"以上都不对"。这类测试模拟了现实中需要精确观察细节的情况,就像鉴定专家需要准确描述证物的特征,不能因为主观印象或常见情况而做出错误判断。
这三种测试类型在数据集中相对均衡分布,物体类问题占31.64%,关系类问题占32.97%,属性类问题占35.39%。这种平衡设计确保了测试的全面性,就像一个完整的能力评估需要覆盖不同的认知维度一样。
三、让顶尖AI模型接受"谦逊考试"
研究团队选择了19个当前最先进的多模态AI模型进行测试,这些模型可以分为两大类:通用型模型和推理特化型模型。通用型模型就像是全科医生,什么都懂一点;而推理特化型模型则像是经过额外训练的专科医生,在复杂推理方面应该更强。
在通用型模型中,表现最好的是Qwen2.5-VL,准确率达到了72.20%。这就像是班级里成绩最好的学生,虽然已经很优秀,但距离满分还有不小差距。其他模型的表现大多集中在60%左右,这意味着它们在面对"以上都不对"的情况时,有约40%的概率会被错误选项迷惑。
有趣的是,推理特化型模型并没有表现出预期中的优势。表现最好的GLM-4.1V-Thinking模型虽然达到了73.46%的准确率,但相比最好的通用模型只有微弱提升。更令人意外的是,有些推理模型甚至表现得比它们的基础模型更差。比如R1-Onevision是基于Qwen2.5-VL进行推理能力强化训练的,但它的表现(66.89%)明显不如原始的Qwen2.5-VL(72.20%)。
这个结果就像发现经过专业训练的专科医生在某些基础判断上反而不如全科医生一样令人意外。研究团队认为,这可能是因为推理模型的训练过程过度强调了给出答案的能力,反而削弱了在不确定时保持谦逊的能力。这提醒我们,在AI训练中,有时候教会模型"不知道就说不知道"比教会它们"无论如何都要给出答案"更加重要。
另一个有趣的发现是,模型的参数规模(可以理解为模型的"大脑容量")与表现并不严格相关。比如只有4B参数的Visionary-R1模型就超过了许多更大的模型,而12B参数的Pixtral却被5B参数的Phi-4超越。这说明在培养AI的认知谦逊能力方面,训练方法和数据质量比单纯增加模型规模更重要。
四、极端压力测试揭示AI的致命弱点
为了更深入地了解AI模型的弱点,研究团队设计了两个极端的压力测试,就像是给汽车做极限性能测试一样。
第一个压力测试叫做HumbleBench-E,在这个测试中,所有题目的正确答案都被设置为"以上都不对"。这就相当于让AI面对一堆完全没有正确选项的题目,看它们能否坚持选择"以上都不对"而不是被错误选项诱惑。
结果令人震惊。大多数模型在这个测试中的表现都急剧下降,甚至低于随机猜测的基准线(20%)。表现最好的Qwen2.5-VL也只达到了28.89%的准确率,而在总体测试中表现最佳的GLM-4.1V-Thinking在这里竟然只有0.06%的准确率,几乎完全失效。更极端的是,包括LLaVA-Next、Molmo-D等在内的多个模型的准确率直接归零,这意味着它们在面对全是错误选项的情况时,永远不会选择"以上都不对"。
这个结果就像发现即使是最优秀的学生,在面对全是陷阱题的考试时也会完全迷失方向。只有Cambrian模型表现相对正常,达到了60.68%的准确率,成为这场"诚实度测试"中的少数幸存者。
第二个压力测试更加极端,叫做HumbleBench-GN。在这个测试中,研究团队用完全的高斯噪声图像(就是电视没信号时的雪花屏)替换了所有的原始图片。由于这些噪声图像不包含任何有意义的视觉信息,理性的AI应该对所有关于图像内容的问题都回答"以上都不对"。
这个测试的结果暴露了AI模型的另一个严重问题:当缺乏视觉信息时,它们往往会依赖语言模型的先验知识来"编造"答案。比如当问到"天空是什么颜色"时,即使图像完全是噪声,Qwen2.5-VL仍然会回答"灰色",因为它的语言部分"记得"天空通常是灰色或蓝色的。
在这个测试中,不同模型的表现差异巨大。Qwen2.5-VL表现最佳,准确率达到90.53%,说明它能较好地识别噪声图像并拒绝给出具体答案。但Phi-4的准确率只有28.19%,尽管它在正常测试中的表现与Qwen2.5-VL相当。这种差异揭示了一个重要问题:有些模型虽然在正常情况下表现良好,但在面对无意义输入时缺乏足够的"视觉忠实度"。
五、AI"胡编乱造"背后的深层原因
通过对错误案例的深入分析,研究团队发现了AI模型产生幻觉的几个典型模式,就像医生通过症状分析找到病因一样。
最常见的问题是AI模型缺乏选择"以上都不对"的勇气。就像前面提到的面包和三明治的例子,图片中明明是一块面包,但当问题问"有多少个三明治"时,AI会倾向于猜测"一个"而不是诚实地说"图片中没有三明治"。这种行为模式反映了当前AI训练方式的一个根本问题:模型被训练成总是要从给定选项中选择一个答案,而不是学会在不确定时保持沉默。
第二种常见错误是关系幻觉,AI经常会根据常识或刻板印象来推断物体之间的关系,而不是严格根据图像内容。比如看到女人和椅子在一起,就默认女人坐在椅子上,而忽视了实际的空间位置关系。这就像一个目击证人根据常理推测而不是根据实际观察来作证一样不可靠。
最严重的是视觉忠实度缺失问题。在噪声图像测试中,一些AI模型完全无视图像内容,纯粹基于问题中的文字线索来生成答案。当问到"天空的颜色"时,即使图像是完全的噪声,AI仍然会根据"天空"这个词联想到常见的颜色如"蓝色"或"灰色"。这种现象说明这些模型在视觉和语言信息的整合方面存在根本缺陷,就像一个人闭着眼睛却声称看到了什么一样。
研究团队还发现,模型的自注意力机制可能会过度偏向语言信息而忽视视觉输入。当视觉信息不明确或缺失时,模型会自动切换到依赖预训练语言知识的模式,导致它们"编造"出看似合理但实际上与图像内容无关的答案。
这些发现揭示了当前多模态AI系统的一个根本性挑战:如何在保持强大推理能力的同时,培养适度的不确定性和认知谦逊。这不仅是技术问题,更是AI系统设计理念的问题。
六、重新定义AI评估标准的意义
这项研究的意义远超出了技术层面,它实际上在重新定义我们应该如何评估AI系统的可靠性。传统的AI评估就像只看学生能否在选择题中选对答案,而忽视了一个更重要的能力:知道自己不知道什么。
HumbleBench填补了现有评估体系的关键空白。以往的幻觉评估基准主要采用简单的是非判断或者假设总有一个正确选项的多选题格式。这就像是在一个理想化的考试环境中测试学生,所有题目都有标准答案,学生只需要找到正确选项即可。但现实世界远比这复杂,有时候所有看似合理的选项都可能是错误的,这时候承认"我不知道"反而是最明智的选择。
研究结果显示,即使是目前最先进的AI模型,在面对"以上都不对"的情况时也表现得相当脆弱。这个发现对AI系统的实际应用有重要启示。在医疗诊断、法律咨询、金融决策等高风险场景中,一个会"不懂装懂"的AI系统可能比一个会说"我不确定,需要人类专家判断"的系统更危险。
更深层次的意义在于,这项研究促使我们重新思考AI训练的目标。当前的AI训练往往过度强调准确率和性能指标,而忽视了不确定性建模和风险意识培养。就像教育一个孩子不仅要教会他们回答问题,更要教会他们什么时候应该说"我不知道"一样,AI系统也需要学会这种认知谦逊。
研究团队还发现,单纯增加模型规模并不能解决认知谦逊问题,有时甚至会让问题变得更严重。这提醒我们,在追求AI系统能力提升的过程中,需要更多关注训练数据的质量、训练方法的设计,以及如何在模型中嵌入适当的不确定性机制。
七、为AI安全发展指明方向
这项研究不仅识别了问题,更为解决这些问题指明了方向。研究团队的工作表明,要构建真正可信赖的AI系统,我们需要从根本上改变AI训练和评估的范式。
首先,需要重新设计训练数据和训练目标。传统的训练方式鼓励模型总是给出答案,即使在不确定的情况下也要"猜"一个。而新的训练范式应该奖励模型在不确定时选择沉默,就像训练一个负责任的专家一样,不确定时宁可承认无知也不要给出可能误导人的建议。
其次,评估标准需要更加全面和现实化。除了传统的准确率指标,还应该包括模型的"诚实度"、"谦逊度"等指标。一个好的AI系统不仅要在知道答案时表现准确,更要在不知道答案时表现诚实。
研究团队开源了HumbleBench的完整代码和数据集,这为整个AI研究社区提供了一个标准化的工具来评估和改进模型的认知谦逊能力。这就像为医学研究提供了标准化的诊断工具,使得不同研究团队可以在同一个基准上比较和改进他们的方法。
对于AI系统的实际部署,这项研究也提供了重要的指导原则。在设计AI产品时,应该为用户提供清晰的不确定性指示,让用户知道AI什么时候是确信的,什么时候是在猜测。这种透明度对于建立用户信任和确保AI系统的负责任使用至关重要。
展望未来,认知谦逊可能会成为评估AI系统成熟度的重要标准。一个真正智能的系统不仅要知道很多事情,更要清楚地知道自己的知识边界。这种自我认知能力是人类智慧的重要组成部分,也应该成为人工智能发展的重要目标。
说到底,这项研究揭示了AI发展中一个看似简单却极其深刻的道理:有时候,承认"我不知道"比给出一个错误答案更需要智慧。随着AI系统在我们生活中扮演越来越重要的角色,培养它们的认知谦逊不仅是技术进步的需要,更是确保AI安全发展的必然要求。当AI学会了说"我不确定",我们才能真正信任它们说的"我知道"。
Q&A
Q1:HumbleBench和其他AI测试有什么不同?
A:HumbleBench最大的特点是每个题目都包含"以上都不对"选项,专门测试AI能否在所有选项都错误时承认不知道。传统测试只看AI能否选对答案,而HumbleBench要看AI是否具备"认知谦逊"——即在不确定时拒绝猜测的能力。这更接近现实世界的复杂情况。
Q2:为什么连最先进的AI模型在HumbleBench上表现都不好?
A:因为现有AI模型的训练方式存在根本问题。它们被训练成总要从给定选项中选择一个答案,而不是学会在不确定时保持沉默。就像一个不愿承认无知的学生总要猜一个答案,这些AI模型宁可选择错误选项也不愿选择"以上都不对"。
Q3:这项研究对普通用户使用AI有什么实际意义?
A:这提醒我们在使用AI时要保持警惕,特别是在重要决策场景中。当前的AI系统很可能在不确定时还会表现得很自信,给出看似合理但实际错误的答案。用户应该学会识别AI的不确定性信号,在关键问题上寻求多方验证,而不是完全依赖AI的判断。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。