
这项由马里兰大学学院园分校的陈瑞凡、梁怡君、什韦塔·巴德瓦杰、科韦西·科比纳、李明和周天怡等研究人员共同完成的研究发表于2025年12月,论文编号为arXiv:2512.11995v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们面对一个复杂问题时,比如要找出一张照片是在哪里拍摄的,我们的大脑会自然而然地开始一系列"侦探工作":先观察照片中的建筑风格,然后注意街道标识,接着分析天气状况,最后综合所有线索得出结论。这种逐步探索、层层推进的思维过程,就是所谓的"探索性推理"。
然而,当前的人工智能视觉语言模型在这方面表现得像个急性子的新手侦探——它们往往急于给出答案,却缺乏系统性的探索过程。就像一个侦探看到犯罪现场后立即指认嫌疑人,而忽略了收集证据、分析线索的重要步骤。这种"一步到位"的工作方式在面对复杂的开放性视觉推理任务时往往力不从心。
马里兰大学的这个研究团队意识到,要让AI真正具备人类水平的视觉推理能力,就必须教会它们如何进行有条理的探索。他们开发了一个名为V-REX的评估框架,这个框架就像是为AI侦探设计的专门训练营,通过"问题链"的形式来考察和训练AI的探索推理能力。
研究团队发现了一个有趣的现象:当前的AI模型就像两种不同类型的侦探。有些AI很会"跟线索"——当你给它一系列有用的提示时,它能很好地利用这些信息得出正确结论。但同样这些AI在"找线索"方面却表现得相对较差——它们不太会主动提出有价值的探索性问题。这种能力上的不平衡揭示了一个重要问题:AI需要在两个方面都得到提升。
更令人意外的是,较小的AI模型展现出了"专科医生"的特点——它们在跟随既定线索方面表现出色,但在制定探索计划方面相对薄弱。而较大的AI模型则更像"全科医生",在两个方面都表现得相对均衡。这个发现不仅揭示了AI发展的规律,也为未来的模型优化指明了方向。
一、破案能力的两面:规划探索路径vs跟随线索指引
研究团队将AI的探索推理能力比作侦探破案的两个核心技能。第一个技能是"规划能力",就像一个经验丰富的侦探到达犯罪现场后,会系统性地思考:"我应该先检查什么?接下来关注哪个线索?"这种能力决定了侦探能否制定出有效的调查路径。
在AI的世界里,规划能力体现为模型是否能够在面对复杂的视觉问题时,主动提出一系列有价值的子问题。比如当AI看到一张交通事故的照片,需要判断责任方时,一个具备良好规划能力的AI会依次询问:"黑色车辆在做什么?""银色车辆的行驶状态如何?""路面是否湿滑?"这些问题构成了一条通往答案的逻辑链条。
第二个技能是"跟随能力",就像助理侦探接到资深侦探的指示后,需要准确执行每一步调查任务并给出可靠的答案。在AI领域,这体现为当给定一系列引导性问题时,模型能否准确回答每个问题,并利用这些信息得出正确的最终结论。
研究团队通过一个巧妙的实验设计将这两种能力分离开来进行测试。在规划能力测试中,AI面对的是一道多选题:给定一个最终问题和当前的推理进展,AI需要从几个候选问题中选择最有助于解决问题的下一步探索方向。这就像侦探在每个关键节点都要做出战略决策:"现在应该询问目击者,还是应该分析物证?"
在跟随能力测试中,AI接收的是一条完整的问题链,需要按照既定路径逐步回答每个子问题。这个过程类似于按照标准操作流程执行调查任务,考验的是AI对视觉信息的准确理解和逻辑推理能力。
通过这种分离式设计,研究团队发现了一个重要现象:几乎所有测试的AI模型在跟随能力上都表现得相对稳定,模型之间的差异较小。但在规划能力上,不同模型之间的表现差异就很大了。这说明"按图索骥"相对容易,而"运筹帷幄"却需要更高层次的智能。
更有趣的是,研究团队发现较小的AI模型往往是"执行专家"——它们很会跟随既定的推理路径,但在制定探索计划方面相对薄弱。随着模型规模的增大,这种不平衡逐渐得到改善,大型模型在两种能力上都表现得更加均衡。这个发现揭示了AI智能发展的一个重要规律:复杂的战略规划能力需要更大的计算资源和更丰富的知识储备。
二、问题链条的艺术:将复杂推理拆解为简单步骤
传统的AI评估就像期末考试,直接给出一道复杂的综合题,要求AI立即给出最终答案。但研究团队意识到,真正的推理过程应该像解决一个复杂数学题一样,需要将大问题分解为一系列相互关联的小问题。
他们提出的"问题链"概念就像是为AI设计的思维导图。每个复杂的视觉推理任务都可以分解为若干个层次递进的子问题,每个子问题的答案都为下一个问题提供必要的背景信息。比如判断一本书的主题这个任务,可以分解为:"封面上画的是什么?""作者是谁?""这个作者以什么领域闻名?""综合这些信息,这本书最可能讲什么?"
这种设计的巧妙之处在于,它既保持了推理过程的复杂性,又将评估空间限制在了可控范围内。研究团队为每个子问题设计了有限的选择项,这样既避免了开放式回答带来的评估困难,又确保了测试的标准化和可重复性。
问题链的构建遵循两个重要原则。首先是"有用性原则":每个子问题的答案都必须对后续问题或最终答案有实际帮助,不能是无关的装饰性问题。其次是"顺序性原则":前面的问题不能依赖于后面问题的答案,确保推理过程的逻辑性。
为了测试AI的规划能力,研究团队还设计了"干扰问题"。这些问题看起来很有道理,但实际上会把推理过程引向歧途。就像在侦探小说中,作者会设置一些看似重要但实际上是红鲱鱼的线索。AI需要在多个候选问题中识别出真正有价值的探索方向,这考验的是它们的判断力和战略思维。
研究团队花费了大量精力来确保问题链的质量。他们邀请了多名博士水平的标注员,采用多轮交叉验证的方式来构建和完善每一条问题链。每条链条都经过了严格的逻辑检查,确保从起点到终点的每一步都是合理且必要的。
这种精心设计的问题链不仅可以用于评估AI的当前能力,还可以作为训练数据来提升AI的探索推理水平。当AI模型接触到大量高质量的推理链条时,它们可以学习到什么样的问题顺序是有效的,什么样的探索策略能够通往正确答案。
三、四大推理类型:从逻辑推演到信息搜寻的全方位考察
研究团队将人类的视觉推理活动比作四种不同类型的智力游戏,每种游戏都需要特定的技能组合。这样的分类不仅帮助我们更好地理解推理的本质,也为AI的全面评估提供了科学框架。
第一类是"演绎推理",就像玩逻辑拼图一样。当我们看到一张流程图时,需要根据图中的箭头和分支来推断程序的运行逻辑。或者观察一组图案,找出其中的规律并预测下一个图案。这类推理考验的是AI是否能够发现和应用隐藏的规则。演绎推理包含了四个具体场景:分析流程图的逻辑结构、识别图案中的数学规律、推断物体的物理属性,以及理解对象之间的关系网络。
第二类是"猜测推理",类似于侦探推理游戏。这种推理发生在信息不完整的情况下,需要根据有限的线索做出最合理的推断。比如看到一张街景照片,要根据建筑风格、车辆类型、道路标识等细节来猜测拍摄地点。或者观察一个人的表情和动作,推断他的意图和情绪状态。猜测推理涵盖五个场景:判断事件责任、推断人物意图、估计地理位置、推测时间信息,以及识别话题主题。
第三类是"导航推理",就像玩策略游戏一样。这种推理需要在空间或程序中规划最优路径。比如在地图上找到从A点到B点的最短路线,或者在复杂的用户界面中找到实现特定功能的操作步骤。导航推理不仅考验空间感知能力,还要求AI能够进行多步规划和动态调整。这类推理包括四个场景:地图路径规划、图形界面操作、交通规则理解,以及趋势变化分析。
第四类是"检索推理",类似于在图书馆中查找资料的过程。这种推理需要在大量信息中快速定位、提取和整合相关内容。比如在一张复杂的信息图表中找出特定的数据点,或者在密密麻麻的文字中找出隐藏的单词。检索推理考验的是AI的注意力分配和信息整合能力。它包含两个主要场景:计数统计任务和文字谜题解答。
每种推理类型都有其独特的挑战。演绎推理要求AI具备抽象思维能力,能够从具体实例中提取一般规律。猜测推理考验AI在不确定性环境下的决策能力和常识运用。导航推理需要AI具备全局规划和局部优化的双重能力。检索推理则要求AI在处理大量信息时保持精确性和效率。
研究团队发现,不同的AI模型在这四个类型上表现出了明显的偏好性。一些模型在演绎推理上表现出色,但在猜测推理上相对较弱。另一些模型则擅长检索任务,却在导航规划上遇到困难。这种差异性反映了当前AI技术的发展不平衡,也为未来的改进方向提供了明确指引。
更重要的是,研究团队发现真实世界的复杂问题往往需要多种推理类型的协同工作。比如分析一张交通事故照片既需要演绎推理来理解交通规则,又需要猜测推理来推断事故原因,还需要检索推理来收集相关证据。这种多元化的要求使得V-REX成为了一个更加全面和贴近实际应用的评估平台。
四、模型规模与推理能力:大脑容量决定思维深度
研究团队测试了从十亿参数到数百亿参数的各种规模AI模型,就像比较不同容量的计算机处理同样复杂任务时的表现差异。这项大规模对比研究揭示了AI发展中的一些重要规律。
最引人注目的发现是,AI的推理能力确实遵循"规模定律"——模型越大,整体表现越好。这就像人类大脑一样,拥有更多神经元连接的大脑通常能够处理更复杂的思维任务。但有趣的是,这种提升并不是均匀分布的。
较小的模型表现得像专业技师,它们在执行具体任务时非常可靠,但在制定整体策略时显得力不从心。比如当给定一条明确的推理路径时,小模型能够准确地跟随每一步指令,得出正确答案。但如果让它们自己规划推理路径,选择探索方向,它们就变得犹豫不决,经常选择那些看似相关但实际无用的问题。
随着模型规模的增长,这种不平衡逐渐得到改善。大型模型就像经验丰富的项目经理,既能做好具体执行工作,也能进行战略规划。它们在面对复杂问题时,能够更好地平衡"做什么"和"怎么做"两个层面的挑战。
研究团队还发现了一个有趣的现象:同等规模的模型在跟随能力上的差异相对较小,但在规划能力上的差异却很大。这说明学会"按部就班"相对容易,而掌握"运筹帷幄"却需要更深层的智能。这种差异可能源于训练数据的特点——大多数训练数据都是问答对的形式,教会了AI如何回答问题,但很少有数据能够教会AI如何提出好问题。
令人惊讶的是,一些大型开源模型的表现已经接近甚至超过了商业化的专有模型。这表明开源AI社区的发展速度非常迅猛,技术门槛正在快速降低。但在最复杂的推理任务上,顶级的商业模型仍然保持着明显优势,特别是在需要深度规划的场景中。
研究团队通过细致的分析发现,模型规模的增长主要提升了三个方面的能力。首先是知识整合能力——大模型能够更好地将不同领域的知识联系起来,形成完整的推理链条。其次是抗干扰能力——面对误导性信息时,大模型更能保持正确的推理方向。最后是策略规划能力——大模型在面对开放性问题时,能够制定更有效的探索策略。
这些发现对AI的未来发展具有重要意义。它们表明,仅仅增加模型规模是不够的,还需要专门针对推理规划能力进行优化。同时,对于不同应用场景,可能需要不同规模的模型来达到成本和性能的最优平衡。
五、错误恢复能力:从失误中重新站起来的智慧
在现实生活中,即使是最优秀的侦探也会在调查过程中犯错误或走弯路。关键不在于完全避免错误,而在于能够从错误中恢复并最终找到正确答案。研究团队对AI的这种"纠错能力"进行了专门研究,结果让人颇感意外。
当AI在推理过程中走错了方向——比如选择了无关紧要的探索问题——它们通常还有机会在后续步骤中纠正错误,最终得出正确答案。这就像一个侦探即使在调查初期关注了错误的线索,但只要后来能够重新聚焦到关键证据上,依然可能破解案件。
研究团队发现了一个有趣的不对称现象:AI更善于从规划错误中恢复,但很难从执行错误中恢复。具体来说,如果AI在某一步选择了错误的探索问题,它通常能够在下一步或下下步重新回到正确轨道。但如果AI对某个具体问题给出了错误答案,这个错误往往会像多米诺骨牌一样影响后续的所有推理步骤。
这种差异反映了两种不同类型错误的本质区别。规划错误更像是在迷宫中选择了错误的分叉路口,虽然会走一些弯路,但最终还是可能到达目标。而执行错误更像是在计算中出现了基础数据错误,这种错误会在每一步计算中被放大,最终导致完全错误的结果。
更令人印象深刻的是,大型商业模型在错误恢复方面表现出了明显优势。当它们在推理过程中遇到阻碍时,往往能够"另辟蹊径",通过不同的推理路径达到正确答案。这种能力类似于经验丰富的问题解决者具备的灵活思维——即使原定计划行不通,也能迅速调整策略。
研究团队通过定量分析发现,从规划失误中恢复的成功率普遍高于从执行失误中恢复的成功率。在最好的情况下,一些模型即使在70%的步骤中选择了次优的探索方向,仍然能够在30%的情况下得出正确的最终答案。但如果在执行层面出现同样比例的错误,成功恢复的概率就会大大降低。
这个发现具有重要的实际意义。它告诉我们,在设计AI系统时,应该更多地关注提高执行准确性,而不仅仅是优化规划策略。同时,也说明在人机协作的场景中,人类可以在战略规划层面给AI提供一定的容错空间,但在具体执行环节需要确保高精度。
另一个有趣的观察是,较小的开源模型和大型商业模型在错误恢复能力上存在显著差异。这不仅体现在恢复成功率上,还体现在恢复速度上。大型模型往往能在较短的步骤内识别并纠正错误,而小型模型可能需要更多的尝试才能重新找到正确方向。
这些研究结果为AI的鲁棒性设计提供了重要启示。在开发实际应用系统时,我们不仅要追求单步准确性,还要考虑整个推理链条的容错能力。一个好的AI系统应该像一个有经验的专家一样,既能尽量避免错误,也能在犯错时迅速调整策略。
六、引导式推理的力量:循序渐进胜过一蹴而就
研究团队在实验中发现了一个令人鼓舞的现象:当给AI提供适当的推理引导时,几乎所有模型的表现都会显著提升。这就像给学生提供了详细的解题思路,即使是原本觉得困难的问题也变得容易解决。
这种提升效果在不同推理类型上表现得并不均匀。在需要复杂逻辑推演的演绎推理任务中,引导式方法带来的改善最为明显。当AI需要分析流程图或识别图案规律时,逐步的问题拆解帮助它们避免了"一口吃成胖子"的错误,而是能够稳扎稳打地建立完整的推理链条。
在猜测推理任务中,引导式方法的效果也很显著,但表现形式有所不同。这类任务往往需要整合多种线索来做出推断,比如根据街景照片猜测地理位置。当AI被引导着依次关注建筑风格、路标信息、植被特征等不同方面时,它们能够建立起更全面的证据网络,从而得出更准确的结论。
相比之下,在检索推理任务中,引导式方法的优势相对较小。这类任务主要依赖于精确的视觉识别和信息定位能力,比如在复杂图像中计数特定对象或寻找隐藏文字。对于这些任务,问题的拆解并不能显著降低感知难度,AI的瓶颈更多在于基础的视觉处理能力而非推理规划能力。
研究团队还观察到一个有趣的现象:引导式推理对不同规模模型的帮助程度并不相同。较小的模型从引导中获得的提升往往更加明显,这说明当模型自身的规划能力有限时,外部的结构化引导能够有效弥补这一不足。而大型模型虽然也能从引导中受益,但提升幅度相对较小,因为它们本身就具备了较强的自主推理能力。
这个发现具有重要的实践意义。它表明我们不需要等待AI技术完全成熟,就可以通过合理的系统设计来显著提升AI的实际表现。在开发AI应用时,与其追求模型的完美自主性,不如设计良好的人机交互界面,让人类能够为AI提供适当的推理引导。
更深入的分析显示,引导式推理的效果取决于引导质量。精心设计的问题链条能够引导AI关注真正重要的信息,避免在无关细节上浪费"注意力"。但如果引导方向错误,反而可能把AI带入歧途。这就像给学生错误的解题提示,不仅无法帮助解决问题,还可能加深误解。
研究团队通过对比实验发现,最有效的引导策略是那些能够帮助AI建立"知识脚手架"的方法。这些方法不是简单地告诉AI答案,而是帮助它们建立起从输入信息到最终结论的逻辑桥梁。就像教师在讲解复杂概念时,会先建立必要的背景知识,然后逐步引入核心内容。
这种引导式推理的成功也为AI教育和训练提供了新思路。传统的AI训练往往关注输入输出的直接映射,而引导式方法强调的是推理过程的明确化。通过让AI学习大量高质量的推理链条,我们可能能够培养出更具可解释性和可靠性的AI系统。
七、商业模型与开源模型的较量:技术差距正在快速缩小
在这场AI推理能力的全面测试中,商业化模型和开源模型之间的竞争呈现出了复杂而有趣的格局。就像专业运动员和业余选手的比较,虽然总体上专业选手更强,但在某些单项上,优秀的业余选手也能展现出惊人的实力。
在最高水平的较量中,GPT-5和O3等顶级商业模型确实展现出了明显的技术优势,特别是在需要复杂规划的任务中。这些模型就像经验丰富的首席侦探,不仅能够准确执行调查任务,还能制定出高效的调查策略。它们在处理开放性问题时表现出了更强的战略思维能力,能够在众多可能的探索方向中选择最有价值的路径。
但令人印象深刻的是,一些大型开源模型的表现已经非常接近商业模型的水准。在某些特定的推理类别中,最优秀的开源模型甚至超过了中等水平的商业模型。这反映了开源AI社区的快速发展和技术民主化的趋势。就像开源软件在很多领域已经能够与商业软件相媲美一样,开源AI也在逐渐缩小与商业产品的差距。
更细致的分析显示,商业模型和开源模型之间的差距主要体现在两个方面。首先是推理一致性——商业模型在不同类型任务上的表现更加稳定,很少出现在某个特定领域表现异常糟糕的情况。而一些开源模型虽然在擅长的领域表现优秀,但在其他领域可能存在明显短板。
其次是错误恢复能力的差异更为显著。当推理过程中出现错误时,顶级商业模型展现出了更强的自我纠正能力。它们能够更快地识别出推理路径中的问题,并寻找替代方案。这种能力对于实际应用至关重要,因为现实世界的问题往往没有标准答案,需要AI具备灵活应变的能力。
有趣的是,研究团队发现不同商业模型之间也存在明显的"个性差异"。某些模型擅长逻辑严密的演绎推理,而另一些模型则在需要直觉和常识的猜测推理上表现更好。这种差异可能源于不同的训练策略和数据特点,也反映了AI技术发展的多元化路径。
开源模型的一个显著特点是它们往往在某个特定方向上表现突出。一些模型在视觉理解方面表现出色,能够准确识别图像中的细节信息。另一些模型则在逻辑推理方面有独特优势,能够处理复杂的多步推理任务。这种专业化倾向既是优势也是局限——在特定应用场景中可能表现优异,但在需要综合能力的复杂任务中可能力不从心。
从发展趋势来看,开源模型和商业模型之间的这种竞争格局正在推动整个行业的快速进步。商业公司为了保持技术优势,必须不断创新和优化。而开源社区则通过集体智慧和开放合作,能够快速学习和改进。这种良性竞争最终受益的是整个AI生态系统的用户。
研究结果也显示,在资源有限的情况下,选择合适的开源模型配合精心设计的应用架构,往往能够实现与昂贵商业模型相近的实际效果。这为中小企业和研究机构使用先进AI技术提供了可行的路径,有助于AI技术的普及和应用。
说到底,这项来自马里兰大学的研究为我们打开了一扇观察AI思维过程的窗户。通过V-REX这个评估框架,我们不仅看到了当前AI在探索推理方面的能力现状,也清楚地认识到了未来改进的方向。
最令人鼓舞的发现是,AI确实能够从结构化的推理引导中显著受益,这意味着我们不需要等待技术完全成熟,就能通过巧妙的系统设计大幅提升AI的实际表现。同时,开源模型与商业模型之间快速缩小的技术差距,也预示着高质量AI技术的普及化趋势。
当然,研究也揭示了AI当前存在的明显短板,特别是在自主制定探索策略方面的不足。这提醒我们,AI的智能化道路还很漫长,需要在算法创新、训练方法和应用设计等多个维度持续努力。但正如这项研究所展示的,通过科学的方法来分析和改进AI能力,我们正在稳步接近让机器具备真正智能推理能力的目标。
对于普通人来说,这项研究的意义在于让我们更好地理解了AI的能力边界和使用方式。在与AI协作时,如果我们能够提供适当的推理引导,就能获得更好的结果。而随着AI推理能力的不断提升,未来我们可能会看到更多能够进行深度思考和复杂推理的AI应用,从教育辅助到科学研究,从创意设计到问题解决,这些进步最终都会以某种方式改善我们的日常生活。
有兴趣深入了解这项研究技术细节的读者,可以通过论文编号arXiv:2512.11995v1查询和下载完整的研究报告,其中包含了详细的实验设计、数据分析和技术实现方法。
Q&A
Q1:什么是V-REX评估框架?
A:V-REX是马里兰大学开发的AI视觉推理评估系统,专门测试AI的探索推理能力。它通过"问题链"的方式,将复杂的视觉推理任务分解为一系列相互关联的子问题,然后分别测试AI的规划能力和跟随能力,就像训练侦探学会制定调查策略和执行具体任务一样。
Q2:AI的规划能力和跟随能力有什么区别?
A:规划能力是指AI能否主动提出有价值的探索性问题,制定有效的推理路径;跟随能力是指当给定一系列引导性问题时,AI能否准确回答每个问题并得出正确结论。研究发现大多数AI在跟随方面表现较好,但在规划方面相对较弱,就像会按图索骥但不会运筹帷幄。
Q3:为什么大模型比小模型推理能力更强?
A:大模型拥有更多的参数和更丰富的知识储备,使其能够更好地整合不同领域的信息,制定更有效的推理策略。小模型像专业技师,擅长执行具体任务但缺乏战略规划能力;大模型更像全科专家,在规划和执行两方面都更加均衡。同时,大模型在面对错误时也有更强的自我纠正能力。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。