最近,多模态大语言模型(MLLMs)在视觉任务上取得了令人瞩目的进展,从语义场景理解到文本-图像对齐,再到推理型模型在复杂任务中的增强表现,尤其是在数学和逻辑方面。然而,这些模型在涉及细粒度视觉理解的推理任务中的能力还未得到充分评估。为了填补这一空白,来自新加坡国立大学、西湖大学、浙江大学和华中科技大学的研究团队共同开发了一个名为REASONMAP的新基准,旨在评估MLLMs的细粒度视觉理解和空间推理能力。这项研究于2025年5月24日发布在arXiv(arXiv:2505.18675v1)预印本平台上,研究数据集和工具包可在https://fscdc.github.io/Reason-Map 获取。
想象一下这个场景:你正在一个陌生城市旅行,需要通过地铁从一个地方到另一个地方。你手持一张高分辨率的地铁线路图,但上面复杂的线路网络让你头晕目眩。这时,如果你的智能手机应用能够"看懂"这张地图,并准确地告诉你该如何换乘,那该有多方便?这正是REASONMAP基准测试想要解决的问题:多模态大语言模型能否真正理解复杂的交通线路图,并提供准确的路线规划?
REASONMAP包含来自13个国家30个城市的高分辨率交通地图,并包括1,008个问答对,涵盖两种问题类型和三种模板。平均而言,这些地图的分辨率高达5,839×5,449像素,远超其他多模态推理数据集。研究团队设计了一个两级评估流程,分别评估答案的正确性和质量。通过对15个流行MLLMs(包括基础模型和推理型模型)的全面评估,研究发现了一个反直觉的现象:在开源模型中,基础模型的表现优于推理型模型,而在闭源模型中则恰恰相反。此外,当视觉输入被遮盖时,模型性能普遍下降,这表明尽管MLLMs可以利用先验知识回答一些问题,但细粒度视觉推理任务仍然需要真正的视觉感知才能取得良好的表现。
一、研究背景与意义
想象你正在使用导航软件寻找回家的路。这个软件需要理解地图、识别路线并为你规划最佳路径。现在,把这个场景迁移到人工智能领域:如果我们希望AI助手能够帮助我们理解复杂的地铁线路图并规划路线,它需要具备什么样的能力?
多模态大语言模型(MLLMs)最近在视觉-语言任务上取得了显著进步。它们能够理解图像中的场景,找出图像中的特定物体,甚至进行一些基于图像的推理。但当任务变得更加复杂,需要细致入微地理解视觉内容并进行空间推理时,这些模型的表现如何呢?
就像你需要放大地图才能看清楚换乘站点的细节一样,研究人员需要专门设计的测试来评估AI模型在处理高分辨率、信息密集的图像(如交通地图)时的能力。这正是REASONMAP基准的创新之处。研究者们选择了交通地图作为测试媒介,因为它们天然需要精确的空间解读—想象你必须从地图上确定从A站到B站需要经过哪些线路和换乘站,这正是对细粒度视觉理解能力的挑战。
当前已有一些测试MLLMs推理能力的基准,如MathVQA(测试视觉数学问题)和MMMU(测试多学科多模态理解),但这些基准往往允许模型通过浅层启发式方法取得成功,而不需要真正理解视觉内容。MathVerse通过引入多样化的问题变体来鼓励依赖视觉输入,VisuLogic则通过明确消除语言捷径来强制视觉推理。还有其他一些工作,如VisualPuzzles、VGRP-Bench和R-Bench关注逻辑和结构推理,而CityBench和DriveBench则专注于城市任务和自动驾驶等特定应用领域。V*Bench强调详细的视觉理解。尽管这些进展令人鼓舞,但对于细粒度视觉推理的系统评估仍然有限,特别是对于结构化且信息丰富的图表,如高分辨率交通地图,这在现有基准中留下了一个关键空白。
二、REASONMAP数据集设计与构建
想象你正在设计一个考试,测试学生是否能够看懂城市地铁图并规划路线。你会怎么做?你可能会选择不同城市的地铁图,设计从一个站点到另一个站点的问题,并要求学生详细说明如何到达目的地。这正是研究团队构建REASONMAP的方式。
REASONMAP包含30个来自13个国家的高分辨率交通地图,平均分辨率达到5,839×5,449像素。为了确保多样性,研究团队选择了具有不同复杂度的地图,并将它们分为简单、中等和复杂三个难度级别,每个级别包含10个地图。所选城市包括北京、新加坡、罗马、布达佩斯等世界各地的大都市,确保了地理和语言的多样性。
数据集的构建过程分为三个主要阶段:
首先是数据收集和预处理阶段。研究团队收集了符合相关许可和规定的公开可用交通地图。然后利用MLLMs提取交通线路名称和对应的站点,并进行人工校正,确保信息准确无误。特殊情况如换乘站和分支起始站以标准化格式进行了注释,最终将所有路线和站点信息保存为统一的JSON格式,称为地图元数据。
第二阶段是问答对构建。这个过程包括三个关键步骤:问题生成、参考路线收集和标签注释。在问题生成环节,研究团队随机选择地图上的两个站点,然后基于预定义的模板生成一个简短问题和一个长问题。简短问题只有一个固定模板,而长问题则随机分配两个可用模板之一。这两个长问题模板关注点不同:一个询问经过站点的数量,另一个要求识别每个经过的站点。
对于参考路线收集,研究团队使用高德地图(针对中国城市)和谷歌地图(针对其他城市)的API查询所选两个站点之间的所有有效交通路线。这些路线以统一格式存储,包含相关元数据如路线名称、出发站、到达站、经过站和经过站数量。研究团队丢弃了那些无法在地图上直观追踪的路线,确保与视觉内容的一致性。
在标签注释环节,研究团队进行了两级难度标记。对于地图难度,他们手动将每个地图分配到三个难度级别之一(简单、中等、复杂),确保在30个地图中平均分配,每个级别10个地图。对于问题难度,则基于参考路线中的换乘次数进行分配:无需换乘的路线标记为简单,需要一次换乘的标记为中等,所有其他情况标记为复杂。为确保平衡,研究团队为每个地图设定了固定的难度分布阈值为20:15:5(简单:中等:复杂),生成40个问题。一旦特定地图上某个难度级别的配额达到,就不再保留该级别的额外问题。
第三阶段是质量控制。为确保数据集的可靠性和平衡性,研究团队从三个方面进行了质量控制:正确性、多样性和难度平衡。不正确的问答对要么被手动纠正,要么被丢弃。然后通过自动检查和手动调整确保在所有难度级别上的一致性和覆盖率。
最终的REASONMAP数据集包含1,008个问答对,难度分布如下:57.7%被标记为简单,34.4%被标记为中等,7.8%被标记为复杂。此外,研究团队从中手动选择了312个样本作为测试集,用于基准实验,剩余样本作为未来使用的训练集。为确保多样性和难度平衡,测试集包括11个城市,地图难度比例为4:3:4,问题难度分布(181简单,108中等,23复杂)与完整数据集保持一致。
三、评估框架设计
假设你是一位老师,正在批改学生规划地铁路线的作业。你不仅要看学生给出的路线是否正确(能否到达目的地),还要评估路线的质量(是否选择了最优路径,是否有不必要的绕路)。REASONMAP的评估框架正是基于这样的思路设计的。
研究团队设计了一个两级评估框架,分别评估模型生成答案的正确性和质量。正确性使用准确率来衡量,而质量则通过一个名为"地图分数"(map score)的指标来评估,考虑多种因素如路线效率和与参考路线的一致性。
在评估准备阶段,研究团队首先根据指定格式解析模型生成的答案。不符合指定格式或因模型幻觉而无法解析的答案被标记为无效,并在后续评估中被排除,准确率和地图分数均设为零。对于正确性评估,研究团队使用第3.1.1节中提到的地图元数据作为真实值。对于质量评估,则采用第3.1.2节中收集的参考路线作为真实值。
正确性评估算法检查答案的整体正确性。具体来说,评估算法检查第一段路线的出发站和最后一段路线的到达站是否分别与问题中的起点和终点相匹配,验证每个路线段的路线名称是否存在于地图元数据中,确保每个路线段的出发站和到达站对该路线是有效的,并确认连续路线段之间的换乘站点是一致的。只有当所有这些检查都通过时,答案才被视为正确。同样的评估算法也应用于短问题和长问题的答案。
质量评估则引入了一个统一的评分指标——地图分数,适用于短问题和长问题。总体框架与正确性评估类似,但更注重路线质量。对于短问题,地图分数仅关注路线级别和端点一致性,不包含所有特定于长问题的部分。具体来说,正确匹配起点和终点贡献一分,匹配路线名称增加两分,匹配每个路线段内的出发站和到达站各提供一分。最终分数上限为10分,如果基于正确性评估判断答案正确,则额外奖励分数。这样设计确保了正确答案始终获得高于任何不正确答案的分数。
对于长问题,评估还加入了根据两种问题模板设计的额外评分组件。这些组件旨在捕捉长格式回答中所需的更深层次推理。与短问题一样,正确答案也会获得额外的奖励分数。
具体来说,对于要求模型预测每个路线段经过站点数量的长问题,研究团队引入了"经过站点数量分数"(num_via_stop_score)。这个分数通过计算答案和参考路线经过站点数量的绝对误差,并将其映射到固定分数(4分)来计算。完全匹配获得满分,较大差异获得相应较低的分数。整个路线的分数上限为10分。
对于要求明确列举中间站点的长问题,研究团队计算"经过站点分数"(via_stop_score),综合考虑两个因素:正确匹配的经过站点数量,以及答案和参考路线经过站点集合的交并比(IoU)。该组件的最终分数通过取IoU分数(缩放至10分)和精确匹配数(上限为10)的平均值,然后限制最大值为10分来获得。
四、实验设置与模型评估
想象一场"视觉导航大赛",参赛选手是各种先进的AI模型,他们的任务是理解交通地图并提供准确的路线规划。研究团队邀请了15个流行的多模态大语言模型参加这场比赛,包括开源模型和闭源模型,基础模型和推理型模型。这些选手将如何表现呢?
研究团队评估的模型基于是否为推理导向型模型(具有长思考过程)分为两组。推理模型包括:Skywork-R1V-38B、QvQ-72B-Preview、Kimi-VL-A3B-Thinking/Instruct、OpenAI o3、Gemini-2.5-Flash、Doubao-1-5-thinking-vision-pro-250428(简称Doubao-428)和Doubao-1.5-Thinking-Pro-M-250415(简称Doubao-415)。基础模型包括:Qwen2.5-VL系列(3B、32B、72B)、InternVL3系列(38B、78B)、OpenAI 4o和Doubao-1.5-Vision-Pro-32k-250115(简称Doubao-115)。此外,Doubao 1.5 Pro系列的激活参数大小为20B。
对于开源模型,研究团队将最大输出令牌限制设置为2,048,同时保持其他参数与官方HuggingFace配置一致。所有开源模型都使用PyTorch和HuggingFace Transformers库部署在8块NVIDIA A100 GPU上。对于闭源模型,研究团队使用其官方API进行评估,并遵循每个模型官方文档提供的默认设置。研究团队还在附录D中讨论了处理高分辨率视觉输入时各种模型采用的不同图像处理策略。
为了更好地反映不同样本的复杂度差异,研究团队采用了基于问题难度和地图难度组合的难度感知加权策略。具体而言,每个难度组合都分配了一个预定义的权重,较难的组合获得更高的值。完整的权重矩阵在附录B.2中提供。准确率和地图分数都使用这种加权方案进行评估,确保模型在正确解决更具挑战性的例子时获得更高的奖励。
五、实验结果与分析
现在,让我们来看看这场"视觉导航大赛"的结果。这些AI模型在理解交通地图和规划路线方面表现如何?有哪些令人惊讶的发现?
首先,研究团队观察到一个反直觉的现象:在开源模型中,基础模型始终优于其推理型对应模型,而在闭源模型中则恰恰相反。先前的研究表明,强化学习可能会提高样本效率,但不会引入根本性的新推理能力,而经过强化学习训练的模型往往会将其输出分布偏向高奖励轨迹,这有助于产生更正确的响应,但可能同时限制模型的探索能力并降低其利用更广泛基础知识的能力。此外,最近的研究表明,多模态模型有时可能依赖内部知识先验而非真正关注视觉输入。这一趋势在后续实验中得到进一步支持,当没有视觉输入时,开源模型仍然保持部分性能,表明视觉基础有限。相比之下,闭源推理模型优于其基础变体。一种可能的解释是这些模型在知识覆盖面和视觉整合方面表现更好。
通过分析同一架构系列内的模型性能,研究团队发现模型大小对性能有显著影响。Qwen2.5-VL和InternVL系列展示了一致的趋势:更大的模型在使用更少令牌的情况下取得更好的准确率,这表明即使在细粒度视觉推理任务中,规模法则仍然适用。
研究团队还分析了不同难度组合下的准确率分布。如预期的那样,随着任务复杂度增加,性能下降。此外,研究团队还检查了不同城市之间的准确率变化。结果表明,地图难度与准确率呈负相关。更有趣的是,即使在具有相似地图难度级别的城市之间,模型性能也存在显著差异。这种差异部分可归因于城市知名度和站点名称使用的语言等因素,这两者都与模型的预训练知识密切相关。例如,OpenAI o3在复杂城市如新加坡上的表现明显好于杭州,这可能是因为新加坡的国际知名度更高,且使用英文站名,而杭州的知名度较低,站名为中文。
为了进一步调查MLLMs对视觉输入的依赖程度,研究团队选择了代表性的开源和闭源模型进行额外实验,其中视觉输入被遮盖。结果表明,虽然大多数模型可以利用内部知识回答某些问题,但当视觉输入被移除时,它们的性能普遍下降到不同程度,其中闭源模型的下降更为明显。模型性能与遮盖视觉输入后的性能下降呈正相关,表明有效使用视觉信息。相比之下,Qwen2.5-VL-3B-I等模型表现出最小甚至略有改善的性能,表明其更依赖内部知识而非真正的视觉推理。
最后,研究团队分析了REASONMAP中的代表性失败案例,揭示了几种常见的错误类型。一个常见问题是视觉混淆,模型由于相似颜色或相邻布局而错误识别交通线路。另一个频繁问题是格式错误,响应偏离了所需结构,使其无法处理,尽管可能包含正确的路线信息。研究团队还观察到幻觉实例,模型重复正确答案或生成输入中不存在的信息。拒绝案例也存在,模型明确拒绝回答。值得注意的是,这些错误有时会在单个响应中同时出现。这些行为突显了视觉基础和响应稳健性的局限性,特别是在处理细粒度视觉细节时。
六、结论与未来展望
就像一个导游需要精确理解地图才能带领游客顺利到达目的地,多模态大语言模型也需要具备细粒度视觉理解和空间推理能力才能在现实世界中发挥更大作用。
通过REASONMAP这一基准测试,研究团队揭示了当前多模态大语言模型在处理高分辨率、信息密集型视觉输入时的能力和局限性。研究发现,即使是最先进的模型在理解交通地图和规划路线方面仍面临挑战,特别是当任务需要细粒度的视觉理解和多步骤的推理时。
研究还揭示了一个有趣的现象:在开源模型中,基础模型表现优于推理型模型,而在闭源模型中则相反。这可能反映了当前强化学习训练方法在增强模型推理能力方面的局限性,以及开源和闭源模型在知识覆盖和视觉整合方面的差异。
此外,研究表明,大多数模型在没有视觉输入的情况下性能显著下降,表明它们确实在一定程度上依赖视觉信息进行推理。然而,一些模型仍能在仅有文本输入的情况下部分保持性能,这表明它们可能过度依赖内部知识而非真正理解视觉内容。
REASONMAP的创建填补了现有多模态推理基准中的一个重要空白,为评估模型在处理结构化视觉信息和进行空间推理方面的能力提供了有价值的工具。这不仅有助于推动多模态大语言模型在视觉理解方面的进步,还为理解开源和闭源模型之间的差距提供了新的视角。
未来的研究方向可能包括:扩展数据集以覆盖更多城市和语言,开发更先进的评估方法以捕捉更细微的推理能力差异,以及探索如何增强模型的视觉基础和空间推理能力。随着这些进步,我们可以期待多模态大语言模型在未来能够更好地理解复杂的视觉世界,为用户提供更准确、更有用的信息和建议。
正如一位熟练的导游不仅需要知道目的地,还需要理解如何最有效地到达那里,未来的AI助手也将需要不仅仅识别视觉内容,还要理解其空间关系和逻辑含义。REASONMAP向这一目标迈出了重要一步,为研究人员提供了一个强大的工具来评估和改进多模态模型的细粒度视觉理解和推理能力。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。