
这项由印度理工学院海得拉巴分校与微软研究院印度分部联合开展的研究,于2026年4月17日以预印本形式发布,论文编号为arXiv:2604.16060v1,归类于计算机视觉领域。有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。
一、从"让AI多思考"到"AI越想越错"的意外发现
过去几年,AI圈子里有一个几乎被奉为真理的信条:让AI在回答问题之前先把思考过程一步步写出来,它就会表现得更好。这种方法叫做"链式思考"(Chain-of-Thought,简称CoT),效果在数学题、逻辑推理题上屡试不爽,让无数研究者和工程师深信不疑。
于是,这批来自IIT海得拉巴和微软研究院的研究者产生了一个自然而然的疑问:如果让AI在回答"图片里那个杯子在椅子的左边还是右边"这类空间问题之前,也先把思考过程写出来,效果会不会同样出色?
结论让人大跌眼镜。
研究团队花费大量精力,对17个不同的AI视觉模型进行了系统性测试,横跨13个专门考察空间理解能力的测试集,涵盖了从简单的"谁在谁的左边"到复杂的"从这个角度看,那个物体在三维空间中的哪个方位"等各种类型的空间问题。测试结果一致地指向同一个方向:当AI被要求在回答空间类问题之前先"想清楚",它的表现反而比直接回答时更差。平均来看,这种"先想后答"的方式让准确率下降了约3%。
这就好比一个平时凭直觉打乒乓球打得很好的人,你突然要求他在每次挥拍之前都要用语言把整个动作分析一遍——结果反而手脚不协调,球打歪了。直觉和语言分析,有时候并不是好搭档。
二、测试阵容有多强大,结论就有多可信
为了让这个结论站得住脚,研究团队的测试规模相当可观。他们选取的17个模型涵盖了两大类:一类是经过专门"强化训练让AI学会推理"的多模态推理模型(Multimodal Reasoning Models,简称MRMs),另一类是更通用的多模态语言模型(Multimodal Language Models,简称MLMs)。
在推理模型这边,研究团队选取了8个当时业内表现最突出的开源模型,包括GThinker-7B、ViGoRL-7B-Spatial、Vision-G1-7B、R1-Onevision-7B、VL-Rethinker-7B、Vision-R1、TreeVGR以及ThinkLite-7B。这些模型都是在Qwen2.5-VL-7B这个基础模型之上,通过大量专门设计的训练数据和强化学习方法打磨出来的,其中ViGoRL和TreeVGR更是专门针对空间推理任务进行了额外训练。此外还有一个叫Qwen3-VL-8B-Thinking的模型,它在设计时特别强调了对空间感知能力的增强。
在通用模型这边,研究团队纳入了三个规模的Qwen2.5-VL系列(3B、7B、72B参数量),两个规模的InternVL系列(8B和38B),以及LLaVA系列的两个版本(7B和72B)。此外还测试了包括GPT-4o在内的多个GPT系列商业模型,包括GPT-4o、GPT-4.1-mini、GPT-5、GPT-5-mini和GPT-5-nano,使总测试模型数量达到17个。
13个测试集同样经过精心挑选,分为两大类。前7个聚焦于平面空间关系,也就是在单张图片里判断物体的位置、大小、朝向等,包括BLINK、CV-Bench2D、MMVP、RealWorldQA、SpatialBench、VSR和V*Bench。后6个则难度更高,需要理解三维几何、深度信息、多图联系或动态变化,包括3DSRBench、CV-Bench3D、MindCube、MMSIBench、OmniSpatial和SAT-Real。
为了让比较公平,研究团队统一了所有模型的评测格式,所有题目都采用选择题形式,答题格式完全一致。答案的判断由另一个小型语言模型担任"考官",它和GPT-4o的打分结果之间的一致性系数高达0.99以上,基本可以认为两者等价,保证了评测结果的可靠性。
三、"想太多"为何会拖后腿
研究团队用了两种不同的系统提示词来测试每个模型。一种是"直答模式",模型看到图片和问题后直接给出答案;另一种是"推理模式",模型被要求先在特定标签内写出完整的思考过程,再给出最终答案。对于那些专门训练过推理能力的模型,研究团队还特意使用了这些模型在训练时所用的专属推理提示词,而非统一格式,以确保它们能发挥出最佳水平。
在通用模型这边,这个规律体现得尤为清晰。以Qwen2.5-VL-7B为例,在直答模式下平均得分为62.68%,而在推理模式下只有59.68%,相差3个百分点。这个差距在7B、3B、72B三个规模上都稳定存在,分别为3%、2.57%和2.61%。跨越不同模型家族,InternVL3.5-38B直答比推理高4.48%,LLaVA-OV-72B高3.09%,连那个专门强化了空间感知的Qwen3-VL-8B-Thinking,直答也比推理高0.64%,并且在13个测试集中有8个表现更好。
在专门训练过推理能力的模型这边,情况更加戏剧化。8个开源推理模型中,有6个在直答模式下的表现好于推理模式。其中最极端的案例是GThinker-7B:它的推理模式得分是62.52%,而直答模式只有39.38%,足足差了23.14个百分点。这背后的原因是GThinker高度依赖它被训练出来的那套特定推理格式,当你告诉它"不用推理,直接答",它根本不知道该怎么做,干脆开始重复输出无意义的符号直到字数上限。这暴露出这类模型对推理格式的过度依赖——它们学会了一套固定的"表演流程",一旦流程被打断,整个系统就崩溃了。
商业模型这边的结论也和开源模型保持一致。GPT-5和GPT-5-nano在直答模式下分别高出推理模式0.65%和1.23%。虽然GPT-4o和GPT-4.1-mini在推理模式下稍微好一点,但差距不超过0.5%,以这点微弱的优势换取推理时多出的大量计算成本,实在很难说划算。研究团队还发现,商业模型的推理过程明显更简洁,GPT-5-mini的推理文字平均约350个字符,而Qwen3-VL-8B-Thinking的推理过程平均长达约3600个字符。商业模型的推理过程里也几乎不出现"等等""让我再想想""我需要重新考虑"这类反复横跳的自我纠正表达,研究团队认为,这种简洁可能正是商业模型受推理模式影响较小的原因之一。
四、去掉图片,AI还能答对——这说明了什么问题
这是整篇研究中最令人不安的发现,研究团队将它命名为"无图实验"(No-Image)和"无图++实验"(No-Image++)。
无图实验的做法很简单:把所有题目中的原始图片替换成一张纯灰色的无信息图片,然后让模型继续作答。按照正常逻辑,图片里什么都没有,模型应该没有任何视觉依据,答对的概率应该接近随机水平。但实验结果显示,大多数推理模型的得分远高于随机猜测水平。举个具体的数字:GThinker-7B在正常情况下的平均得分是62.52%,在灰图情况下仍然能得到44.17%,而随机猜测的期望得分是38.83%。这意味着这些模型在看不到任何图片信息的情况下,依靠题目文字和自己积累的世界知识,就能回答对相当一部分空间题目。
这就像一个闭着眼睛参加考试的学生,却因为凭记忆猜到了题目规律而答对了不少题——这不是真正的理解,这是走捷径。
无图++实验在此基础上更进一步,把一个新选项"无法从图片中判断"加入到每道题的选项里,并规定这个选项才是正确答案。换句话说,在这个实验里,一个真正"看到"图片是灰色的模型,正确做法是选这个新选项。结果如何?绝大多数推理模型在这个实验中的得分非常低。它们没有选择承认"看不出来",而是继续自信满满地从原有选项中挑选答案,并且在推理过程中编造出详细的视觉描述,说得好像真的看到了图片一样。
研究团队在论文里展示了一个典型案例。面对"树和山洞的位置关系"这道题,ViGoRL在收到纯灰色图片后,推理过程写道:"山洞入口似乎在图片底部,而树木位置更高,由此可以判断山洞在树木下方。坐标(300, 450)……山洞入口明显位于图片底部,也就是树木的下方。坐标(250, 550)……"最终答案是"下方"。这个模型不仅给出了错误答案,还煞有介事地报告了精确坐标——而它看到的只是一张灰色图片。
它所依赖的,其实是人类世界知识里"山洞通常在树木下方"这条常识。这不是视觉推理,这是用文字编织的幻觉。
在所有测试的模型中,只有非推理模式下的Qwen2.5-VL-7B在无图++实验中表现最好,得分76.41%,也就是说它在大多数情况下能认识到"看不出来"。相比之下,R1-Onevision-7B只有5.55%,Vision-R1只有7.29%,表现最差。这些模型越擅长"讲道理",反而越难以承认"看不出来"。
五、推理模型为何连自己的基础模型都比不过
这是研究团队发现的另一个关键问题。8个专门训练过推理能力的开源模型,有7个的平均得分低于它们的基础模型Qwen2.5-VL-7B(直答模式)的62.68%。这些模型花费了大量计算资源,经历了监督式微调和强化学习的双重打磨,结果却在空间推理这件事上还不如出发点。
研究团队特别关注了为数不多的例外——Vision-G1,它的得分是63.26%,略高于基础模型的62.68%。但研究团队在无图++实验中发现,Vision-G1同时是对文字信息依赖最严重的模型之一,也就是说,它那略微领先的表现,很可能并非来自真正更好的视觉理解,而是来自对题目文字规律和世界知识的更强利用。换句话说,它可能只是"作弊"作得更高明一些。
研究团队还专门整理了一张表格,揭示了一个有意思的现象:这些推理模型在自己论文里用来展示成绩的测试集,主要都是数学类题目,比如MathVision、MathVista等,而非视觉空间类任务。GThinker的论文用了MMStar、RealWorldQA和MMMU-Pro来展示成绩,R1-Onevision用了MathVision、Mathvista和Mathverse,VL-Rethinker用了MathVision、MMMU-Pro和MEGA,Vision-G1用了MathVista、MMMU-Pro、MMStar和ChartQA。这类测试集的共同特点是:答案主要依赖文字推理逻辑,而非真正的视觉感知。这些模型在数字游戏上确实进步了,但进入真正需要"眼睛"才能解决的领域,提升就消失了。
六、这对未来的AI研究意味着什么
研究团队认为,这些发现指向一个根本性的问题:当前大多数推理AI的训练方式是"以文字为中心"的——它们学会了用语言来思考,用语言来推理,但视觉信息在这个过程中常常只是一个触发器,而非真正参与推理的对象。空间理解要求的是直接感知图像中的几何关系、深度、方向,这些东西很难被转化成流畅的文字推理链条,强行转化反而可能引入扭曲。
由此,研究团队提出了未来研究的两个可能方向。一个方向是在推理过程中加入实时的视觉验证机制:每推理一步,就检查这一步的结论是否真的与图片中的视觉证据相符,一旦发现不符,触发回溯和修正,而非继续在错误的文字逻辑上叠加更多错误。另一个方向是建立以视觉为主导的奖励机制:在训练AI的强化学习阶段,明确奖励那些真正从图片出发进行推理的行为,而非仅仅奖励推理过程是否流畅、答案是否正确。
归根结底,这项研究传递的核心信息是:让AI"能说会道"并不等于让AI"真正看懂"。多说话不是解决视觉问题的好方法,有时候,少说话、多看图,才是正确的方向。下一代视觉AI的突破口,或许不在于更长的推理链条,而在于更深入地与图像本身建立联系。这对于所有正在研究和使用AI视觉系统的人来说,都是一个值得认真对待的提醒。对这项研究感兴趣的读者,可以通过arXiv编号2604.16060查找完整论文,其中包含所有详细的实验数据和方法描述。
Q&A
Q1:链式思考(CoT)为什么在空间推理任务上会让AI表现变差?
A:链式思考要求AI用语言一步步描述推理过程,但空间关系(比如"谁在谁的左边")本质上是视觉感知的结果,很难用语言逻辑准确还原。强行用文字分析图片中的几何关系,反而容易引入偏差,让AI依赖文字常识而非真正"看图"来回答问题,导致准确率下降。
Q2:无图++实验是怎么做的,说明了什么问题?
A:无图++实验把所有题目的图片换成纯灰色空白图,同时在选项中加入"无法从图片中判断"这个正确答案。结果大多数AI推理模型仍然选择原有选项,并编造出详细的视觉描述,而非承认看不出来。这说明这些模型严重依赖文字题目和世界常识来猜答案,并非真正理解图片内容。
Q3:专门训练过空间推理能力的AI模型,为什么还是比不过基础模型?
A:这些推理模型虽然经过了大量强化学习训练,但它们的训练评测任务主要是数学题,不是视觉空间题。它们学会了更流畅的文字推理,却没有学会更好地理解图片中的空间关系。在真正的视觉空间测试中,这种文字推理能力帮助有限,反而可能干扰对图片的直接判断。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。