微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

蒙特利尔大学联合研究团队：让AI真正"用眼睛思考"，而不只是假装在看图

视觉语言模型视觉思维跨视角空间推理

蒙特利尔大学联合研究团队：让AI真正"用眼睛思考"，而不只是假装在看图

作者：科技行者

2026-06-03 09:33

分享至：

这项由蒙特利尔大学等机构联合发布的研究（arXiv:2605.27310）提出"视角遮蔽"训练法，让AI在跨视角空间推理中真正依赖自己生成的全景思维图像，仅用8000个样本即超越使用23倍数据的同类方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-03 09:33 • 科技行者

这项由蒙特利尔大学、麦吉尔大学、Mila魁北克人工智能研究所及ServiceNow AI研究院联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.27310，题为《如何想象以及想象什么？统一多模态模型中用于跨视角空间推理的视觉思维》。

你有没有遇到过这样的情况：朋友发来两张从不同角度拍的室内照片，问你"照片里那张沙发的右边是什么？"。你会下意识地在脑子里把两张照片拼接成一个完整的房间，然后从那个脑内模型里找答案。这种"在脑海中构建空间地图"的能力，人类做起来毫不费力，但对当下最强大的AI视觉语言模型来说，却是一块真实存在的短板。

现有的AI模型在理解单张图片时已经相当厉害，但一旦面对"需要把两个不同角度的视角整合成一个连贯空间"的任务，它们的表现往往只比随机猜测好一点点。研究团队在论文中一针见血地指出了症结所在：这类任务本质上是一项视觉工作，需要在脑海中构建几何空间，但现有的模型只会把看到的东西翻译成文字，然后在文字的世界里推理——这就好比让一个只会阅读地图说明书的人去描述一个立体迷宫，文字描述永远无法完全捕捉那个空间的真实感。

研究团队因此提出了一个很有意思的问题：能不能让AI也像人类一样，在"回答"之前先在脑海里画一张图，然后盯着这张脑内图像来找答案？这就是整篇研究的出发点。

一、从"假装在用眼睛思考"到"真正用眼睛思考"

为了理解这项研究解决的核心问题，先来搞清楚什么叫"视觉思维"。研究团队使用的是一类叫做"统一多模态模型"（Unified Multimodal Models，简称UMM）的AI系统。这类模型非常特别，它不仅能看懂图片和文字，还能自己生成图片。这意味着你可以让它在给出最终答案之前，先画一张"思考用的草图"，就像侦探在白板上画出案发现场的示意图，然后盯着示意图分析，而不是单纯靠记忆推理。

这张"思考用的草图"被研究团队称为"思维图像"（thinking-image）。理论上，如果模型在回答之前先生成一张把两个视角整合在一起的图像，它应该能借助这张图像更好地理解空间关系。

然而，当研究团队真正训练模型去生成这类思维图像时，他们发现了一个令人沮丧的现象：模型确实学会了生成思维图像，但在给出答案的时候，它根本没有去"看"这张图！就像一个侦探煞有介事地在白板上画了现场示意图，但在推理结论的时候完全无视了白板，依然只凭脑子里记住的原始信息下判断。研究团队通过一个简单的测试证实了这一点：在推理时把思维图像从模型面前"遮住"，结果准确率几乎没有变化。也就是说，那张思维图像只是个摆设，对最终答案毫无贡献。

这种现象的根源在于，标准的训练方式（称为"监督微调"）同时要求模型学会生成思维图像、也学会给出正确答案，但它并不强迫模型在给答案时必须依赖思维图像。模型发现了一条捷径：直接从两张原始输入图像里找答案，完全绕过了思维图像这个"中间商"。于是，思维图像就成了一个华而不实的装饰品，存在于形式上，却不存在于功能上。

研究团队把这种现象称为"视觉证据被忽视"，并以此作为整个研究的起点，提出了两个核心问题：第一，如何让模型真正去使用思维图像？第二，哪种类型的思维图像最有效？

二、"视角遮蔽"训练法：让模型不得不依赖自己画的草图

研究团队解决"思维图像被忽视"问题的方案，被他们命名为"视角遮蔽"（View Dropout，简称VDrop）。这个方案的核心思路极其直接：既然模型总是走捷径，那就把捷径堵死。

具体来说，在训练过程中，研究团队会随机遮住两张输入图像中的某一张的一部分区域。这个被遮住的区域不是零散的随机像素点，而是一块完整的矩形区域——遮住一片连续的场景，让模型无法通过插值或猜测来还原被遮住的内容。

关键在于遮蔽的规则非常精妙：被遮住的区域只对"给出答案"这个步骤不可见，但对"生成思维图像"这个步骤依然完全可见。这意味着，思维图像可以看到完整的两张图，因此它拥有完整的空间信息；但模型在根据思维图像给出答案时，无法再从原始输入图像中"偷看"被遮住的那部分。换句话说，要想正确回答问题，模型就必须从自己生成的思维图像里找答案。捷径被彻底堵死，思维图像终于成了不可绕过的必经之路。

在技术实现上，这个遮蔽操作是通过修改模型内部的"注意力掩码"来实现的，不需要改动任何模型架构，只是告诉模型在给答案的时候"不许看"某些位置的信息。遮蔽区域覆盖输入图像50%的区块是效果最好的设置。

研究团队还设计了一个聪明的训练课程：不是从一开始就强制遮蔽，而是先让模型在完整信息下自由训练一段时间（500步的热身期），然后逐渐增大遮蔽的概率（用1500步线性增加到100%），最终才完全依赖思维图像。这个"先学会游泳，再把水放浅"的节奏，避免了一上来就把模型逼得手足无措。

视角遮蔽的另一个优雅之处在于它的普适性——它不在乎思维图像是什么类型的，也不改变思维图像的生成方式和训练目标，只是改变了答案是否必须经过思维图像这个问题。因此，它可以和任何种类的思维图像配合使用。

三、训练完成后，如何验证模型真的在"看"思维图像？

研究团队设计了两种验证方式来确认视角遮蔽训练确实让思维图像变得不可或缺。

第一种验证叫"生成后遮盲测试"。在正式评估时，研究团队让模型先正常生成思维图像，然后在模型准备开口作答之前，把思维图像从它的"视野"中遮住。如果模型真的依赖思维图像，准确率就会下降；如果它只是用思维图像作装饰，准确率应该几乎不变。

结果清清楚楚：经过标准训练（不含视角遮蔽）的模型，无论思维图像是否被遮住，准确率几乎没有变化，充分印证了"思维图像是摆设"的判断。而经过视角遮蔽训练后的模型，在多个测试集上的准确率显著下降——其中在BLINK测试集上的下降幅度高达12.8个百分点。这个大幅下降意味着：一旦思维图像被遮住，模型就真的"懵了"，因为它确实在依赖那张思维图像。

研究团队还进一步分析了哪类问题上的下降最明显。在一个叫做MMSI的测试集中，他们把所有问题按所需证据类型分成了六类：需要视觉比较的"测量类"问题（比如"哪个更宽"）、需要绝对方位的"基准方向类"问题（比如"在桌子北边的是什么"）、带有特定区域名称的"命名区域类"问题，以及其他类别。遮盲后准确率下降最剧烈的正是"测量类"问题，下降了10.1个百分点，因为这类问题最需要把两个视角在同一幅图中对齐比较。而对于那些需要语言符号知识而非视觉几何的问题（如方位方向、区域名称），遮盲几乎没有影响——毕竟全景图不能帮你知道"北边"在哪里。

第二种验证更深入，研究团队直接测量了模型内部不同层次的"注意力"分布。简单来说，注意力分布告诉我们在生成答案的时候，模型的"目光"有多少比例落在思维图像上，又有多少比例落在两张原始输入图像上。结果显示，普通的BAGEL基础模型有55.3%的视觉注意力落在思维图像上，标准微调后提升到63.6%，而经过视角遮蔽训练后进一步提升到65.2%。更重要的是，这种提升集中发生在模型的早期和中期层次，在这些层次中，经过视角遮蔽训练的模型比标准训练的模型多注意思维图像3.9个百分点。这个现象在BLINK和STARE两个不同的测试集上都一致出现，说明视角遮蔽确实在模型内部改变了信息处理的优先级。

四、画什么图最有效？全景图、俯视图与特征点匹配的三方比较

在确认了"如何让模型使用思维图像"之后，研究团队转向了第二个核心问题：画什么样的思维图像最管用？他们设计了三种不同类型的思维图像，各有其直觉上的优势。

第一种是全景图，从观察者的位置向四面八方拍摄合成的宽视角图像，把两张原始视角都纳入同一个连续的视觉场中，就像把两扇窗户背后的景色拼接成一幅连贯的全景照片。第二种是俯视图，从房间顶角向下俯瞰的视角，呈现出整个房间的鸟瞰布局，像建筑平面图一样直观展示物体的相对位置关系。第三种是特征点匹配图，把两张原始输入图像并排放置，然后在两张图中对应的物体上标注彩色标记，明确地告诉模型"这里的椅子和那里的椅子是同一把"。

研究团队用一个叫做"可学习性—信息量"的框架来分析这三种思维图像的优劣。这个框架包含两个维度。信息量指的是，如果这张图是完美的，它能在多大程度上降低推理难度？可学习性指的是，模型能不能可靠地学会生成这种类型的图像？

要测量信息量，研究团队采用了一个聪明的"神谕实验"：把每种类型的真实、完美的思维图像作为第三张参考图提供给两个强大的现成视觉语言模型（Qwen3-VL-32B和Qwen3-VL-235B），然后观察准确率相比只提供两张原始图时提升了多少。结果相当清晰：全景图带来的提升最大，对相对距离类和相对方向类问题尤其明显，因为这两类问题的答案所需要的视角，恰恰是原始两张图都没有呈现的中间视角；俯视图带来了稳定但较小的提升，因为俯视角度能揭示整体空间布局；而特征点匹配图对两个模型来说都几乎没有正面效果，因为它只是在原始视角上打了标记，没有提供任何新的几何信息。

测量可学习性时，研究团队先用视觉相似度指标（SigLIP余弦相似度）来评估模型生成的思维图像与真实渲染图的接近程度，结果全景图（0.950）和俯视图（0.948）都明显高于特征点匹配图（0.928）。不过研究团队意识到，整体视觉相似度并不能反映几何精度——一张俯视图可能看起来像正确的房间，但里面的家具位置全乱了。

于是他们进行了一项更接近实际的功能性测量：把模型自己生成的（而非完美的）思维图像提供给冻结权重的Qwen3-VL-235B，看看它是否依然有助于回答问题。全景图生成版本在计数、相对距离、相对方向三类问题上都保持了正向效果，说明即使是模型自己生成的全景图，也能把真实的空间结构传递出去；俯视图生成版本只在部分子类上有帮助，整体上还低于只用原始两张图的基线——说明模型只能部分学会生成准确的俯视图；特征点匹配图无论是生成版还是完美版，效果都很有限，症结主要在于它本身信息量就低，而不是生成质量的问题。

由此得出结论：全景图是唯一在信息量和可学习性两个维度上都表现突出的思维图像类型。俯视图虽然信息量充足，但模型目前还无法可靠地生成几何上准确的俯视图，这个"可学习性"的缺口导致它在实际使用中效果打折。

五、在真实世界的测试中，这套方法表现如何？

研究团队在一个合成场景内的测试集（COSMIC）以及五个真实世界测试集上对所有方法进行了评估，这五个测试集分别是MMSI-Bench（多图像空间智能测试）、MindCube（从局部视角构建空间心理模型）、OmniSpatial（高阶关系推理与非自我中心视角）、STARE-Perspective（从非摄像机视角推理物体关系）和BLINK-MultiView（跨多张图整合场景证据）。

研究团队只用了8000个合成训练样本，通过视角遮蔽训练的全景视觉思维模型，在五个真实世界测试集上的平均准确率达到了40.0%。这比基础的BAGEL模型（33.3%）高出6.7个百分点，甚至超过了参数量更大的通用视觉语言模型Qwen3-VL-8B（37.0%）。

更值得关注的是与其他同样基于BAGEL模型的视觉思维方法的比较：ThinkMorph方法使用了约24000个训练样本（是本研究的3倍），达到37.2%；BAGEL-Zebra-CoT方法使用了182000个训练样本（是本研究的23倍），达到26.8%。在数据量只有它们三分之一甚至二十三分之一的情况下，本研究依然超越了这两种方法。这说明问题的关键不在于训练数据有多少，而在于训练方式是否正确、思维图像是否真正被使用。

在合成场景内的测试集上，所有视觉思维变体都达到了83%到85%的高准确率，而不加任何思维图像的直接作答模型也达到了80.6%——说明在合成场景内，任务已经相当接近被解决，真正考验泛化能力的是真实世界测试集。

文字版推理链（Text CoT）的表现出乎意料地差，甚至不如直接作答的模型（32.7% vs 35.1%）。研究团队分析其原因在于：同一个三维场景可以用无数种方式用文字描述，导致训练时生成的文字推理链五花八门、互相矛盾，模型反而从中学到了混乱的信号。而全景图作为推理中间件则没有这个问题，因为同一个场景只会有一张确定的全景图，训练信号是一致的、无歧义的。

六、研究的局限与未来方向

研究团队在论文中坦诚地指出了两项主要局限。首先，整个研究只在BAGEL这一种统一多模态模型架构上进行了验证，其结论能否推广到其他架构的同类模型，目前尚不清楚，留待未来研究探索。其次，视角遮蔽训练法的核心是让模型"被迫使用"思维图像，但它本身并不能提升思维图像的生成质量。如果模型生成的思维图像本来就质量低下或与问题无关，强迫模型依赖它也无济于事。所以视角遮蔽是一种互补性手段，要真正发挥最大效果，还需要与提升思维图像生成质量的方法结合使用。这个方向也被研究团队列为值得探索的未来工作。

归根结底，这项研究讲的是这样一个道理：当你让AI在回答之前先画一张草图时，你必须同时确保它在给出答案时真正去盯着那张草图看，而不只是把草图画出来就算交差。堵死捷径、让思维图像成为必经之路——这个思路简单却有效，而且选对了"画什么草图"同样至关重要。全景图之所以胜出，不是因为它最花哨，而是因为它既包含了足够有用的空间信息，又是模型能够可靠学会生成的。当这两个条件同时满足，视觉思维才真正发挥了作用。

对未来的AI视觉系统而言，这项研究揭示了一条有别于"堆更多数据"或"改更复杂架构"的路径：通过精心设计训练信号，让中间表示真正参与推理过程，就能用更少的数据达到更好的效果。有兴趣深入了解完整实验细节的读者，可以通过论文编号arXiv:2605.27310查阅原始论文。

---

Q&A

Q1：视角遮蔽（View Dropout）训练方法是怎么工作的？

A：视角遮蔽在训练时随机遮住两张输入图像中某一张的一部分，并规定这块被遮区域对生成答案的步骤不可见，但对生成思维图像的步骤完全可见。这样一来，思维图像能看到完整场景，而模型要给出正确答案就必须从思维图像里找信息，无法再走"直接看原始图"的捷径，从而真正用上了思维图像。

Q2：为什么全景图比俯视图和特征点匹配图更适合作为跨视角推理的思维图像？

A：全景图在"信息量"和"可学习性"两个维度上都表现突出。它直接把两个视角拼入同一幅图，空间信息丰富，能大幅提升相对距离和方向类问题的准确率；同时AI模型也能可靠地学会生成它。俯视图虽然信息量够，但模型难以生成几何上准确的俯视图；特征点匹配图本身信息量就偏低，因为它只在原视角上打标记，没有提供新的几何视角。

Q3：跨视角空间推理对现有AI模型来说难在哪里？

A：跨视角空间推理要求把从不同角度拍摄的两张图整合成一个连贯的三维空间模型，然后在这个空间里回答关于物体相对位置、距离和方向的问题。现有的视觉语言模型主要通过把视觉内容转化为文字再推理，而文字描述无法准确保留三维几何信息，因此即使是目前最强的开源模型，在跨视角空间推理任务上的准确率也仅略高于随机猜测水平。

视觉语言模型视觉思维跨视角空间推理

分享至