这项由华盛顿大学、艾伦人工智能研究所、微软和OpenAI联合开展的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.03988,有兴趣深入了解的读者可通过该编号查询完整论文。
**当机器人的眼睛不够用时**
你有没有试过在完全黑暗的房间里找钥匙?你不需要开灯,因为你知道桌子在哪儿、柜子是什么形状,你的大脑会自动"脑补"出整个房间的样子,然后指挥你的手去摸索。这种"看不见但能想"的能力,是人类理解空间的核心技能之一。然而,对现有的视觉语言模型(也就是能看图说话的AI)来说,这种能力几乎是一块盲区。
现有的AI视觉模型在识别图片里有什么东西这件事上已经做得相当出色,但一旦问题变成"如果你挪到那个位置再往左转,桌子会在你的哪一侧?",模型就会开始犯迷糊。因为这类问题要求的不只是"看到什么",而是"如果情况变了,会看到什么"——一种需要主动构建脑海中的立体地图、并在想象中操作这张地图的能力。
这项研究的核心目标,就是给AI装上这种"脑补"能力。研究团队将这种能力命名为"想象性感知"(Imaginative Perception),并设计了一种叫做"想象性感知词元"(Imaginative Perception Tokens,简称IPT)的技术,让AI在回答空间问题之前,先在脑海中生成一张"如果我站在那里会看到什么"的画面,然后再根据这张画面给出答案。
**一、为什么AI的空间感这么差——问题出在哪里**
要理解这项研究解决的问题,可以先从一个日常场景出发。假设你朋友发给你一张他家客厅的照片,然后问你:"如果我从沙发这里挪到门口,再向右转90度,电视机会在我的左边还是右边?"你可能需要盯着那张照片想几秒钟,在脑子里模拟一下这个移动过程,最终给出答案。你能做到,是因为你的大脑会自动构建一个三维的场景模型,并在想象中执行这次"虚拟移动"。
现有的AI系统缺少的,正是这个"虚拟移动"的环节。当AI看到那张照片时,它能认出沙发、门、电视机,但它没有一套机制去模拟"如果站到那个位置会看到什么"。更糟的是,很多研究者试图用文字的方式教AI做这件事——比如让AI先用语言描述"我站在门口,面朝右边,电视机在...",然后再给答案。但空间关系本质上是视觉的、立体的,硬要翻译成文字,就像把一幅地图念成文字再让人记路——信息损耗巨大,又容易出错。
研究团队在文献中梳理了此前的尝试。一些工作让模型生成"视觉草图"或者"思维可视化",另一些工作引入了深度图、边界框等中间表示方式。但这些方法有一个共同的局限:它们处理的都是输入图像里已经存在的信息,是在"已知"的范围内做提炼和整理,而不是去预测"未知"——那些在当前视角下根本看不到、但逻辑上存在的空间结构。
正是这个缺口,催生了IPT这一技术。
**二、三道"空间想象力测试题"——任务设计与数据集**
为了系统性地研究和训练这种想象性感知能力,研究团队设计了三类空间推理任务,每类任务都像是一道需要"脑补"才能解答的谜题,并为每类任务构建了约2万条训练数据,同时配备了经过人工筛选的评测基准。
第一类任务叫做"视角变换"(Perspective Taking,简称PET)。给AI看一张室内场景的第一人称照片,照片上用红色"X"标记了一个目标位置,然后问AI:"如果你移动到这个X的位置,再向左转90度,那个椅子会出现在你的左边还是右边?"AI当前看到的是某个视角的画面,而X标记的位置根本没有对应的照片提供——答题必须靠"想"。这道题还细分为六个子类别,涵盖物体是变近还是变远(距离变化)以及物体出现在左边还是右边(相对位置),确保评测的全面性。
第二类任务叫做"路径追踪"(Path Tracing,简称PT)。给AI看一张俯视图(就像导航软件的地图视角),图上标注了一条从waypoint 1到waypoint 2的路径,以及路径中间的一个中间点M1。同时给AI看从waypoint 1和waypoint 2向前看的第一人称照片。然后问:"当你走到M1这个位置时,你的右手边能看到什么物体?"关键在于,AI得到的端点视角照片没法直接告诉它在M1站着往旁边看是什么样子——需要在脑海中合并俯视地图和端点信息,推断出那个中间位置的侧视画面。
第三类任务叫做"多视角计数"(Multiview Counting,简称MVC)。给AI看同一个房间从四个不同角度拍摄的照片,然后问:"这个区域里一共有几把椅子?"这听起来简单,但实际上挑战极大——同一把椅子可能在多张照片里都出现,直接把每张照片里的数字加起来肯定会重复计算;有些椅子可能只在某一张照片里部分可见;整体布局需要在脑海中拼合四张局部视角才能看清全貌。
这三类任务都有一个共同特征:正确答案所需的关键信息,在输入图像里是**看不见**的,必须通过想象来补全。研究团队为每类任务提供了"想象性感知目标"——也就是"如果你真的站在那个位置会看到什么"的参考图像:视角变换任务配的是从目标位置渲染出的新视角图像,路径追踪任务配的是从M1侧面拍摄的第一人称图像,多视角计数任务配的是从正上方俯视整个区域的鸟瞰图。这些参考图像在训练阶段作为监督信号,告诉模型"你的想象应该长什么样"。
数据来源方面,研究团队充分利用了AI2-THOR、Habitat等室内场景模拟器来生成带有精确三维信息的训练数据,同时引入了MessyTable(真实杂乱桌面的多摄像头数据集)、ScanNet++(真实室内场景的三维重建数据集)以及来自Matterport3D的真实世界俯视图,让模型的训练不局限于模拟环境,也能接触到真实世界的视觉多样性。
**三、"先画草图再作答"——IPT的技术原理**
IPT的核心思路,可以用一个画画的类比来理解。假设有人问你"从阳台上往下看,花坛里有几朵花?"你不在阳台上,但你知道楼下花坛的位置,你可以在纸上粗略画一张"从阳台视角看下去大概是什么样"的草图,然后根据这张草图来数花的数量。IPT做的,就是这件事的AI版本——在回答空间问题之前,先在脑海中"画"出一张从目标视角或目标状态看到的画面,然后再基于这张画面给答案。
具体来说,研究团队选择了一个叫做BAGEL的统一多模态模型作为基础框架。BAGEL有一个特别的设计:它能在同一个系统内既理解图像又生成图像,文字和图像的处理共享同一套注意力机制,信息可以充分流通。在BAGEL里,图像有两种表示方式——一种叫"理解词元"(Understanding Tokens),来自一个专门做语义理解的视觉编码器;另一种叫"生成词元"(Generation Tokens),来自一个专门做高质量图像合成的VAE编码器。两套词元在同一个上下文窗口里共存,让模型能同时调用"读图"和"画图"的能力。
训练时,模型接受两项同时进行的任务,对应两个损失函数。第一个是"流匹配损失"(Flow-Matching Loss):模型需要学会从随机噪声出发,一步步生成接近目标想象图像的视觉词元。这个过程用的是"整流流"(Rectified Flow)方法,可以理解为"从一团乱码开始,逐步雕刻出一张合理的想象画面"。第二个是"语言建模损失"(Language Modeling Loss):基于输入信息和参考想象图像,模型需要给出正确的多选答案,通过最大化正确答案的概率来训练文字输出部分。两个损失函数的权重均设为1,联合优化。
推理时,模型有两种工作模式。一种是"想象模式":模型先通过迭代去噪生成一张想象图像,把这张图像重新编码为理解词元和生成词元,追加到上下文中,然后再看着"自己的想象"给出最终答案。另一种是"纯文字模式":模型直接给出答案,不生成任何中间图像。有趣的是,实验结果表明,即使在推理时不生成想象图像,仅仅是**训练时**接受过想象监督的模型,其空间推理能力也比没有接受过这种训练的模型更强——这说明想象训练在模型内部留下了更好的空间表征,即使不显式"画出来",这种能力依然会体现在答题上。
**四、对手是谁——实验设置与对比基线**
为了衡量IPT到底有多大作用,研究团队设计了全面的对照实验,参与对比的既有当前最顶尖的商业闭源模型,也有各种规模的开源模型,以及同一个BAGEL基础模型在不同训练方式下的表现。
商业闭源模型阵营包括GPT-5、GPT-5.2、Gemini 2.5 Flash、Gemini 3 Flash,这些是目前市面上能力最强的视觉语言模型。开源VQA模型则包括InternVL3.5-8B、Qwen2.5-VL-7B、Qwen3-VL-8B,参数量均在70亿左右。另外还有两个支持图像生成的"统一模型":Janus-Pro-7B和Chameleon 7B,用于和同样具备图像生成能力的BAGEL做横向比较。所有基线模型都以零样本方式评测,也就是不做任何任务特定的额外训练。
研究团队自己训练的BAGEL模型变体有五种。第一种是"BAGEL基础版",即完全不做任务特定微调的预训练模型,用来体现出发点。第二种是"仅标签训练版"(label-only),模型只接受正确答案作为监督,不给任何中间推理过程。第三种是"文字思维链训练版"(Text CoT),在给出答案前,模型先用语言描述想象中的空间情况,这些文字推理链由GPT-5.1根据场景元数据生成。第四种是"IPT训练版",也就是让模型先生成想象图像再给答案。第五种是"混合训练版"(Mixed Training),50%的样本用IPT格式训练,另50%的样本只训练答案输出,两者混合使用同一个模型检查点,让模型学会根据提示词风格切换模式。
**五、数字背后的故事——实验结果解读**
实验结果用一张表格来呈现,数字乍一看可能有些密集,但背后的故事其实相当清晰。
先说整体格局。在视角变换任务(PET)上,GPT-5的零样本表现是79.8%,已经相当强悍,但"仅标签训练版BAGEL"直接飙到了97.5%,"混合训练版"更是达到97.8%。这说明,针对具体任务做微调,哪怕只用答案监督,效果也能大幅超过强大的通用模型。Chameleon 7B在这个任务上只有34.3%,比随机猜测好不了多少,说明单纯拥有图像生成能力并不等于拥有空间推理能力。
在路径追踪任务(PT)上,GPT-5的零样本表现是60.2%,而"混合训练版BAGEL"达到了66.7%,在不同环境泛化测试中达到58.6%,与GPT-5(80.9%)的差距在大幅缩小,并超过了GPT-5.2(63.0%)。值得一提的是,"IPT训练版"在纯文字推理(不生成图像)的模式下,路径追踪准确率达到61.1%,与GPT-5的60.2%几乎持平——考虑到BAGEL是70亿参数的小模型,而GPT-5是规模大得多的闭源模型,这个结果相当亮眼。
在多视角计数任务(MVC)上,"IPT训练版"以67.3%的准确率拔得头筹,超过"仅标签训练版"(63.9%)和"文字思维链版"(62.3%)。Gemini 3 Flash在这个任务上表现最好(56.9%),但依然不及微调后的BAGEL系列。
有一个结论尤其值得关注:文字思维链(Text CoT)的表现**系统性地差于仅标签训练**。在视角变换任务上,Text CoT只有83.1%,而仅标签训练高达97.5%;在路径追踪任务上,Text CoT是49.7%,仅标签训练是65.7%。研究团队的解释是,空间关系本质上是视觉的,强迫模型用语言来描述旋转、遮挡、跨视角对应等关系,不仅低效,还会引入噪声,挤占模型回答问题的"容量",反而拖累了性能。这一发现是整篇论文中最反直觉也最有价值的结论之一——"多说不如少说",至少在空间推理这件事上如此。
研究团队还专门测试了模型在完全没有见过的外部基准上的泛化能力。在针对视角变换能力的SAT基准测试上,"混合训练版"达到63.6%,比未微调的基础模型(34.9%)提升了将近30个百分点。在多视角计数的MessyTable基准上,"混合训练版"达到37.0%,同样显著优于基础模型(29.0%)。研究团队还把在多视角计数任务上训练的模型拿去测试ScanNet、MindCube(几何抽象推理)和All-Angles-Bench(跨视角匹配)三个结构完全不同的基准,结果发现模型在三个基准上均有提升,从约40%分别提升到52%、47.5%和50%。这说明,在模拟环境中积累的空间推理能力,能以某种方式迁移到真实世界和不同类型的空间任务中。
**六、细节决定成败——消融实验的洞察**
为了更精确地理解哪些因素真正重要,研究团队做了一系列"控制变量"实验,系统地改变某一个设置,观察结果的变化。
第一组实验检验想象图像的分辨率。研究团队测试了四种分辨率:Latent-4对应64×64像素,Latent-16对应256×256,Latent-32对应512×512,Latent-64对应1024×1024。结果非常直观:分辨率越高,想象图像越清晰,模型的最终答题准确率也越高。在视角变换任务的AI2-THOR测试集上,从Latent-4到Latent-64,准确率从87.4%稳步提升到96.8%;在多视角计数任务上,从53.5%提升到63.1%。不过,在跨环境泛化测试(Habitat测试集)上,Latent-32的87.0%略好于Latent-64的83.3%,提示过高分辨率可能导致模型过度拟合训练环境的视觉风格。
第二组实验比较了训练方式和推理方式的不同组合。一个非常有趣的发现是,对于IPT训练的模型,"推理时不生成图像"(answer-only)的表现往往**优于**"推理时真正生成图像"(w/ image)。在路径追踪任务上,纯答案模式达到61.1%,而真正生成图像的模式只有50.4%。这个反常结果背后的逻辑是:模型生成的想象图像质量还不够高,画面里有各种错误和模糊之处,当模型"看着自己画的草图"来答题时,低质量的草图反而提供了误导性信息。但训练时接受过"该画成什么样"的监督,让模型在内部形成了更准确的空间表征,这种能力以某种方式内化了,无需显式输出也能发挥作用。
同一组实验还测试了"如果给模型看真实的参考图像而不是自己生成的图像会怎样"(w/ GT image)。在路径追踪任务上,真实参考图像把准确率从50.4%拉升到86.7%,提升了整整36.3个百分点。这说明,当前模型在路径追踪想象质量上还有巨大的提升空间——如果能生成更接近真实的侧视图,答题准确率理论上可以接近90%。相比之下,视角变换任务中真实参考图像(96.7%)和模型生成图像(96.8%)几乎没有差距,说明模型在这个任务上的想象质量已经相当过关。
**七、从传统VLM到统一模型——一段"试错"历程**
这项研究的最终方案并非一蹴而就,背后有一段值得讲述的技术探索历程。在最终选定BAGEL这个统一多模态模型之前,研究团队曾尝试在传统的视觉语言模型(如Qwen2.5-VL)的词汇表里直接加入"想象图像词元",让模型以离散词元序列的方式来表示和生成想象画面。
这条路走得相当曲折。研究团队先是从零开始训练了一个VQ-VAE(一种把图像压缩成离散编码的神经网络),结果重建质量不尽如人意,压缩后的图像面目全非,根本不足以作为训练监督信号。团队随后转向使用预训练好的VQGAN(一种更强大的图像离散编码器),尝试了不同的编码本大小(1K、8K、16K个编码条目)和不同的空间压缩比(f=8和f=16)。编码本越大、压缩比越小,图像质量越高,但代价是模型词汇表膨胀、输入序列变长,训练难度随之上升。
即便如此,在Qwen2.5-VL 3B和7B上的实验显示,离散IPT仍然比纯文字推理(Text CoT)更有效。在路径追踪任务上,最优配置(1K编码本,f=16)的7B模型达到了55.9%,超过了文字思维链的35.7%和纯答案训练的37.6%。但相比后来BAGEL方案动辄60%以上的表现,差距依然明显。解码出来的图像视觉上也明显模糊扭曲,无法保留原始场景的空间结构细节。
团队还测试了用灰度图和深度图替代彩色图像作为想象目标的方案,发现灰度图(59.6%)确实比彩色图(55.0%)效果更好,因为生成目标更简单,但质量瓶颈依然存在。这一系列试错经历最终坚定了团队转向BAGEL这一使用连续潜变量(而非离散词元)来表示图像的统一模型,从而实现了更高质量的空间想象能力。
**归根结底,空间想象力是可以教给AI的**
说到底,这项研究做的事可以用一句话概括:给AI装上了一套"先想象、再回答"的空间推理机制,并通过精心设计的数据集和训练方式,让这套机制真正发挥作用。
研究的结论对整个AI领域有几个重要启示。第一,空间推理任务有其独特的"模态需求"——强迫AI用文字来处理本质上是视觉的空间关系,效果适得其反,这提示研究者应该认真对待任务与推理模态之间的匹配问题。第二,即使生成的中间图像质量不完美,"训练时接受过图像生成监督"这件事本身就能改善模型的内部空间表征,让模型在不显式输出图像的情况下也能受益。第三,当前最大的技术瓶颈是中间想象图像的生成质量,路径追踪任务中真实参考图像与模型生成图像之间超过36个百分点的差距,清晰地标出了下一步努力的方向。
对于普通用户来说,这项研究描绘的未来令人期待——一个能真正理解"从那个位置看过来是什么样子"的AI助手,不仅能帮你导航、帮你规划室内布局,还能在你描述不清楚的时候主动在脑海中构建场景、自行补全关键信息。从机器人辅助到增强现实,需要理解三维空间的应用场景无处不在,而这项研究为其中的核心难题提供了一个新的解题思路。
如果你对技术细节感兴趣,这篇论文已经完整公开,可以通过arXiv编号2606.03988找到全文,训练数据和代码也将在论文项目页面上陆续发布。
---
Q&A
Q1:IPT(想象性感知词元)和普通AI看图回答问题有什么本质区别?
A:普通AI看图回答只能分析输入图像里已有的信息,比如"图里有一把椅子"。IPT的核心是让AI在回答之前先"脑补"出一张从另一个角度或不同配置下能看到什么的画面——比如"如果我站到那个位置再往左转,椅子会在我左边"——这张画面在输入里根本不存在,是模型主动推断和生成的。这种先想象再回答的机制,让模型能处理那些答案信息根本不在图里的空间问题。
Q2:文字思维链(Text CoT)为什么在空间推理里反而会拖累效果?
A:空间关系本质上是视觉的、几何的,强迫AI用语言来描述"旋转之后左右怎么变""遮挡后哪个物体消失"这类关系,会导致大量信息损耗,而且模型要同时生成这些描述文字,会占用它用来预测正确答案的"容量"。实验数据显示,在视角变换任务上,文字思维链的准确率(83.1%)比纯答案训练(97.5%)低了14个百分点,说明让AI用语言"绕远路"处理视觉空间问题,不如直接训练它用视觉方式来思考。
Q3:IPT训练后的模型在推理时不生成图像,为什么还比没有IPT训练的模型强?
A:这个现象说明,"训练时被要求画出合理的想象图像"这件事本身,会在模型内部形成更准确的空间表征。哪怕推理时不把这张图"画出来",这种内化的空间理解能力依然会体现在最终答案上。研究团队把这解释为"想象监督作为辅助训练信号,强化了模型的内部空间建模能力"——类似于练习素描的画家即使不拿画笔,观察力也会比不练习的人更强。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。