
当我们在手机上观看视频时,屏幕显示的其实只是一个个2D平面画面。但我们的大脑却能从这些2D画面中感知到深度、距离和立体结构。那么,那些在海量视频数据上训练的AI模型,是否也能像人类一样从2D视频中"看出"3D世界呢?
这项由伊利诺伊大学厄巴纳-香槟分校的黄子轩、李祥等研究者,以及Impossible公司的吕朝阳、詹姆斯·雷格共同完成的研究,发表于2025年12月的arXiv预印本论文平台(论文编号:arXiv:2512.19949v1),首次系统性地探索了这个令人好奇的问题。研究团队设计了一个巧妙的"探针"系统,就像给AI模型做了一次"3D视力检查",结果发现了一个令人惊讶的现象:那些专门用来生成视频的AI模型,虽然从未接受过任何3D训练,却意外地掌握了强大的3D理解能力,甚至在某些情况下比专门的3D专家模型表现得更出色。
这个发现就像发现一个从未学过数学的人却能解复杂方程式一样令人震撼。研究团队测试了包括WAN、OpenSora2.0、CogVideoX等当前最先进的视频生成模型,发现它们都展现出了惊人的3D感知能力。这项研究不仅为我们理解AI如何工作提供了新视角,更为未来开发更强大的3D AI系统指明了新方向。
一、视频AI为何会"意外"掌握3D能力
要理解这个现象,我们不妨先考虑一下人类是如何学会感知3D世界的。当我们从小看着周围的世界时,虽然眼睛接收到的都是2D图像,但大脑会自动从这些图像中提取深度信息、物体位置和空间关系。类似地,视频AI模型在处理大量视频数据时,也会不知不觉地学会这些技能。
研究团队的发现源于一个简单而深刻的观察:视频本质上就是3D世界在2D平面上的连续投影。当摄像头在真实世界中移动时,它记录下的每一帧画面都包含了丰富的3D信息。比如,当我们拍摄一张桌子时,随着摄像头位置的变化,桌子的不同侧面会显现出来,桌面上物品的相对位置也会发生变化。这些变化实际上是3D结构在2D画面中的体现。
那些在数百万小时视频上训练的AI模型,实际上就像一个极其专注的学生,默默观察着这些变化规律。它们开始理解什么样的像素变化对应着物体的转动,什么样的尺寸变化意味着距离的远近,什么样的遮挡关系暗示着物体的前后位置。虽然没有人明确教授它们3D知识,但通过观察无数视频中的这些微妙变化,它们竟然自发地掌握了3D理解能力。
这种现象在AI研究中被称为"涌现能力"——就像一群鸟儿虽然没有中央指挥,却能形成美丽的飞行队形一样,AI模型在处理大量数据时也会自发产生一些意想不到的能力。研究团队正是想要量化测量这种涌现的3D能力到底有多强。
二、创新的"探针"方法:给AI做3D视力检查
为了测试视频AI模型的3D能力,研究团队设计了一套独特的评估方法,就像眼科医生给病人做视力检查一样。他们没有改动原有的AI模型,而是在模型之上加了一个小小的"探针"系统,专门用来"翻译"模型内部的信息。
这个探针系统的工作原理可以这样理解:假设你有一个会说外语的朋友,但你不确定他是否真的理解这门外语的含义。你可以给他一些外语文本,然后让他用中文解释其中的内容。如果他能准确翻译,说明他确实理解了那门外语。研究团队的探针就是这样一个"翻译器",它试图从AI模型的内部特征中"翻译"出3D信息。
具体来说,探针需要完成三项任务。第一项是预测3D点位置,就像告诉你画面中每个像素点在真实空间中的具体位置。第二项是估计深度信息,相当于判断画面中每个点离摄像头有多远。第三项是计算摄像头位置,也就是推测每一帧画面是从什么角度拍摄的。
研究团队选择了这三项任务,是因为它们构成了3D理解的核心要素。就像一个人要在黑暗中摸索房间布局时,需要知道每件家具的位置(3D点)、距离自己多远(深度)、以及自己站在哪里(摄像头位置)一样,这三种信息结合起来就能完整地重建3D场景。
有趣的是,研究团队刻意让这个探针保持"浅层"设计,只使用了四层简单的神经网络。这样做的目的是确保如果探针能成功完成任务,那么功劳主要归于底层的视频AI模型,而不是探针本身的复杂推理能力。就像用一个简单的钥匙打开了复杂的锁,说明锁本身已经处于准备被打开的状态。
三、惊人发现:视频AI超越3D专家的秘密
当研究结果出炉时,连研究团队自己都感到惊讶。在两个主要测试数据集CO3Dv2和DL3DV上,最先进的视频生成模型WAN2.1-14B的表现令人刮目相看。在CO3Dv2数据集上,它的表现仅次于专门为3D任务训练的Fast3R模型。更令人震惊的是,在DL3DV数据集上,WAN2.1-14B竟然全面超越了Fast3R。
这就好比一个从未接受过专业音乐训练的人,仅仅通过听大量音乐就掌握了作曲技巧,甚至超过了音乐学院的专业学生。WAN2.1-14B模型虽然从未见过任何3D标注数据,但它在观看海量视频的过程中,自然而然地学会了理解3D结构。
不同类型的模型表现出了有趣的差异。像DINOv2这样的图像模型,虽然在单帧深度估计方面表现不错,但在全局3D理解方面明显不足。这就像一个人能够准确判断照片中物体的远近,但无法理解多张照片之间的空间关系。相比之下,即使是相对简单的视频模型V-JEPA,也能在全局3D理解方面显著超越图像模型。
这个对比清楚地说明了时间维度信息的重要性。当AI模型能够观察物体在时间中的变化时,它就能推断出物体的3D结构和空间关系。这正如我们在现实生活中,通过观察移动的汽车来判断它的形状和大小一样。
研究团队还发现了一个有趣的规律:并不是所有的模型扩展都能带来3D能力的提升。WAN模型从1.3B参数扩展到14B参数时,3D理解能力显著增强。但CogVideoX模型从2B扩展到5B参数时,3D能力反而略有下降。这说明模型的3D能力不仅仅取决于参数数量,更与训练数据的质量和多样性有关。
四、3D微调的双刃剑效应
研究团队还测试了一个专门用3D数据进行微调的视频模型Aether。这个模型基于CogVideoX开发,专门加入了3D相关的训练目标。结果显示,3D微调确实能在某些场景下提升模型的3D理解能力,但也带来了意想不到的副作用。
在包含大型复杂场景的DL3DV数据集上,Aether确实比基础的CogVideoX表现更好,就像一个接受过专门训练的医生在处理复杂病例时更加得心应手。但在物体中心的CO3Dv2数据集上,Aether的表现反而略有下降。这种现象就像一个专门学习高等数学的学生,在解决基础算术问题时反而不如从未接受过专门训练的学生那样灵活。
这个发现揭示了一个重要问题:过度专化的训练可能会损害模型的通用性。当模型过分适应特定类型的3D场景时,它可能会失去对其他场景的敏感性。这就像一个只在山地驾驶的司机,到了城市道路上可能反而不如普通司机那样应对自如。
研究团队认为,这种现象与Aether的训练数据有关。由于Aether主要在合成的游戏和仿真场景上进行3D微调,它可能过度适应了这些人工场景的特征,反而对真实世界中的多样化场景产生了偏见。这提醒我们,在开发更强大的3D AI系统时,需要careful平衡专门化训练和通用能力保持之间的关系。
五、模型内部的3D信息分布规律
研究团队深入探索了在视频AI模型的哪个位置能找到最丰富的3D信息。他们发现了一个令人惊讶的一致性规律:几乎所有测试的视频扩散模型都遵循相同的模式——中层特征配合早期但非最初的时间步骤,能够提供最强的3D感知能力。
这个发现可以用烹饪过程来类比。在制作一道复杂菜肴时,既不是食材刚下锅的时候,也不是完全做熟的时候,而是在烹饪中期,各种味道开始融合但还没有完全定型的时候,往往是调味的最佳时机。类似地,在AI模型的处理过程中,也存在一个最适合提取3D信息的"黄金时刻"。
在网络层次方面,早期层次的特征往往过于原始,还没有形成足够的高级抽象来理解3D结构。就像刚学会认字的孩子虽然能识别单个字母,但还不能理解词汇的含义。而后期层次的特征则过于专注于最终的生成任务,可能已经丢失了一些3D相关的中间信息。只有中层特征在抽象程度和信息保留之间达到了最佳平衡。
在时间步骤方面,过早的时间步骤对应着噪声过少的情况,这时模型面临的去噪任务过于简单,没有激发出足够的3D推理能力。而过晚的时间步骤则对应着噪声过多的情况,信号被严重污染,模型难以提取有用的3D信息。早期但非最初的时间步骤正好处于信息量和可处理性的最佳平衡点。
六、视频AI特征在实际3D应用中的优势
基于前面的发现,研究团队进一步探索了一个实际应用问题:在3D数据有限的情况下,使用视频AI特征是否能构建更好的3D重建系统?他们将经典的VGGT 3D重建模型中的DINOv2图像特征替换为WAN2.1-14B的视频特征,创建了一个新的VidFM-VGGT系统。
结果令人振奋。在相同的计算资源和训练数据下,使用视频AI特征的新系统在所有评估指标上都显著超越了原始的VGGT系统。这种改进在两个测试数据集上都非常明显,特别是在更具挑战性的DL3DV数据集上,改进效果更加显著。
这个结果的意义远超表面的性能提升。它暗示着当高质量3D训练数据稀缺时,利用视频AI模型中蕴含的3D知识可能是一个非常有效的策略。这就像在缺乏专业教材的情况下,通过观察大师的工作过程来学习技艺一样。视频AI模型通过观察大量真实世界视频,积累了丰富的隐性3D知识,这些知识可以被巧妙地转移到专门的3D任务中。
研究团队还进行了数据规模实验,发现VidFM-VGGT系统只需要使用不到10%的3D训练数据,就能达到原始VGGT系统使用100%数据的性能水平。这种效率提升在资源受限的场景下具有巨大的实用价值。对于那些无法获得大量3D标注数据的研究机构或公司来说,这提供了一条可行的技术路径。
七、多视角一致性并非3D能力的完美指标
在深入分析中,研究团队还探索了一个重要的理论问题:多视角特征一致性是否能够作为3D理解能力的可靠指标?传统观点认为,如果一个模型能够在不同视角下为同一个3D点生成相似的特征,那么它就具备了良好的3D理解能力。
然而,实验结果揭示了一个更复杂的图景。研究团队发现,虽然在视频扩散模型内部存在正相关关系——3D探针性能更好的模型往往也有更好的多视角一致性,但当比较不同类型的模型时,这种关系就不再成立了。
最引人注目的是DINOv2模型的表现。它在多视角特征一致性方面表现优异,甚至超过了许多视频模型,但在直接的3D理解任务中却表现平平。这就像一个学生虽然能够在不同考试中保持稳定的成绩,但这些稳定的成绩本身可能并不高。
这种现象的原因可能与不同模型的特征提取机制有关。视频模型的特征中包含了丰富的时间和运动信息,这些信息虽然有助于3D理解,但可能会降低简单的特征匹配效果。相比之下,图像模型的特征更加"纯净",在相似性匹配任务中表现更好,但缺乏真正的3D理解深度。
扩散模型的情况则更为特殊。由于它们的特征提取涉及噪声注入和去噪过程,相同3D点在不同视角下的特征可能会因为随机噪声而产生差异,这导致了表面上的不一致性,但实际上这些特征仍然包含了丰富的3D信息。
八、研究的局限性与未来展望
研究团队诚实地承认了这项工作的一些局限性。由于只能使用公开发布的模型检查点,而不是在严格控制条件下训练的模型,他们无法完全隔离各种影响因素的作用。就像医学研究中无法完全控制病人的生活环境一样,这种限制使得某些因果关系的确立变得困难。
特别是关于训练数据规模的影响,研究团队无法进行理想的对比实验。他们无法获得仅在数据规模上有差异的模型版本,这使得很难准确评估数据量对3D能力涌现的具体影响。这就像想要研究阅读量对写作能力的影响,但无法找到除阅读量外其他条件完全相同的作家群体一样。
计算资源的限制也阻止了研究团队在大规模数据集上从头训练基于视频AI特征的3D重建模型。虽然他们在小规模数据集上验证了视频特征的优势,但这种优势是否能够扩展到更大规模的应用场景,仍然是一个开放性问题。
尽管存在这些局限性,这项研究为未来的工作指明了许多激动人心的方向。研究团队提出,未来可以探索如何更好地利用视频AI模型中的3D知识来构建更强大的3D系统。同时,理解3D能力涌现的机制也将有助于设计更有效的训练策略。
另一个有趣的研究方向是探索不同类型视频数据对3D能力形成的影响。比如,包含更多相机运动的视频是否比静态场景的视频更有助于3D理解能力的发展?不同拍摄风格和场景类型如何影响模型的3D感知能力?这些问题的答案可能会指导我们构建更有效的视频数据集和训练策略。
说到底,这项研究最重要的贡献在于它改变了我们对AI能力发展的认知。它表明,AI系统可能会在我们意想不到的地方发展出意想不到的能力。就像生物进化过程中经常出现的"偶然发现"一样,AI模型在处理大量数据时也会产生一些令人惊喜的副产品。
这个发现对于AI研究领域具有深远的影响。它提醒我们,与其总是从零开始构建专门的AI系统,不如更多地探索现有系统中可能隐藏的能力。这种"挖掘"式的研究方法可能会为我们打开通往更强大AI系统的新大门。
对于普通人来说,这项研究的意义在于它展示了AI技术发展的一种新可能性。我们不需要为每个特定任务都训练专门的AI模型,而是可以巧妙地利用通用AI系统中已经存在的潜在能力。这种方法不仅更加经济高效,也为资源有限的研究者和开发者提供了新的技术路径。
随着视频AI技术的不断发展和普及,我们有理由期待更多这样的意外发现。也许在不久的将来,我们会发现这些模型还掌握了其他我们尚未察觉的能力,为解决各种实际问题提供新的思路和方法。这项研究为我们打开了一扇新的窗户,让我们得以窥见AI智能涌现的神奇过程。
Q&A
Q1:视频AI模型是怎么自己学会3D理解能力的?
A:视频AI模型通过观察大量视频数据,自动学习了其中隐含的3D信息。因为视频本质上是3D世界在2D平面上的投影,当摄像头移动时,物体的不同侧面和空间关系会发生变化。AI模型在处理这些变化时,逐渐掌握了物体的深度、位置和空间结构,就像人类通过观察周围世界学会空间感知一样。
Q2:WAN2.1-14B为什么能超过专门的3D模型Fast3R?
A:WAN2.1-14B虽然没有接受过专门的3D训练,但它在海量真实世界视频上学习,积累了更丰富、更多样的3D经验。特别是在DL3DV这样包含复杂真实场景的数据集上,WAN的广泛视频经验比Fast3R的专门3D训练更有优势,就像一个游历四方的旅行者比只在教室学习的学生更了解真实世界。
Q3:普通人能否利用这个研究成果?
A:目前这项研究还主要停留在学术层面,但它为3D应用开发指明了新方向。未来基于这种技术的产品可能会让3D建模、虚拟现实、增强现实等应用变得更加智能和易用,比如仅通过手机拍摄的视频就能快速创建高质量的3D模型,大大降低3D内容创作的门槛。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。