这项由微软研究院的吴昊宇、何天宇、郭俊良等研究人员,联合清华大学的吴殿坤、段玥琪教授团队共同完成的研究,发表于2025年7月的计算机视觉顶级会议论文集。有兴趣深入了解技术细节的读者可以通过论文项目主页https://GeometryForcing.github.io访问完整研究成果。
当我们看一段视频时,大脑会自动理解其中的空间关系——物体的前后位置、摄像机的移动轨迹、场景的深度变化。但现在的AI视频生成模型却有一个致命弱点:它们只会"画画",却不理解空间。这就像让一个从未离开过平面世界的画家来描绘三维世界,结果往往是看起来还不错的单个画面,但一旦涉及视角变化或长时间生成,就会出现物体扭曲、场景不连贯的问题。
研究团队首先做了一个有趣的实验:他们让现有的视频生成模型尝试重建场景的深度信息,结果发现这些模型完全无法理解空间结构。这就好比让一个只会临摹照片的人去搭建真实的建筑模型,结果自然是一团糟。正是这个发现促使研究团队提出了"几何强制"(Geometry Forcing)这一创新方法。
**一、AI视频生成的"空间盲点"**
目前的AI视频生成技术面临一个根本性问题:它们把视频当作一系列静态图片的集合来处理,而忽略了视频本质上是三维世界在时间轴上的投影。这种处理方式就像是让一个从未见过立体世界的二维生物来理解我们的三维空间。
以一个具体场景为例:当我们要求AI生成一个摄像机绕着房间转一圈的视频时,理想情况下,当摄像机转完360度回到起始位置时,画面应该与最初的画面保持一致。但现实中,大多数AI模型生成的视频会出现严重的"漂移"现象——最后的画面与最初的画面完全不同,仿佛整个房间在这个过程中发生了神秘的变形。
这种现象在自回归视频生成中尤为明显。自回归生成就像是让AI一帧一帧地"接龙"画视频,前一帧的小错误会在后续帧中逐渐放大,最终导致整个视频的崩坏。研究团队发现,这些模型虽然能够生成视觉上令人印象深刻的短视频片段,但在处理需要空间一致性的任务时就会露出马脚。
研究人员通过定量分析发现,现有的视频扩散模型在处理256帧的长视频时,FVD(Frechet Video Distance,一种视频质量评估指标)得分高达364,这意味着生成的视频与真实视频存在显著差异。更糟糕的是,当他们尝试从这些模型的中间特征重建三维几何信息时,得到的结果完全无法识别,证明了这些模型确实没有学会理解空间结构。
**二、"几何强制"的巧妙设计**
面对这个挑战,研究团队提出了一个既巧妙又实用的解决方案:既然AI模型自己学不会空间理解,那就让一个专门的"空间老师"来教它。这个"空间老师"就是VGGT(Visual Geometry Grounded Transformer),一个专门训练来理解三维几何的基础模型。
几何强制的核心思想可以用一个教学比喻来解释:就像让一个几何学教授来指导一个艺术学生画三维物体。艺术学生(视频生成模型)原本只会画平面图形,但在几何教授(VGGT)的指导下,学会了如何在二维画布上表现三维空间的深度、角度和比例关系。
这个"教学"过程通过两个互补的对齐目标来实现:角度对齐和尺度对齐。角度对齐确保模型理解物体之间的相对方向关系,就像教学生理解"这个物体在那个物体的左前方"。尺度对齐则确保模型理解物体的大小和距离关系,就像教学生理解"这个物体比那个物体大一倍,距离相机更近"。
角度对齐采用余弦相似度来衡量视频模型的特征向量与几何模型特征向量之间的方向一致性。这就像是检查两个指南针是否指向同一个方向。研究团队发现,单纯的角度对齐还不够,因为它忽略了特征的"强度"信息,这些强度信息往往包含了重要的空间尺度信息。
因此,他们又引入了尺度对齐。这个设计很巧妙:首先将视频模型的特征向量归一化到单位长度,然后训练一个小的预测网络来预测几何模型的完整特征向量。这就像是先让学生学会画出正确的形状(方向),然后再学会画出正确的大小(尺度)。
**三、训练过程中的"师生互动"**
整个训练过程可以想象成一个特殊的艺术课堂。在这个课堂上,学生(视频生成模型)需要同时完成两个任务:一是按照传统方式学习如何生成视频(保持原有的视频生成能力),二是接受几何老师的指导学习空间理解(新增的几何对齐能力)。
训练过程中,每当视频模型处理一个视频片段时,几何老师(VGGT)也会同时处理相同的视频片段,提取出丰富的几何特征。然后,系统会比较两者的中间表示,计算角度对齐损失和尺度对齐损失,并将这些损失加入到原有的视频生成损失中。
这种多任务学习的方式确保了模型在学习几何理解的同时,不会忘记如何生成高质量的视频。研究团队通过精心调节损失函数的权重(角度对齐权重设为0.5,尺度对齐权重设为0.05),找到了视频质量和几何一致性之间的最佳平衡点。
特别值得注意的是,这种训练方式只需要现有的视频数据,不需要额外的三维标注。这大大降低了方法的实施门槛,使其能够在大规模视频数据集上进行训练。
**四、实验验证与惊人效果**
研究团队在两个具有代表性的数据集上测试了他们的方法:RealEstate10K(真实房地产场景)和Minecraft环境。这两个数据集分别代表了现实世界场景和虚拟游戏环境,涵盖了不同类型的视频生成任务。
在RealEstate10K数据集上,几何强制方法取得了显著的改进。在长视频生成任务中,FVD得分从364大幅降低到243,这意味着生成视频的质量有了质的提升。更重要的是,在专门衡量几何一致性的指标上,该方法也表现出色:重投影误差(RPE)保持在0.3337的较低水平,重访误差(RVE)降低到272。
这些数字背后的实际意义更加令人印象深刻。当AI模型生成一个摄像机绕房间转圈的视频时,使用几何强制方法的模型能够在转完360度后几乎完美地回到起始画面,而传统方法生成的视频则出现明显的场景变形和不一致。
在定性比较中,几何强制方法展现出了传统方法难以企及的空间一致性。例如,在生成一个室内场景的环绕视频时,传统方法往往会出现墙壁扭曲、家具消失或突然出现、光照不连贯等问题。而几何强制方法生成的视频中,房间的布局保持稳定,物体的相对位置关系清晰,光照变化自然合理。
**五、消融实验揭示的设计智慧**
为了验证设计的各个组成部分,研究团队进行了详尽的消融实验。这些实验就像是拆解一个精密机械,逐个检验每个零件的作用。
首先,他们比较了不同的"老师"模型。实验结果显示,使用专门训练的几何模型VGGT作为老师,比使用通用的语义模型DINOv2效果更好。这证实了"术业有专攻"的道理——要教空间理解,还是得找几何专家。
接着,他们验证了角度对齐和尺度对齐的必要性。实验发现,仅使用角度对齐的效果有限,而两者结合使用则能获得最佳效果。有趣的是,直接使用均方误差(MSE)损失来对齐特征反而会导致训练崩溃,这说明了他们提出的分解对齐策略的重要性。
研究团队还探索了在模型的不同层次进行对齐的效果。他们发现,在中间层(第3层)进行对齐效果最好,这符合深度学习中"中间层包含最丰富语义信息"的常识。
最后,他们比较了内在对齐(几何强制)与外在条件控制(ControlNet)的效果。结果表明,让模型从内部学会几何理解,比外部提供几何信息更加有效。这就像是让一个人真正理解数学概念,比单纯背诵公式更有用。
**六、对未来的启示和挑战**
这项研究的意义远不止于改进视频生成质量。它为AI系统学习和理解三维世界提供了一个新的范式:通过让专门的几何模型来指导通用的生成模型,可以让后者获得原本不具备的空间理解能力。
从技术发展的角度来看,几何强制方法开启了"多模态教师-学生学习"的新可能。未来,我们可能会看到更多类似的方法,让专门的物理模型教会生成模型理解物理定律,让专门的语言模型教会生成模型理解语义关系。
这项研究也为长期世界建模提供了新的思路。由于几何强制方法能够在推理过程中重建明确的几何信息,这为构建基于几何的记忆机制提供了可能。这种记忆机制可能会成为未来AI系统进行长期推理和规划的基础。
当然,这项研究也面临一些挑战。最主要的限制是规模:研究团队承认,他们的方法在大规模训练下的表现还有待验证。此外,对几何模型的依赖也意味着方法的效果受到几何模型质量的限制。
另一个有趣的发现是,几何强制方法在缓解自回归视频生成中的曝光偏差问题上也显示出了潜力。曝光偏差是指训练时使用真实数据,而推理时使用模型生成的数据,这种分布差异会导致错误累积。几何强制通过提供稳定的空间约束,有效减少了这种误差的传播。
说到底,这项研究解决了一个看似技术性但实际上非常根本的问题:如何让AI真正理解我们生活的三维世界。虽然目前的方法还有改进空间,但它为AI视频生成技术向更加智能、更加可靠的方向发展铺平了道路。对于普通用户来说,这意味着未来的AI视频生成工具将能够创造出更加逼真、连贯的视频内容,无论是用于娱乐、教育还是专业应用。
有兴趣深入了解这项研究技术细节的读者,可以访问项目主页https://GeometryForcing.github.io,那里提供了完整的论文、代码和演示视频。
Q&A
Q1:什么是几何强制?它能解决什么问题? A:几何强制是一种让AI视频生成模型学会理解三维空间的训练方法。它通过让专门的几何模型来"教导"视频生成模型,解决了传统AI视频生成中物体扭曲、场景不连贯的问题,让生成的视频在空间上更加一致和真实。
Q2:这项技术会不会让AI视频生成变得更慢? A:不会显著影响生成速度。几何强制主要是在训练阶段发挥作用,训练完成后的模型在生成视频时速度基本不变,但质量大幅提升。而且由于空间一致性更好,反而可能减少需要重新生成的次数。
Q3:普通用户什么时候能体验到这项技术? A:目前这项技术还处于研究阶段,但研究团队已经开源了相关代码和演示。预计在1-2年内,这类技术会被整合到商业视频生成工具中,届时普通用户就能通过各种AI视频生成应用体验到更加稳定和真实的视频生成效果。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。