这项由中国科学技术大学与理想汽车联合开展的研究,发表于2026年的国际学习表征大会(ICLR 2026),论文编号为arXiv:2606.20083,有兴趣深入了解的读者可以通过该编号查询完整论文。
你有没有想过,只需要给电脑看一张照片,它就能自动生成一段视频——视频里的摄像机按照你指定的路线移动,街上的车辆沿着你规划的轨迹行驶,而且整个场景还能随你心意变成下雨、下雪、起雾或阴天?这件事听起来像科幻小说,但研究团队已经把它做到了,他们把这个系统叫做Holo-World。
要理解这项研究的意义,不妨先想象一个电影导演的工作。导演需要拍一场暴风雪中的城市街景,但实际拍摄时天气晴朗。过去,团队要么等待合适的天气、要么花大钱搭建布景、要么在后期制作中逐帧修改。现在,Holo-World提供了另一条路:给它一张晴天的城市照片,告诉它"让摄像机沿着这条街道向前推进,右侧有一辆卡车正在超车,整个场景变成大雪纷飞",它就能生成一段符合所有要求的视频。更重要的是,视频里的建筑、道路和场景布局与原始照片保持高度一致,不会因为加了雪就让建筑物位置跑偏。
这项研究真正的突破在于,它把三件过去完全分开研究的事情整合到了同一个系统里:控制摄像机怎么动、控制场景里的物体怎么动、控制天气是什么状态。过去的研究就像三个独立的工匠,分别只会做摄像机控制、物体控制或天气特效,而Holo-World是第一个把这三个工种融为一体的"全能工匠"。
一、为什么这么难?从一张图片出发面临的双重困境
要理解研究团队克服了什么障碍,先要搞清楚这件事到底难在哪里。
现有的天气视频生成方法,几乎都需要先有一段完整的视频作为输入,然后在这段视频的基础上把天气改掉——就像拿着一段已经拍好的晴天视频,再用软件把它变成雨天。这种方式有天然的优势:因为输入视频已经提供了完整的场景结构、物体运动轨迹和时间连续性,系统只需要改变天气外观就行了,不用自己"想象"未来的场景长什么样。
Holo-World的任务要难得多。它只有一张图片,需要自己生成未来的场景演变,同时还要控制摄像机路径和物体运动,再叠加天气变化。这就像让一个人只看了一张房间的照片,就要描述接下来五分钟里这个房间从不同角度看分别是什么样子,还要在描述过程中把室内改成冬天布置——这需要对空间结构有极深的理解,还要在想象中同时操控多个变量。
研究团队识别出两个核心难题。第一个是数据难题:目前根本没有一种数据集能同时提供摄像机位置信息、物体运动信息、天气状态标注这三种信息。摄像机控制研究有自己的数据,物体控制研究有自己的数据,天气编辑研究有自己的数据,但把三者统一在一起的数据集不存在。第二个是建模难题:在同一个模型里,"保持场景原样"和"改变天气外观"这两个目标会互相干扰——训练模型学会保持背景稳定的知识,会压制它学习改变天气外观的能力;反过来,让它大幅改变天气,又容易让它把场景的几何结构也一起破坏掉。
二、从零搭建:HoloStateData数据集的诞生
面对数据的空白,研究团队选择自己动手建立一个全新的数据集,取名HoloStateData。这个数据集的核心设计理念是把每一段视频都变成一个"状态记录"——不仅记录视频本身,还记录拍摄时摄像机在哪里、场景里有什么物体、天气是什么状态,以及如果要换一种天气,目标天气的视频是什么样子。
数据来源分为三个部分,各有侧重。第一部分叫做真实数据集,来源是一个名为SpatialVID-HQ的真实视频库,里面有各种各样的现实场景、多样的摄像机运动方式和真实的动态物体。这部分数据的作用是教会模型在没有天气变化的情况下如何保持场景稳定、跟随摄像机控制。第二部分是模拟数据集,来自虚幻引擎(一款专业游戏开发软件)渲染的合成视频——同一个场景在晴天和目标天气下分别渲染一次,这样就得到了结构完全一致、只有天气不同的配对视频,是训练天气转换能力最干净的数据。第三部分是视频到视频生成数据,把真实视频作为起点,再用视频编辑模型生成对应的目标天气版本,从而把天气监督信号扩展到真实的摄像机路径和动态物体场景上。
把这些原始视频变成训练样本需要一系列自动化的处理步骤。研究团队用Qwen3-VL(一款多模态大模型)自动给每段视频生成两种文字描述:一种是场景描述,专门描述场景里有什么、摄像机怎么动、物体如何运动,但刻意不描述天气;另一种是天气描述,只描述目标天气状态,不涉及场景内容。这种分开标注的设计非常关键——它让模型知道"场景是什么"和"天气是什么"是两个可以独立控制的维度。
物体控制信息的提取依靠Grounded-SAM2这一工具:先在第一帧图片里检测出物体,然后在整段视频中追踪物体的轮廓,最后把每一帧中每个物体的位置转换成一个紧紧包裹物体的矩形框,作为模型的物体控制输入。
摄像机控制和场景几何信息的提取则用到了一组专业工具。Depth Anything和UniDepth提供单目深度估计,MegaSaM从视频中恢复摄像机参数,MoGe提供密集的深度和法线信息。有了这些,研究团队就能沿着估计的摄像机轨迹,把第一帧的三维几何结构"渲染"成一系列带透视变换的背景图像,作为模型的摄像机控制输入。
整个数据集最终包含约1.5万个训练样本,其中真实数据约7571个,模拟数据约3541个,视频到视频生成数据约3954个。天气类型涵盖云(占20.2%)、雨(占25.46%)、雪(占34.22%)和雾(占20.12%)四大类。此外,研究团队还专门保留了150个样本作为独立的测试基准,其中真实、模拟、视频生成各50个,确保测试数据与训练数据完全隔离。
三、核心设计:让"保持场景"和"改变天气"各司其职
有了数据,接下来的挑战是设计出一个能同时完成两件矛盾事情的模型。研究团队的核心思路是"分工"——不让同一组参数同时学习保持场景和改变天气,而是给这两件事分配专属的"员工"。
Holo-World的基础是一个叫做Wan2.1-T2V-14B的大型视频生成模型,参数量高达140亿,是一个已经在海量视频数据上预训练好的强大基础。研究团队把这个基础模型完全冻结,不去改动它的任何参数,而是在它身上"插件式"地接入了一套新机制,叫做统一场景适配器(UniSA)。
统一场景适配器由两个部分组成,分别叫做世界适配器和状态适配器。世界适配器专门负责处理场景保持任务——它接收渲染出来的背景RGB图像、深度图、法线图和物体控制框作为输入,学习如何让生成的视频在摄像机运动时保持场景结构稳定、物体位置准确。状态适配器专门负责处理天气转换任务——它以渲染的背景RGB作为场景外观参考点,同时接收天气文字描述,学习如何在保持场景骨架的前提下改变天气外观。
这两个适配器共享同一个冻结的视频骨干网络,但它们各自有完全独立的训练参数,学到的东西存在不同的"记忆空间"里,互不干扰。在模型推理时,两个适配器各自产生一个"提示信号",叠加到骨干网络的中间层上,共同引导视频生成。世界适配器的提示信号始终激活,而状态适配器的提示信号有一个开关:当样本不需要天气变换时,开关关闭,模型只做场景保持;当样本需要天气变换时,开关打开,两个提示信号共同作用。
这种设计的精妙之处在于,真实视频训练样本(不需要天气变换的那部分)不会迫使状态适配器学习什么都不改变——因为状态适配器在这类样本训练时根本就不参与,它只在有天气变换目标的样本上才被激活。这样,状态适配器就不会学到"什么都别动"这个对它来说有害的习惯。
四、推理时的另一重保障:场景-天气分解的引导机制
即便有了分工明确的两个适配器,还有另一个问题需要解决:在生成视频的过程中,如何确保天气效果足够强烈,同时又不破坏场景结构?
这个问题源于视频生成模型普遍使用的一种技术叫做无分类器引导(CFG)。简单来说,这种技术的工作方式是:先生成一个"什么条件都没有"的基础预测,再生成一个"所有条件都满足"的目标预测,然后把差异放大,让最终结果朝着目标方向走得更远。这就像调收音机时先找到信号最弱的基准点,再找到信号最强的目标点,然后把音量调到超过目标点,以确保声音足够清晰。
这种方法的问题是:天气信号和场景信号混在同一个"差异"里,你没办法只把天气那部分放大,而不同时放大场景那部分。如果把引导强度调大,天气效果变强了,但场景可能也被过度"重绘",出现颜色偏移或纹理失真。如果把引导强度调小,场景保持良好,但天气效果又太弱。
研究团队提出了场景-天气分解引导机制(SW-CFG)来解决这个矛盾。具体做法是在每一步生成过程中,同时运行三次模型预测:第一次不给任何文字条件,得到一个纯粹由视觉控制信号驱动的基础预测;第二次只给场景文字描述(不包含天气描述),得到加入场景语义后的预测;第三次给完整的场景加天气描述,得到最终目标预测。这三次预测定义了两个独立的方向:第二次与第一次的差值代表"场景语义方向",第三次与第二次的差值代表"天气语义方向"。最终的生成结果是把这两个方向分别用不同的强度系数放大后相加,场景方向用较小的系数(避免过度重绘场景),天气方向用较大的系数(确保天气效果清晰可见)。
对于不需要天气变换的真实视频样本,天气方向的系数自动归零,系统退化为只有场景引导。对于需要天气变换的样本,两个方向同时发挥作用。这种设计让天气效果的增强和场景结构的保持可以独立调节,互不干扰。
五、用什么输入,产出什么效果
整个系统的输入设计也值得仔细说明,因为这直接决定了用户如何使用这个模型。
最核心的输入是一张图片——这是整个场景的起点,系统从这张图片出发估计场景的三维几何结构。然后,用户需要提供一条摄像机轨迹,告诉模型摄像机接下来要怎么移动(向前推进、向左平移、向上仰拍等等)。根据这张图片的几何和摄像机轨迹,系统自动渲染出一系列背景图像,这些渲染图像反映了如果真的沿这条路径拍摄,场景应该是什么样子——但它们看起来还很粗糙,因为几何估计并不完美,很多细节会缺失或变形。
除了摄像机控制,用户还可以指定场景中物体的运动——只需要在第一帧图片上标记物体的位置,系统会给每个物体生成一个轨迹框序列作为控制信号,告诉模型这个物体在视频的每一帧应该出现在哪里。
最后,如果需要天气变换,用户提供一句简短的天气描述,比如"把视频改成轻雨状态,保持场景结构不变"。如果不需要天气变换,这个输入留空,系统就只做场景保持。
系统的输出是一段81帧的视频(约相当于几秒钟的内容,分辨率为480×832),视频中的场景结构与输入图片高度一致,摄像机按照指定轨迹运动,物体按照指定轨迹移动,天气按照指定描述呈现。
六、实验数据说明了什么
研究团队在HoloStateData的150个测试样本上进行了系统评测,把Holo-World与多个同类方法进行了比较。
在场景保持能力的评测上,测试了不需要天气变换的50个真实视频样本。评测工具是VBench-I2V——一套专门用于评估图片到视频生成质量的标准测试体系,覆盖视频整体质量、主体一致性、背景一致性、运动流畅度、动态程度、美学质量、画面清晰度、图片与视频主体一致性、图片与视频背景一致性等九个维度。Holo-World在综合评分上达到89.05分,高于对比方法中的Uni3C(88.25分)、GEN3C(87.24分)、VerseCrafter(88.41分)和NeoVerse(88.00分)。在图片与视频主体一致性和背景一致性两个最关键的指标上,Holo-World分别达到99.43和99.40分,处于最高水平。
摄像机控制精度方面,Holo-World的旋转误差为0.719度,平移误差为1.123单位,物体运动控制误差为7.731单位,均优于所有对比方法。其中VerseCrafter在旋转误差上也达到了0.834度的较好水平,但在平移误差和物体控制上不如Holo-World。
在天气生成能力的评测上,测试了模拟和视频生成两个子集合并的100个天气样本,对比对象是两个视频到视频天气编辑系统:Cosmos-Transfer2.5和Wan2.7-Edit。需要特别说明的是,这两个对比系统可以拿到完整的源视频作为输入,而Holo-World只能从一张图片出发——这意味着Holo-World工作条件更艰难,却取得了更好的结果。
天气对齐率方面,Holo-World达到86%,意思是在100个测试样本中有86个生成了明确可见的目标天气效果。相比之下,Wan2.7-Edit达到79%,而Cosmos-Transfer2.5只有30%。VLM综合评分方面,Holo-World达到68.51分(满分100分),Wan2.7-Edit为61.92分,Cosmos-Transfer2.5为47.64分。人工评测中,评估者在不知道视频来自哪个系统的情况下进行盲选,结果显示83%的情况下人们认为Holo-World的天气效果比Cosmos-Transfer2.5更好,62%的情况下认为比Wan2.7-Edit更好。
消融实验进一步揭示了每个设计组件的贡献。研究团队依次添加各个组件,观察指标变化。从完全没有任何控制的基准出发,背景PSNR(衡量背景保持质量的指标,越高越好)为13.20,天气对齐率为51%。加入G-buffer控制(即深度图和法线图)后,背景PSNR提升到15.34,天气对齐率提升到62%——这说明几何引导不仅帮助保持场景结构,还间接帮助了天气效果的生成,因为更准确的场景理解让天气粒子和大气效果有了更合理的"附着位置"。进一步加入UniSA双适配器结构后,背景PSNR继续提升到16.36,VLM评分提升,但天气对齐率略微下降到58%——这说明单靠架构分离,模型在天气效果表达上会偏向保守。最后加入场景-天气分解引导机制,背景PSNR跳升至18.12,同时天气对齐率大幅回升到86%,VLM评分也达到最高的68.51分。这说明架构分离和引导分解必须配合使用,缺一不可。
关于引导强度的实验也提供了有趣的细节。当天气引导系数设为2时,天气对齐率达到86%,VLM评分为68.51分,背景质量指标保持在最优水平。当系数进一步提升到4时,天气对齐率跳升到96%,VLM评分达到78.42分,而背景质量指标完全没有下降。这表明在合理范围内提高天气引导系数只会让天气效果更强,不会损害场景稳定性——这正是分解引导设计的价值所在。相比之下,传统的无分解引导在提高引导强度时会同时损害背景质量。
七、这项研究的边界和局限
研究团队在论文结尾对研究范围做了清晰的界定:Holo-World是一个可控视频生成系统,而不是一个物理仿真器。它生成的天气效果基于学习到的视觉统计规律,而不是真实的流体力学或大气物理模拟。这意味着生成的雨滴、雪花或雾气在视觉上看起来合理,但并不遵循精确的物理方程。
从测试规模来看,150个样本的评测集相对较小,研究团队也坦承这是一个有代表性的诊断集而非大规模随机测试集。此外,当前模型只支持四类天气(云、雨、雪、雾),对于日出、日落、极端天气等更复杂的状态还没有覆盖。
自动评估中使用Qwen3-VL同时负责数据标注和评测结果判断,存在潜在的词汇和校准偏差——研究团队通过引入人工评测和皮尔逊相关系数分析对这一问题进行了验证,结果显示天气对齐率与人工评分的相关系数为0.78,VLM综合评分与人工评分的相关系数为0.66,说明自动指标与人类判断有较强但不完美的一致性。
归根结底,Holo-World解决的问题可以用一句话来概括:过去,控制摄像机、控制物体、控制天气是三件完全独立的事,而现在,你可以在一个统一的框架下同时完成这三件事,而且只需要从一张图片出发。这对游戏开发、影视制作、自动驾驶仿真测试、虚拟现实内容创作等领域都有明显的实用价值——不需要等待特定天气、不需要外景拍摄,只要一张图片加上几行参数描述,就能生成你需要的任意状态下的场景视频。当然,从实验室成果到大规模工程应用还有一段距离,但这项研究提供了一个清晰的技术路径,也为后续的研究者划定了问题边界和解决方向。如果你对这项研究的技术细节感兴趣,可以通过arXiv:2606.20083找到完整论文,所有训练细节、评测指标定义和评估提示词均在附录中完整公开。
Q&A
Q1:Holo-World只需要一张图片就能生成视频,和普通的天气视频编辑软件有什么不同?
A:普通的天气视频编辑软件需要输入一段完整的视频,然后在现有画面上叠加天气效果,系统可以直接参考原视频的场景布局和时间变化。Holo-World只需要一张图片,系统要自己推断出场景的三维结构,然后按照用户指定的摄像机路径和物体轨迹来生成未来画面,同时还要把天气状态改成目标天气——这三件事要同时完成,难度远高于在现成视频上修改天气。
Q2:HoloStateData数据集是怎么保证天气视频的场景结构不出现偏差的?
A:HoloStateData的关键设计是"源端控制与目标天气严格分离"。所有用于引导模型生成的控制信号——包括渲染的背景图像、深度图、法线图和物体框——全部从源端视频(原始天气状态)构建,目标天气视频只作为训练的监督目标,绝对不参与控制信号的构建。这样模型在生成时看到的几何和摄像机信息始终来自同一个场景,不会因为目标天气视频的视觉差异而造成几何信息泄漏或偏移。
Q3:Holo-World的场景-天气分解引导机制为什么能同时提高天气效果又不损害背景质量?
A:传统引导方式把场景语义和天气语义混在同一个方向里放大,调高引导强度会同时放大两者,导致天气更强时背景也被过度改写。分解引导的做法是单独计算场景方向(只加场景文字时的预测与无文字预测的差值)和天气方向(加全部文字的预测与只加场景文字的预测的差值),然后用两个独立的系数分别控制这两个方向的强度。天气系数调高时,只有天气那部分信号被放大,场景那部分信号不受影响,所以背景质量指标在天气效果大幅增强时能保持稳定。
好文章,需要你的鼓励
这项研究系统比较了四种AI图像分词策略在640000张星系图像上的表现,发现重建质量与物理属性预测能力之间存在根本性解耦,为天文基础模型的分词器选择提供了实验依据。
阿里Qwen团队研究如何将大模型的规模化训练思路迁移到机器人操作领域,通过统一多机器人表示与38100小时数据预训练,让机器人在陌生场景和陌生机型上也能完成复杂操作任务。
MemoBench是哈佛大学等机构联合推出的视频生成评测基准,专测AI在物体消失再重现场景下的记忆能力,揭示了当前所有主流模型的核心盲区。
研究发现AI代码修复工具默认的"写代码→跑测试→再改"流程中,禁止运行测试几乎不影响修复成功率,却能节省超过一半的时间和费用。