这项由上海交通大学与上海人工智能实验室、上海创新院联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.15182,感兴趣的读者可以通过这个编号在arXiv平台查阅完整原文。
一、摄像机控制,为什么这么难?
拍电影的时候,摄影师有一项非常基本的工作:控制镜头的移动方向。推进、拉远、左摇、右移,这些动作合起来就叫"摄像机运动轨迹"。在真实拍摄中,这件事是人工操作的;但在AI视频生成领域,想让AI按照你给定的摄像机路径来生成视频,却一直是个棘手的难题。
为什么棘手?因为摄像机不只是换个视角那么简单。镜头移动的时候,画面里哪些区域会消失、哪些新区域会出现、前景中的人物应该怎么相对于背景移动——这些都要同时处理得自然合理。这不像拍一张静止的照片换个角度重拍,而是要在一段连续的动态视频中,保持场景的一致性,同时还要允许场景里的物体自己动起来。
现有的AI视频生成系统想解决这个问题,通常走两条路。一条路是"大量训练":专门搜集带有摄像机标注信息的视频数据,几万甚至几十万条,然后给模型加装一个"摄像机控制器"——相当于给AI额外安装了一个专门理解摄像机参数的零件。这条路效果不错,但代价极高,数据量的需求让很多团队望而却步。另一条路是"测试时优化":不额外训练,但在生成每一段视频的时候,实时地给AI施加约束,强行让它按照指定的摄像机路径走。这条路省掉了大规模训练的麻烦,但代价转移到了推理阶段,每次生成都要花额外的计算时间,有时候还会引入各种奇怪的画面问题。
上海交通大学与上海人工智能实验室的研究团队发现,其实这两条路都绕了弯子。他们提出的方法叫做"Warp-as-History"(把变形图像当作历史记录),核心想法出人意料地简单:不添加新零件,不做测试时优化,而是把摄像机运动信息伪装成AI原本就擅长理解的"过去看到的画面"。
二、历史记录的秘密:AI的记忆通道
要理解这个方法,先要了解现代视频生成AI的一个重要特性。很多先进的视频生成模型并不是凭空生成视频,而是在生成的过程中会回顾自己刚才生成了什么——也就是说,它们有一个"历史通道",可以把已经生成的过去几帧作为参考,用来保证接下来生成的画面在视觉上连贯一致。这个历史通道是模型在大量视频数据上训练出来的,它让AI能够"记住"场景的外观,从而保持角色的样子、场景的光线等等前后一致。
研究团队问了一个关键问题:如果我们把摄像机运动产生的"预测画面"塞进这个历史通道,AI会不会自动理解这是一个摄像机运动的信号,并据此生成符合该摄像机路径的视频?
这个想法有点像这样的生活场景:你在导航软件上给司机看一张"如果你按这条路开会看到什么"的预览图,司机不需要看懂技术参数,只需要看图就知道该怎么走。研究团队的思路正是如此——与其告诉AI"摄像机参数是这个角度、这个焦距",不如直接给它看"如果摄像机按照这个路径移动,画面应该长这样"。
这种"预测画面"是怎么生成的?研究团队用了一个现成的三维重建工具,先从输入图像中重建出场景的三维结构,然后按照目标摄像机轨迹,把这个三维场景投影成一系列二维图像,就像把一个立体模型从不同角度拍照。这样得到的一系列图像,就叫做"摄像机引导的变形图像序列"(warp video)。
三、三个关键设计:让AI真正看懂这些预测画面
然而,仅仅把这些预测画面塞进历史通道是不够的。研究团队发现,要让AI正确响应这个信号,还需要三个精心设计。
第一个设计是"目标帧位置对齐"。现代视频生成AI区分"过去的历史帧"和"当前要生成的帧",用的是一种叫做"时间旋转位置编码"(temporal RoPE)的技术——可以简单理解为每一帧都有一个时间戳,AI通过时间戳知道这一帧是已经发生的过去,还是正在生成的现在。如果把预测画面直接当作过去的历史放进去,AI会把它理解为"某个时间点的过去画面",而不是"和当前要生成的帧相对应的参考"。因此,研究团队做了一个关键调整:给每张预测画面贴上和它对应的"当前帧"相同的时间戳。这样,AI就能明白"这张预测画面,是在告诉我第5帧应该长什么样",而不是误以为这是某个更早的历史记录。实验表明,这个调整是整个方法成功的核心之一——没有这个时间戳对齐,AI的表现会大幅下降。
第二个设计是"可见区域筛选"。摄像机移动的时候,会出现一个自然现象:有些画面区域是原始图像里有的,可以通过几何变换预测出来;但也有些区域,比如摄像机转向后露出来的墙壁背面,在原始画面中根本看不到,预测图像里这些区域要么是空洞,要么是拉伸变形的错误纹理。如果把这些"无效区域"也喂给AI,AI可能会被错误信息带偏。研究团队的解决方案是:对这些无效区域的图像块(token)直接丢弃,不放进历史通道。这样做的效果是:有可靠预测信息的区域给AI提供参考,没有可靠信息的区域让AI用自己的生成能力去脑补填充。这个设计让AI的处理方式非常类似于"参考一部分信息、自由发挥另一部分",这恰恰是AI在训练过程中就学会的能力——在历史信息不完整的情况下进行合理预测。
第三个设计是让预测画面与正常的历史记录共存。也就是说,真实的过去帧(如果有的话)和摄像机引导的预测画面可以同时放在历史通道里,互不干扰。摄像机控制完全通过塞进去的预测画面来实现,不需要改动模型结构,也不需要额外的控制信号或优化目标。
四、一段训练视频就够了:从零样本到单样本微调
当研究团队把上述方法直接应用在完全没有训练过的冻结模型上,也就是所谓的"零样本"条件下,出现了一个令他们振奋的现象:AI确实展现出了一定程度的摄像机跟随行为。画面会按照给定的摄像机轨迹移动,场景内容也保持了大致的一致性。这个零样本效果不够稳定,但它证明了一件事:预训练的视频生成模型内部,其实已经隐含了一种对摄像机运动的弱感知能力,只是平时没有被激活。
这个发现很重要,因为它说明后续的微调并不是从头学习摄像机控制,而更像是把已经存在的能力"唤醒并稳定化"。
于是研究团队做了一个大胆的实验:只用一段带有摄像机标注的视频,对模型做轻量级微调。他们采用的是一种叫做LoRA(低秩适应)的技术,可以简单理解为:不修改模型的大多数参数,只在少数关键位置插入几个小的"调节旋钮",通过调整这几个旋钮来改变模型的行为。整个微调过程在一张A800 GPU上大约需要一个小时,只用了1000步训练迭代,仅训练了来自DAVIS数据集的"car-roundabout"(汽车绕圈)那一段视频的4个片段。
微调之后,这个参数更新被固定下来,应用到所有测试视频上——无论测试视频是什么内容,都用同一套微调后的参数,不做任何针对具体测试视频的额外调整。结果显示,微调后的模型在摄像机轨迹跟随的准确性、生成视频的视觉质量、画面中运动动态的自然程度方面都有了明显提升。
这个结果本身就很有说服力:一段不相关的训练视频(汽车绕圈)带来的参数更新,能够让模型在完全不同的场景(野外动物、城市街道、人物运动等)上更好地遵循摄像机轨迹。这说明这个微调的作用不是记住某个特定场景的样子,而是调整了模型对摄像机引导信号的响应方式。
五、跟业界顶尖方法比一比
研究团队在三个不同的数据集上评测了这个方法,分别是WorldScore(静态场景世界生成基准)、RealEstate10K(真实房地产场景视频)和DAVIS(带有前景运动的动态视频)。
在WorldScore上,摄像机控制分数从纯文本版Helios模型的26.42分跃升至61.32分(零样本条件下),经过单视频微调后达到62.00分,相对提升幅度超过130%。与此同时,主观质量分数也从零样本的47.37提升到54.83,提升了约16%。
在DAVIS和RealEstate10K上,研究团队与三个业界领先的方法进行了比较:Gen3C使用了约9万条训练视频,Voyager使用了约7.8万条视频生成的10万个片段,ViewCrafter使用了约8.5万条视频生成的63万个片段。而研究团队的方法只用了1段视频的4个片段。
尽管训练数据量相差几个数量级,在DAVIS数据集的视觉质量指标上,研究团队的方法取得了最低的FID(68.18对比Gen3C的72.71)和最低的FVD(57.95对比Gen3C的64.98),在主体一致性和背景一致性指标上也是最优表现。摄像机跟随精度方面,与这三个使用海量数据训练的方法相比处于相近的水平,旋转误差2.97,平移误差0.0942,Gen3C同项指标为2.24和0.0663,属于可比范围。
RealEstate10K是一个有趣的测试情境:这个数据集的视频风格和研究团队用来微调的DAVIS汽车绕圈视频完全不同,而Gen3C、Voyager和ViewCrafter都是在包含大量房地产类似风格视频的数据上训练的。即便如此,研究团队的方法在视觉质量的多项指标上仍然表现最优,包括DOVER质量评分(0.442对比Gen3C的0.298)、主体一致性(0.956)、背景一致性(0.958)和成像质量(65.97)。
与HyWorldPlay这个专注于长视频生成的方法相比,研究团队的系统在30秒长视频上的闪烁抑制(Flicker)和运动平滑度(Motion Smoothness)指标上略优,而HyWorldPlay在整体VBench分、成像质量、动态程度和场景一致性上更胜一筹。这是一个比较客观的互有胜负的结果。
六、每个设计选择的意义
研究团队还做了一系列消融实验,专门测试每个设计决策的价值,以弄清楚到底是哪些部分起到了关键作用。
去掉时间戳对齐(NoAlign)的情况下,零样本设置中DAVIS的旋转误差从3.41升至7.33,增加了115%,RealEstate10K的旋转误差从2.20升至4.26;在单视频微调之后,DAVIS的旋转误差也从2.97升至7.06。这说明时间戳对齐对摄像机控制的准确性起到了决定性作用。
去掉可见区域筛选(NoVisDrop)的情况下,零样本条件下摄像机跟随效果有所改善(因为更多的预测信息提供了更强的约束),但在单视频微调之后,完整方法(Full)在可见区域LPIPS指标上优于NoVisDrop(0.224对比0.231),在旋转误差和平移误差上也略好,说明丢弃不可靠区域有助于整体质量的平衡。
研究团队还测试了两种替代的信号注入方式。一种叫做ChFusion(通道融合),参考Gen3C的做法,将预测图像的隐编码与待生成帧的噪声隐编码在通道维度上拼接后一起送入去噪网络,而不是走历史通道。这种方式的摄像机跟随误差非常高(DAVIS旋转误差9.10),说明通过历史通道传递摄像机信号比直接融合到去噪输入更有效。另一种叫做SeqConcat(序列拼接),把预测图像的图像块追加到去噪序列后面作为普通条件输入。这种方式在视觉质量指标(DOVER 0.346、成像质量56.59)上明显逊于完整方法,说明让预测画面走预训练的历史处理路径是一个关键设计选择。
七、单样本数据的选择有规律可循
研究团队还专门分析了:如果只能用一段视频来微调,选哪段视频效果更好?
通过系统地对DAVIS数据集中12段不同内容的视频分别做微调并比较结果,他们发现了一个规律。效果好的训练视频有几个共同特点:摄像机有明显的平移或旋转运动(产生视差),遮挡和新露出区域的比例适中且稳定,前景物体自身的运动幅度较小,原始图像和预测图像的质量都较高。
在他们测试的12段视频中,"train"(火车)视频综合排名第一,"horsejump-high"(马术跳跃)排名第二,"car-roundabout"(汽车绕圈)排名第三。而"breakdance"(街舞)和"drift-chicane"(漂移过弯)排名靠后,原因是这两段视频的摄像机几乎没有旋转运动(旋转角度均值仅0.03度),因此提供的摄像机控制信号极弱,微调之后效果提升有限。
值得一提的是,研究团队最终在论文中主要使用的是"car-roundabout"而非排名第一的"train",这是因为"car-roundabout"是在回顾性分析之前就选定的,并非通过后验调参选出的最优结果。这个坦诚的说明反映了研究的实验严谨性。
八、增加训练数据不一定更好
研究团队还探索了如果使用多段视频进行微调会发生什么。结果出乎意料:从1段视频增加到3段视频时,DAVIS+RealEstate10K的平均旋转误差从2.25降至1.84,DOVER质量分从0.447升至0.461,说明多一点数据是有帮助的。但继续增加到5段、7段、10段、12段,指标呈现出非单调的波动,并不总是越多越好。例如,PSNR(像素重建精度)在3段视频时是15.89,但到5段视频时下降到15.04,7段时反弹到15.63,10段时再次下降。这说明在当前的训练配置和数据范围内,模型的改进已经趋于饱和,增加更多训练视频并没有带来稳定的性能增益。
九、速度代价:多花几秒,值不值?
任何方法都有计算代价。研究团队在单张NVIDIA A800 GPU上测量了生成一个33帧片段所需的时间。
原始的图像转视频生成器大约需要15.83秒完成一个33帧片段的生成。加入Warp-as-History之后,如果可见区域占预测图像的86%(即大多数预测信息都是有效的),端到端时间增加至23.63秒,增加了7.81秒,其中绝大部分(7.59秒)来自于Transformer处理更长的历史序列。如果可见区域只有47%(很多区域被遮挡或不可靠,被丢弃了),端到端时间增加4.62秒,达到20.40秒,因为序列长度减少了,Transformer计算量相应降低。相比之下,三维重建和预测图像的编码等预处理步骤只需要约1-2秒,不是瓶颈所在。这个分析也从另一个角度说明了"丢弃不可靠区域"这个设计的双重价值:既避免了给AI喂无效信息,又减少了不必要的计算。
说到底,这项研究提供的不是一个需要数十万条训练数据的"大炮",而是一把"钥匙"——它找到了预训练视频生成模型里一扇本来就存在但没被打开的门。通过把摄像机运动信息翻译成模型原本就能理解的"过去画面"语言,再加上时间对齐和无效区域过滤这两个精巧的设计,仅用一段视频、一小时GPU时间,就能激活并稳定一种此前隐藏在模型深处的摄像机控制能力。
这意味着,未来的视频创作者或许不再需要担心AI不听摄像机指挥的问题——即便手头只有极少的训练资源,也有可能让AI生成的视频精准跟随预设的镜头轨迹,无论是平稳推进、左右环绕,还是任何其他复杂的摄像机运动。而这一切,不需要修改AI的核心结构,也不需要在每次生成视频时额外等待漫长的优化过程。
当然,这个方法也有它诚实的局限。它依赖外部三维重建工具的质量,如果重建效果不好,摄像机控制效果也会打折扣。它的能力上限受制于底层视频生成模型本身的能力,轻量级微调能补丁式地改善,但无法从根本上突破模型的先天限制。此外,历史通道的计算开销在某些场景下也确实会让生成速度有所下降。
对于想深入了解技术细节的读者,可以通过arXiv编号2605.15182找到原论文,那里有完整的实验数据、消融分析和实现细节。
Q&A
Q1:Warp-as-History方法需要多少训练数据?
A:Warp-as-History只需要一段带有摄像机标注的视频就能完成微调,研究团队实际使用的是DAVIS数据集中"car-roundabout"视频的4个片段,在单张A800 GPU上训练约一小时。甚至不做任何训练(零样本条件下),模型就已经展现出一定的摄像机跟随能力。
Q2:Warp-as-History生成视频的速度和原来相比慢多少?
A:生成一个33帧的视频片段,原来大约需要15.83秒,使用Warp-as-History后根据可见区域比例不同,增加约4.6到7.8秒。主要的时间开销来自Transformer处理更长的历史序列,而摄像机渲染和预测图像编码等预处理只需约1-2秒。
Q3:Warp-as-History选择哪段视频作为训练样本最有效?
A:效果好的训练视频需要具备摄像机有明显的运动视差、遮挡区域比例适中稳定、前景物体自身运动幅度小、图像质量较高等特点。研究中系统测试了12段视频,"train"综合排名最高,"breakdance"等摄像机几乎不旋转的视频效果最差。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。