微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

东北大学联手伯克利、UIUC：视频生成终于能"听懂"你施加的力了

视频生成力控制视频自回归蒸馏

东北大学联手伯克利、UIUC：视频生成终于能"听懂"你施加的力了

作者：科技行者

2026-06-12 12:03

分享至：

STREAMFORCE是一个能让用户边看视频边实时施加"力"来控制物体运动的AI视频生成系统，支持风力和推力两种物理控制，最高可达16.6帧每秒的流式生成速度。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-12 12:03 • 科技行者

这项由美国东北大学、Impossible Research、加利福尼亚大学伯克利分校以及伊利诺伊大学厄巴纳-香槟分校联合完成的研究，于2026年6月5日以预印本形式发布在arXiv平台，编号为arXiv:2606.07508。研究提出了一个名为STREAMFORCE的视频生成系统，感兴趣的读者可以通过该编号查阅完整论文，项目演示网站为neu-vi.github.io/StreamForce。

**视频里的世界，为什么那么"死板"？**

你有没有想过，现在那些令人叹为观止的AI生成视频，其实都有一个共同的"软肋"：它们只能按照事先写好的剧本走，根本没办法在过程中被你"打断"然后重新安排。你拍了一张桌上放着咖啡杯的照片，告诉AI"给我生成一段风吹来、杯子移动的视频"，AI会给你一个说得过去的结果，但如果你突然想让风变强、吹向另一个方向，抱歉，只能重新排队生成一遍。

更根本的问题在于：现有的AI视频生成工具，控制方式要么太模糊（比如用文字描述），要么太费劲（比如要你手动画出物体的运动轨迹）。文字描述就像对着厨师说"做个好吃的"，不够精准；而手动画轨迹又像是你亲自示范每一步动作，费时费力，而且对于"风吹旗帜飘动"这种流体效果，根本没办法靠一条条轨迹线来描述。

STREAMFORCE的出发点就是解决这个矛盾：能不能用一种更自然的方式——"施加力"——来控制视频里的物理运动，而且还能一边看着视频生成，一边随时调整这个力？

**一、现有方法的三堵"墙"**

在理解STREAMFORCE做了什么之前，先看看它的前辈们碰到了哪些难题。把AI视频生成想象成一个"虚拟物理实验室"，你想用这个实验室来预测物体在受力后的运动。

此前有一项叫做Force-Prompting的工作，是第一个尝试把"力"作为控制信号来生成视频的研究，可以说是这个方向上的开路先锋。但它碰到了三堵墙。第一堵墙是"分裂症"：它把风力（作用于整个场景的全局力）和推力（作用于某个具体物体的局部力）当成完全不同的两个问题，训练了两个独立的模型。这就像一家餐厅的厨房里，做凉菜和做热菜的厨师谁也不认识谁，没办法共享食材和经验。第二堵墙是"记忆缺失"：它的训练数据里，每段视频的力从头到尾都是固定不变的。结果就是，当用户在视频生成到一半时想改变风向，模型根本没有学过怎么应对，只会一脸茫然地继续按照原来的力运动。第三堵墙是"先知困境"：Force-Prompting要在视频开始生成之前，把所有的力都提前确定好。整个视频全部在脑子里想完才开始动笔，这使得用户根本没有办法"看一步走一步"，边看结果边调整。

正因为有这三堵墙，STREAMFORCE的研究团队决定从地基开始重新设计。

**二、把两种"力"装进同一张地图**

STREAMFORCE最核心的创意之一，是设计了一种统一的"力的表达方式"，把全局力和局部力都塞进同一个框架里。

可以用地图来理解这件事。假设有一张和视频画面一样大的地图，地图上的每个点都可以记录这个位置受到的力。对于全局力（比如风），整张地图上每个点都会被标注"有风"，而且风向和风力是一样的。对于局部力（比如用手推某个物体），只有这个物体所在的那一小块区域会被标注"有推力"，其他地方显示"没有力在这里"。

更具体地说，这张"力地图"记录了四个信息：这个位置有没有被力作用、力的大小是多少、力指向哪个方向（用水平和垂直两个分量来表示）。这样，不管是风吹旗帜还是手推杯子，都可以用完全一样的格式来描述，模型也只需要一套逻辑来理解所有类型的力。

这个设计的妙处在于，同一个模型同时学习了"风吹"和"手推"两种情境，就有机会发现二者之间的共通规律——比如力越大、物体运动越快，轻的东西比重的东西更容易被推动等等。这些规律如果只靠单独训练的模型，是很难被充分发掘的。

**三、训练数据里加入了"变化中的力"**

有了统一的力的表达方式，接下来需要训练数据来教会模型：当力发生变化时，物体应该怎么运动。

研究团队在专业的三维动画软件Blender里渲染了大量的模拟视频。视频里的物体种类丰富、材质各异，有布料旗帜、球体等等，这些物体被施加各种力，包括风场和点接触力。在此基础上，研究团队做了一件Force-Prompting没有做过的事情：在同一段视频里，力会在某个时间点发生改变，方向变了，或者大小变了。旗帜本来被从左边吹来的风吹动，突然风向转成从右边吹来，布料的运动轨迹随之发生变化。通过这类数据，模型才能真正学会"看到力变了，就相应改变运动"的因果关系，而不是只会机械地重复固定的力对应固定的运动。

这批合成数据一共包含了约6万段视频，其中3万段来自Force-Prompting的公开生成脚本，另外3万段是研究团队自行扩展的包含力变化场景的数据。

**四、一位"见多识广的老师"如何把知识传给"快速行动的学生"**

理解STREAMFORCE的技术路线，有一个核心的比喻非常有用：把整个系统的训练过程看作"名师带徒弟"。

老师是一个"双向扩散模型"——所谓双向，是指它在生成视频时可以同时"看到"过去和未来的帧，就像改卷子时可以反复翻阅整份答卷，能做出质量很高的答案，但速度非常慢，而且必须把所有题目都做完才能交卷，没办法一边做一边给你看答案。这个老师已经通过前面描述的合成数据，学会了"力到底会产生什么样的运动"。

学生是一个"因果自回归模型"——所谓因果，是指它生成视频时只能看到已经生成的帧，不能"偷看未来"，就像现场直播的解说员，只能根据当下看到的画面即时发表评论。它的优势是速度快、可以实时产出，但如果单独从头训练，很难掌握老师那种细腻的物理感。

研究团队的方案是：让老师先把大量的"解题过程"记录下来（这个过程叫做ODE轨迹生成，本质上是用数学上的常微分方程求解器模拟老师的推理步骤），然后让学生对照这些记录进行模仿学习。学生用这些记录来初步建立自己的"物理直觉"，这一步叫做ODE初始化。

但仅仅靠合成数据还不够。合成的Blender视频场景很单调，物体种类有限，视觉风格和真实照片差别较大。如果学生只靠这些数据学习，它就会"过拟合"——只能处理看起来像Blender渲染图的场景，对真实照片里的猫、杯子、树叶就束手无策了。

为此，研究团队从图库网站Pexels下载了大量真实世界的照片，涵盖各种场景和物体，并为每张照片手动标注了对应的力（全局力就随机采样风向风力，局部力则由人工标注员点击物体并拖动箭头来指定）。这约9万张图片与对应的力信息一起，形成了"多样化图片-力"数据集。老师根据这些图片和力，生成对应的模拟视频轨迹，学生再从这些更丰富的轨迹中学习，从而在保持物理控制能力的同时，也能处理各种真实世界的视觉场景。

经过ODE初始化阶段后，还有一个更精细的"自我强化蒸馏"步骤，专业名称叫Self-Forcing DMD蒸馏。这一步的核心思想是：让学生在生成视频的过程中，把自己刚刚生成的内容作为下一帧的条件继续生成，就像边说话边听自己说话，然后持续调整，让输出的分布尽可能接近老师的分布。这个过程会同时在合成数据和多样化真实图片数据上进行，确保学生既有物理控制能力，又有广泛的视觉泛化能力。

**五、实验结果：比较下来，优势在哪里**

研究团队设计了两套评估体系来检验STREAMFORCE。

第一套是"人眼评估"。研究团队从Pexels收集了40张测试图片，覆盖四种场景：保持不变的全局力、中途改变的全局力、保持不变的局部力、中途改变的局部力。每种场景各10个案例。共有26名参与者观看了不同方法生成的视频，从三个维度打分：力的遵循程度（视频里的运动是否真的按照指定的力在动）、物理合理性（运动看起来是否符合现实物理规律）、视觉质量（画面是否清晰、稳定、好看）。

STREAMFORCE在几乎所有维度和场景下都拿到了最高分。尤为突出的是在"力发生变化"的场景下，差距更加明显。Force-Prompting在全局力变化场景下的力遵循得分只有32.7%，而STREAMFORCE达到了86.5%；在局部力变化场景下，Force-Prompting仅有6.2%，STREAMFORCE则有80.4%。这个差距几乎是量级上的区别，说明力变化响应能力的提升是真实有效的。与此同时，STREAMFORCE还在局部力场景下超越了Kling 1.5的Motion Brush（一个需要用户手动绘制物体遮罩和运动轨迹的商业产品），尽管STREAMFORCE完全不需要这么复杂的用户输入。

第二套是"物理一致性定量评估"，借鉴了一个叫Physics-IQ的评测框架。研究团队自己动手拍摄了40段真实世界的视频作为"标准答案"——用风扇模拟全局风力，用线拉动或直接戳碰物体模拟局部力，用iPhone以60帧每秒录制，每段5秒。然后让不同的方法从每段视频的第一帧出发，根据对应的力来生成视频，看谁生成的运动轨迹最接近真实录像。STREAMFORCE在时空IoU（衡量运动区域在时间和空间上的重合度）和运动误差（MSE，衡量运动轨迹的偏差）两个核心指标上均排名第一，综合得分也是最高的。

**六、消融实验：一项一项拆开看，哪个贡献最关键**

为了搞清楚每个设计选择的作用，研究团队做了一系列"拆零件"实验——每次去掉一个设计，看性能下降多少。

关于力的表达方式，把STREAMFORCE的统一力地图换回Force-Prompting那种分开表达的方式，全局力和局部力的物理一致性得分都有所下降，证明统一表达方式确实更有效。

关于统一训练对比分开训练，即使都用STREAMFORCE的统一力表达，如果为全局力和局部力分别训练两个模型，表现也不如用一个模型联合训练。这说明两种力之间确实存在可以共享学习的物理规律，合并训练让模型学到了更通用的物理直觉。

关于多样化图片数据的作用，在蒸馏阶段去掉Pexels真实照片数据，只用合成数据，物理一致性得分从约40-46分骤降至27-20分，下滑幅度非常大。这个结果也揭示了一个有趣的现象：双向老师模型在只有合成数据的情况下泛化能力还不错，但学生模型在蒸馏过程中对数据多样性更敏感，少了真实图片的"见识"就会明显"变笨"。

关于力变化训练数据的作用，去掉包含力变化的合成视频数据，在力发生改变的测试场景下，全局力的用户偏好率从71.7%暴跌到15.2%，局部力则从88.6%跌到了0%——字面意义上的零，没有一个用户认为模型正确响应了力的变化。这清楚地证明：模型必须在训练时就见过力变化的情况，才能在推理时正确应对，仅仅在推理时改变输入是完全不够的。

**七、模型展现出的"物理直觉"，有些出乎意料**

研究团队在实验过程中观察到了一些没有被明确训练过、却自然浮现的物理行为，这些现象尤其值得关注。

在一个测试案例里，同一个水平力分别施加在一个装了牛奶的玻璃杯和一个空玻璃杯上。STREAMFORCE生成的视频里，装了牛奶的杯子移动得明显更慢，符合"质量越大、加速度越小"的牛顿第二定律。模型没有被明确告知两个杯子的质量差异，只是从视觉外观推断出了这一点，然后做出了相应的物理响应。

在另一个案例里，同样的T形物体在同样的力下，放在看起来更粗糙的表面上比放在看起来更光滑的表面上移动的距离更短，体现了摩擦力的影响。模型同样没有被告知表面摩擦系数，而是从画面的视觉纹理中"猜"到了摩擦特性。

还有一个重力相关的案例：力把桌上的物体推到桌子边缘之后，物体开始向下坠落，轨迹符合重力加速度。这个"掉落"行为并没有被显式的力信号触发，而是模型从预训练视频模型中继承的时空先验里自然涌现的。

研究团队也对T形推块任务做了演示——这是机器人操控领域的一个经典测试场景，目标是把T形物体推到指定位置。STREAMFORCE通过同时在T形物体的两个不同部位施加两个局部力，产生了协调的平移和旋转运动，让物体成功移动到目标位置，展现了多力同时控制的能力。

**八、每秒16.6帧，还有哪些局限**

STREAMFORCE在单张H200显卡上运行，可以达到每秒16.6帧的速度，分辨率为832×480，从用户施加力到看到对应的视频片段，延迟仅约0.6秒。这个速度已经能支持基本流畅的实时交互体验。

当然，研究团队也坦诚地列出了若干限制。目前的力表达只覆盖图像平面内的二维力，没有办法直接表示"朝着摄像机方向推"或者"向画面深处拉"这样的三维力。支持的力的类型也比较有限，主要是机械接触力（推和拉）和均匀风场，磁力、浮力、静电力等非接触场力目前都不在范畴之内。局部力能作用的物体材质主要是刚性或关节式物体，对流体（水花、烟雾）、弹性体（布料、橡皮泥）和颗粒介质（沙子）的支持不足，施加局部力时这些材质可能只是整体平移，而没有真实的形变效果。此外，多物体之间的相互作用（碰撞、叠放、连锁反应）也没有被系统性地建模，模型更擅长处理单个物体对力的响应。

**说到底，这意味着什么**

归根结底，STREAMFORCE做的这件事，是在AI视频生成和交互式物理仿真之间架了一座桥。它让普通用户不再需要提前把所有事情想清楚，而是可以边看边调，像真正做物理实验一样——推一下看看动了多少，再加力、换方向，观察结果，循环往复。

这种方式对于游戏、影视特效预览、机器人操控场景预演、甚至科普教育都有潜在价值。当然，距离真正的精确物理仿真还有不小的距离——STREAMFORCE捕捉到的更多是"看起来合理的物理感"，而非严格量化正确的物理计算。但作为一个在交互性和视觉质量之间取得平衡的系统，它已经走出了有意义的一步。

如果你对这个方向感兴趣，可以通过arXiv编号2606.07508找到完整的技术论文，作者来自东北大学、伯克利、UIUC和Impossible Research的联合团队，发布于2026年6月。项目的演示视频也已公开，在论文里提供的网址可以找到。

Q&A

Q1：STREAMFORCE和之前的Force-Prompting相比，最大的改进是什么？

A：STREAMFORCE主要解决了Force-Prompting的三个核心问题。Force-Prompting需要为全局力和局部力分别训练两个模型，而STREAMFORCE用一套统一的力表达将两者合并到一个模型中。Force-Prompting的训练数据里力始终固定不变，导致它无法响应用户在生成过程中临时改变的力，而STREAMFORCE专门引入了含力变化的训练数据，力变化响应率从6%提升到80%以上。此外，Force-Prompting是离线生成，必须提前确定所有力，而STREAMFORCE是实时流式生成，用户可以随时调整。

Q2：STREAMFORCE生成的视频物理效果是真正的物理模拟吗？

A：不是严格意义上的物理模拟。STREAMFORCE更像是学会了"物理感"，而非精确计算物理定律。它能从视觉外观中推断物体的相对质量和表面摩擦，做出看起来合理的运动响应，但它并没有内置真实的物理引擎。实验中观察到的质量感知、摩擦感知和重力响应，都是从大量预训练视频数据中涌现出来的隐式规律，而非显式的物理计算，所以定性上合理，但定量上未必精确。

Q3：STREAMFORCE目前能处理哪些类型的力，有哪些不支持？

A：目前支持两类力：全局力（类似风场，作用于整个画面）和局部力（类似手推，作用于画面中的特定区域）。局部力的训练数据主要针对刚性物体，如玻璃杯、抽屉、T形块等。不支持的包括：深度方向的三维力、磁力和静电力等非接触力、对流体和弹性体材质的精确形变控制，以及多个物体之间的碰撞和连锁互动建模。

视频生成力控制视频自回归蒸馏

分享至