微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

北卡罗来纳大学教堂山分校等联合研究团队：让AI学会"感受"重力，视频生成中的人体动作终于有了物理法则的约束

视频生成强化学习物理驱动评估

北卡罗来纳大学教堂山分校等联合研究团队：让AI学会"感受"重力，视频生成中的人体动作终于有了物理法则的约束

作者：科技行者

2026-05-21 12:45

分享至：

这项研究提出PhyMotion，通过将AI生成视频中的人体重建为三维骨骼并在物理模拟器中评分，解决现有评估工具无法识别浮空身体、异常关节等物理错误的难题。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-21 12:45 • 科技行者

这项由北卡罗来纳大学教堂山分校、FieldAI、新加坡南洋理工大学、Allen人工智能研究所及约翰斯·霍普金斯大学联合开展的研究，以预印本形式于2026年5月14日发布，论文编号为arXiv:2605.14269。有兴趣深入了解的读者可通过该编号查阅完整论文。

一、视频里的人，为什么总感觉"不对劲"？

你一定有过这样的体验：看某段AI生成的视频，画面清晰、色彩漂亮，背景里的砖墙纹理都无可挑剔，但视频里的人……总有哪里怪怪的。脚好像悬在地面上方，手臂扭曲得像橡皮筋，一个迈步的动作看起来像是在月球上表演芭蕾。你说不出具体哪儿不对，但就是感觉假。

这种"假"并非偶然，而是当前AI视频生成技术中一道根深蒂固的难题。这项研究的核心，正是要弄清楚这种"假"从何而来，以及如何系统性地加以解决。

要理解这个问题，先想一想你平时走路的样子。每走一步，你的身体都在执行一套复杂的物理方程：脚踩地面时地面会施加一个反作用力撑住你的体重，膝盖弯曲的角度有解剖学上的上限，转身时你的重心必须落在支撑脚的正上方，否则就会摔跤。这一切你都不用思考，因为你的骨骼、肌肉和神经系统已经把这些物理规律刻进了肌肉记忆。

但AI在生成视频时，基本上是在"猜"——它猜这个姿势在照片里出现过多少次，猜这个动作在视频数据集里是什么样子，却没有真正"理解"重力是什么、肌肉能产生多大的力、膝盖能弯多少度。结果就是，生成的画面在像素层面可能很漂亮，但人体动作往往违背基本的物理常识。

那么，现有的评分系统能发现这些问题吗？遗憾的是，很难。当前主流的视频质量评估工具，比如VBench、VideoAlign、VideoPhy，本质上都是在分析画面的"外表"——像素分布是否合理、文字描述和画面是否匹配、视觉上看起来是否自然。这些工具对于一段脚悬空在地面上方的跑步视频，照样可能给出高分，因为从2D画面角度看，这段视频"看起来不错"。

这项研究提出的PhyMotion，换了一套完全不同的思路。它不再只盯着视频画面看，而是先把视频里的人"重建"成一个三维的骨骼模型，再把这个骨骼模型放进物理模拟器里跑一遍，然后用物理学的真实标准来打分：你这个动作符合人体运动学吗？你的脚和地面的交互合理吗？你的肌肉能产生完成这个动作所需的力矩吗？

这就相当于，以前的评分员是坐在观众席上看演员的外貌和表情，而PhyMotion是跑到后台，亲手检查演员的骨骼结构、测量每块肌肉的发力大小，再决定这场表演是否"物理上可信"。

二、现有工具的三个盲区：它们究竟看不见什么？

要理解PhyMotion为什么必要，需要先搞清楚现有评估工具在哪些地方彻底失明。研究团队通过大量实验，总结出三类现有2D评估方法系统性无法发现的动作错误。

第一类是"关节不连贯"。把每一帧画面单独拿出来看，AI生成的人物姿势可能都在情理之中——这一帧手臂举起来，下一帧手臂放下来，感觉合理。但当你把所有帧重建成三维模型、连成一段完整的三维运动轨迹时，问题就出现了：手臂在两帧之间旋转的速度远超人类肌肉能承受的极限，或者手腕的弯曲角度早就超过了人体关节的活动范围。更严重的是自我穿透——手穿过了胸腔，一条腿从另一条腿里面穿了出来。这些错误在平面画面里可能被衣物遮挡或透视关系掩盖，但三维重建之后一目了然。研究中举了一个打铁锤的例子：视频画面看起来像是一个正在大力挥锤的人，但重建出来的三维骨骼显示，他的手穿进了自己的臀部，这是物理上根本不可能发生的自我穿透错误。而VideoPhy对这段视频给出了高分。

第二类是"脚和地面的关系不对"。这是现实生活中最容易被人类观众感知的那种"假"。走路时脚应该踩实地面，站立时重心应该落在双脚的支撑区域内。但AI生成的视频里，脚经常悬浮在地面上方，或者踩着地面的脚依然在滑动，又或者身体一直保持直立却没有任何一只脚在支撑——就像被人用隐形绳子吊着一样。这些接触和平衡方面的问题，从2D画面角度看往往不太明显，但放进物理模拟器一测就全露馅了。研究中展示了一个踢腿的例子，画面看起来非常漂亮，但三维轨迹显示身体在腿抬起之后一直处于完全腾空的不合理状态，VideoAlign却给了这段视频1.21的高分（满分是2）。

第三类是"动力不合理"。这类问题最隐蔽——从外观上看，动作可能流畅自然，画面细节也无可挑剔，但这个动作背后需要的物理力量，是人类肌肉根本不可能产生的。以棒球投球为例：视频里看到的是一个很正常的投球动作，但如果把这段动作的三维轨迹输入物理模拟器，计算一下要完成这个动作需要多大的关节力矩，结果会让人咋舌——那需要的力量相当于用喷气发动机驱动人体，完全不可能。VBench对这段视频给出了高分。

这三类盲区的共同本质是：它们都存在于三维物理空间中，而不存在于二维像素空间中。这正是PhyMotion选择"先重建三维、再物理打分"这条路的根本原因。

三、PhyMotion的工作原理：一套三维物理体检流程

现在来看PhyMotion具体是怎么做的。可以把整个流程理解为一套完整的"人体动作体检"：先拍片、再建模、再上体检台、最后出报告。

第一步是"拍片"，也就是三维人体重建。研究团队使用了一个叫做GVHMR的工具，它能从视频的每一帧中识别出人体的姿势，并还原出一套SMPL-X格式的三维骨骼模型。SMPL-X是一种标准化的人体参数模型，可以理解为一套数字木偶，它有55个关节、10475个顶点和20908个三角形面片，能以相当高的精度模拟人体的三维形状和姿态。通过这一步，视频里二维的人物就被还原成了一个完整的三维骨骼轨迹——每一帧里，每个关节在三维空间中的位置和角度都被记录下来。

第二步是"上体检台"，也就是把三维骨骼导入MuJoCo物理模拟器。MuJoCo是一个被广泛用于机器人研究的物理引擎，它能精确模拟质量、惯性、关节限制和接触几何。通过一个叫做"逆向动力学"的过程，MuJoCo可以从骨骼的运动轨迹反推出：要完成这段运动，每个关节需要多大的力矩，地面需要对脚施加多大的反作用力。这就像是给木偶安装上真实的物理属性，然后测试它的每一个动作是否符合牛顿力学。

第三步是"出报告"，也就是从三个维度计算得分。

运动学得分衡量的是动作的平滑性和解剖学合理性。它综合考察三个指标：关节角速度是否超出人类关节的合理运动范围，身体各部位之间是否发生了自我穿透，以及关节弯曲角度是否落在MuJoCo人体模型定义的合法范围之内。这三项指标各自计算违规率，然后合并成一个得分：运动学得分等于1减去三项违规率的平均值。得分越高，说明动作越平滑、越符合人体解剖学。

接触与平衡得分衡量的是身体与地面交互的合理性。研究团队首先判断每一帧中左右脚是否处于接触状态——判断标准是脚底的高度小于2厘米且速度小于每帧5厘米。在此基础上，计算四项指标：已接触的脚是否在横向滑动（足部滑动），脚是否穿透了地面（地面穿透），身体腾空时是否遵循合理的弹道轨迹（足部漂浮），以及身体重心的水平投影是否落在接触脚形成的支撑多边形之内（平衡违规）。这四项指标的违规率平均之后，接触得分等于1减去这个平均值。

动态可行性得分衡量的是产生这段运动所需的力量是否合理。通过MuJoCo的逆向动力学，研究团队估算了三类数值：地面反作用力（要求垂直方向不超过体重的3倍，水平方向不超过体重的0.5倍），各关节所需力矩（脚踝上限200牛米，膝盖300牛米，髋关节400牛米，脊椎200牛米），以及整段运动的总机械功。这三项各自转化为一个0到1之间的分数，取平均即为动态得分。

最终，PhyMotion的总分是这三个维度得分的简单平均。得分越高，说明视频里的人体运动越符合物理规律。

四、PhyMotion真的更准吗？与人类判断的对比实验

一套评分标准再精妙，如果它给出的分数和真实人类的判断不一致，也毫无意义。研究团队为此设计了一套严格的人类比较实验。

他们从Motion-X数据集中抽取了一批文字描述作为输入提示，然后用六个主流视频生成模型分别生成视频，包括Wan-2.1 1.3B、Wan-2.2 5B、Wan-2.2 14B、Causal Forcing-1.3B、EchoMotion-5B和FastWan。两两配对之后，随机抽取了1200对视频供人类评估。每一对视频都来自同一条文字描述，确保评估的是动作质量而非内容差异。

六名标注员在不知道哪段视频来自哪个模型的情况下，对每一对视频从三个角度作出判断：哪段视频里的人体结构更正确（身体结构），哪段视频里的人站得更稳（平衡），哪段视频里的动作看起来更像真实人类的运动（运动自然度）。每个维度可以选择A更好、B更好或者平局。

结果显示，PhyMotion的三个子得分与人类判断的一致率分别为82.9%（运动学得分对应身体结构判断）、79.6%（动态得分对应运动自然度）和约80%（接触得分对应平衡判断）。总分的斯皮尔曼相关系数达到0.376。

相比之下，现有最好的评估工具VBench2的人体解剖维度达到的一致率约为68%，相关系数为0.262；VideoAlign的运动质量得分一致率在63%左右，相关系数仅为0.161；VideoPhy的物理常识得分一致率约为62%，相关系数只有0.138。还有一些指标，比如VBench的"动态程度"，与人类判断的相关系数为负值——它打出高分的视频，人类反而觉得动作质量更差。

这种"反向打分"的现象很好理解：VBench的动态程度指标衡量的是像素变化的幅度，动来动去越多分越高。但对于人体动作来说，夸张的像素运动未必代表高质量的动作，反而可能意味着抖动、飘移等人工痕迹。

这一轮对比实验还有另一个有意思的发现：PhyMotion的三个子分数与人类判断的对应关系是有规律的。运动学得分最擅长预测人类对"身体结构"的判断，接触得分最擅长预测"平衡"的判断，动态得分最擅长预测"运动自然度"的判断。这说明三个维度捕捉的不是同一件事，它们提供的是互补而非冗余的信息。

五、用PhyMotion来训练AI：强化学习让视频生成"学会"物理规律

评分准确只是PhyMotion的一半价值。研究团队更进一步，把PhyMotion的得分直接当作奖励信号，用强化学习的方式来训练视频生成模型。

这里需要简单解释一下强化学习的逻辑。把视频生成模型比作一个厨师，强化学习就是在厨师每做完一道菜之后，立刻告诉他这道菜哪里好哪里不好，厨师根据反馈调整手法，一遍遍练习直到做出更好的菜。传统的视频生成模型训练完就完了，没有这个反馈和调整的过程。强化学习后训练就是为这个已经训练好的模型再开一段"实习期"，在这段实习期内，每生成一段视频就用PhyMotion打分，得分高的生成方向会被鼓励，得分低的会被抑制。

具体的训练机制沿用了一种叫做DiffusionNFT的框架。在每次迭代中，模型生成一批视频，PhyMotion对每段视频从三个物理维度打分并计算总分，这个总分被归一化到0到1之间作为奖励。训练的目标是在提升奖励得分的同时，通过KL散度惩罚来防止模型偏离得太远——如果不加这个约束，模型可能会学会"钻空子"，专门优化那几个指标而完全忽视视频其他方面的质量。

研究团队将这套训练流程分别应用于两个不同架构的视频生成模型：FastWan（双向扩散模型）和Causal Forcing（自回归扩散模型），都是基于Wan 1.3B骨干的轻量级版本。训练使用了从Motion-X数据集整理出的21348条人体动作描述作为输入提示，在8块A100 80GB显卡上训练330步，每个模型的训练时间约为两天半。

训练之后，研究团队在多个维度对模型进行了评估。以Causal Forcing为基准，训练后的版本在VBench的运动平滑度、美学质量、人体动作和时间闪烁抑制方面均有提升，VideoAlign的视频质量得分提升了25.2%，VideoPhy的物理常识得分提升了5.7%，PhyMotion自身的综合得分提升了3.5%。FastWan的情况类似，PhyMotion综合得分提升了7%。

唯一持续下降的指标是VBench的"动态程度"。这其实是个好事：正如前文所说，动态程度衡量的是像素变化的激烈程度，训练后的模型生成了更加平稳、更符合物理规律的动作，自然在这个"越动越好"的指标上得分下降。这与另一些研究的发现一致：刻意追求大幅度的像素运动往往会引入抖动，反而降低动作的真实感。

六、人类说了算：更严格的主观评估实验

自动化指标终究只是代理，研究团队还组织了一次规模更大的人类偏好评估，直接问人类评估员更喜欢哪段视频。

这次评估随机抽取了1487对视频，涵盖了研究中比较的所有模型。评估员同样从身体结构、平衡和运动自然度三个角度作出判断。基于这些两两比较的结果，研究团队计算了每个模型的Elo得分（一种常用于象棋和电子竞技排名的积分系统，分数越高代表在两两对比中赢得越多）。

最终排名结果是这样的：用PhyMotion训练后的1.3B模型以1621分排名第一，超越了原版Wan2.2 14B的1604分，紧随其后的是Causal Forcing 1.3B（1553分）和FastWan 1.3B（1525分），排在后面的依次是Wan 1.3B（1427分）、EchoMotion 5B（1387分）和Wan2.2 5B（1383分）。

值得关注的是，PhyMotion训练的1.3B模型打败了参数量是它十倍以上的Wan2.2 14B模型。这说明"更大的模型"并不自然等于"更好的人体动作质量"，通过有针对性的物理反馈进行强化学习训练，可以在较小的模型上实现超越更大模型的效果。

研究团队还计算了每对模型之间的胜率矩阵，确认PhyMotion训练的模型在与每一个竞争对手的直接比较中都占据优势，排除了"只在某些特定匹配中表现好"的可能性。

七、每个维度都有贡献：拆开看训练效果

PhyMotion的得分由三个维度组成，那么每个维度是否真的各自发挥作用，还是说某一个维度"包打天下"，其他两个只是摆设？研究团队设计了一组消融实验来回答这个问题。

他们从同一个Causal Forcing基础模型出发，分别用三个单独的维度得分训练三个版本，每个版本训练120步，参数设置完全相同。结果显示，单独使用运动学得分训练的版本，在运动学维度的得分确实最高（0.963），但接触和动态得分只有0.730和0.951；单独使用接触得分训练的版本，接触维度最高（0.772），但运动学得分跌至0.911；单独使用动态得分训练的版本，动态维度最高（0.958），但其他两个维度的表现不均衡。三个维度一起训练的完整版本，在运动学、接触和动态维度上分别达到0.954、0.763、0.943，综合得分0.883，是四个版本中最高的。

这个实验结果表明，三个维度捕捉的是人体动作质量的不同侧面，单独优化其中一个往往会以牺牲其他维度为代价。只有三个维度协同训练，才能让模型在整体物理合理性上取得最好的表现。

八、训练物理动作不会"忘记"其他能力吗？

有一个合理的担忧：如果用专注于人体动作物理性的奖励来训练模型，模型会不会变成"单项冠军"，在生成其他类型视频时退步？

为了回答这个问题，研究团队在标准的VBench和VBench-2.0测试集上（这些测试集涵盖各种视频生成任务，而不仅仅是人体动作）评估了训练后的模型。结果显示，训练后版本的VBench综合分数从0.657微降到0.654，VBench-2.0得分反而从0.458略升到0.462。这个变化幅度可以说微乎其微。

从雷达图的细节维度来看，训练后的模型在主体一致性、运动平滑度、时间闪烁抑制、人体动作和人体解剖等与人体相关的维度上有明显提升，而在场景多样性、色彩等与人体无关的维度上基本保持稳定。

这说明PhyMotion的训练信号具有很好的针对性——它改善了它应该改善的东西，没有对其他能力造成明显干扰。

九、计算开销：物理模拟器的代价值得吗？

进入物理模拟器意味着额外的计算开销。研究团队详细测量了各种奖励计算方式的时间成本，并与其他奖励方案进行了对比。

单纯从处理速度看，PhyMotion处理一段视频需要2.80秒，比VideoAlign（0.25秒）和VideoPhy（0.20秒）慢了一个数量级，但比HPSv3（4.72秒）还要快。

然而，真正重要的不是单段视频的处理时间，而是这部分计算对整体训练速度的影响。在实际训练循环中，奖励计算和视频生成可以并行执行：当模型在生成下一批视频时，奖励计算同步处理上一批视频的结果。由于视频生成本身是最耗时的环节，奖励计算的大部分时间都被"隐藏"在视频生成的等待时间里。

实测下来，PhyMotion对整体训练时间只引入了7%的额外开销，而HPSv3由于处理流程更复杂、不容易与视频生成完全并行，引入了35%的额外开销。换句话说，PhyMotion这个"物理体检"的成本，在工程优化之后，其实相当克制。

十、定性效果：AI不再生成"橡皮人"

除了数字，研究团队还展示了一批定性比较案例，直观呈现PhyMotion训练前后的视觉差异。这些案例覆盖了武术踢腿、韩国传统舞蹈、足球射门、倒立、花样滑冰和侧躺抬腿等多种不同类型的人体动作。

在武术踢腿的案例中，基础模型生成的人物有"多余的腿"——腿的数量或位置与正常人体不符；Wan 1.3B版本的人物有"过度的臀部扭矩"，关节旋转幅度远超正常范围；EchoMotion 5B版本出现了"身体漂浮"。而PhyMotion训练版本生成的武术踢腿，腿的数量正确，动作流畅，地面支撑合理。

韩国传统舞蹈的案例中，Causal Forcing基础版本出现了"多余的手臂"，Wan 1.3B版本中"多出了一个人"（人数不稳定），EchoMotion版本中有人物"消失"。PhyMotion版本的舞蹈保持了稳定的人物数量和正确的四肢结构。

倒立动作是最具挑战性的情景之一，要求身体完全倒置、双手撑地支撑全身体重。基础模型在这类高难度动作上几乎全部失败，PhyMotion训练版本则表现出更稳定的支撑姿态和更合理的重心分布。

花样滑冰和侧躺抬腿等需要极度精确的重心控制和四肢协调的动作，基础模型同样频繁出现"多余的头"、"朝向相反的脚"、"断开的手臂"等严重的解剖学错误。PhyMotion版本虽然不完美，但这类错误的频率和严重程度明显降低。

说到底，这项研究解决的是一个在AI视频生成领域长期存在却少有人正面应对的核心矛盾：AI生成的视频画面可以很漂亮，但画面里的人就是"不像人"。

根本原因是，以往的视频评估和训练系统都活在"2D的世界"里，而人体运动的真实规则存在于"3D的物理世界"里。PhyMotion做的事情，就是架起一座从2D画面到3D物理现实的桥梁——先把视频里的人重建成有骨骼、有关节、有重量的三维模型，再用真实的物理定律来检验这个模型的运动是否合理。

这套思路的价值不仅在于能更准确地评估现有视频的质量，更在于它提供了一种可以直接用于强化学习训练的信号。通过这种信号训练出来的模型，学会了一些"物理直觉"——脚要踩实地面、重心要保持稳定、关节旋转要在合理范围内。这让一个参数量只有14亿的小模型，在人体动作质量上超越了参数量是其10倍的大模型。

当然，这项研究也有其局限性。目前的三维人体重建工具在极端姿势（比如完全倒置的体操动作）或多人场景下仍然不够可靠，重建误差可能影响物理评估的准确性。此外，物理模拟器的人体模型是简化的，真实人体的柔性组织、摩擦力的变化、衣物的动力学等都没有被纳入考量。这些都是未来可以继续深化的方向。

对于普通观众来说，PhyMotion距离"你能用它直接生成好视频"还有一段距离，但它代表了AI视频生成中一个非常重要的方向转变：从只关注"好不好看"，到开始关注"对不对"。这两件事并不矛盾，但要同时做好，需要更深层的物理理解。这项研究的出发点和这篇介绍希望传达的核心正在于此。有兴趣深入了解技术细节的读者，可通过arXiv编号2605.14269查阅完整论文。

Q&A

Q1：PhyMotion和VBench等传统视频评分工具有什么本质区别？

A：VBench等工具分析的是视频画面的像素外观，比如图像是否清晰、颜色是否好看、文字描述和画面是否匹配。PhyMotion则先把视频里的人重建成三维骨骼模型，再放进物理模拟器里测试，检验关节角度是否合理、脚是否真正踩实了地面、完成这个动作需要多大的肌肉力量。简单说，VBench看的是"好不好看"，PhyMotion看的是"物理上对不对"。

Q2：PhyMotion的三个评分维度分别衡量什么？

A：运动学得分检测关节旋转是否过快、身体各部位是否相互穿透、关节角度是否超出人体活动范围；接触与平衡得分检测脚是否在接触地面时发生滑动、是否穿透地面、身体漂浮以及重心是否落在支撑范围内；动态可行性得分检测完成这段运动所需的地面反作用力和关节力矩是否在人类肌肉能产生的合理范围内。

Q3：用PhyMotion训练视频生成模型会不会损害生成其他类型视频的能力？

A：实验结果显示不会。在标准VBench和VBench-2.0测试集上，用PhyMotion训练后的模型得分与训练前几乎相同，VBench综合分微降0.3%，VBench-2.0反而略有提升。这说明物理运动训练信号具有较好的针对性，改善了人体动作质量，没有对场景、色彩、构图等其他能力造成明显干扰。

视频生成强化学习物理驱动评估

分享至