微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

加州大学戴维斯分校联合微软研究院：让视频生成模型真正"动脑子"，而不只是"画得像"

视频生成强化学习密集分解奖励

加州大学戴维斯分校联合微软研究院：让视频生成模型真正"动脑子"，而不只是"画得像"

作者：科技行者

2026-05-27 09:03

分享至：

这项研究提出VideoRLVR框架，通过可验证奖励的强化学习训练视频生成模型，使其在迷宫、连线游戏和推箱子三类逻辑推理任务上真正"做对"而非只是"看起来对"。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-27 09:03 • 科技行者

这项由加州大学戴维斯分校、微软研究院、南加州大学和加州大学圣克鲁兹分校联合完成的研究，以预印本形式发表于2026年5月14日，论文编号为arXiv:2605.15458。有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。

**当"画得漂亮"遇上"逻辑正确"的根本矛盾**

现在的AI视频生成技术已经相当惊人——它能生成流畅的人物运动、逼真的自然场景，甚至模拟出令人信服的物理效果。然而，这些模型有一个深层的缺陷：它们只是在"模仿好看"，而不是在真正"解决问题"。

打个比方，你让一个学生做一道迷宫题，他不是真的找到了出路，而是把迷宫画得更好看了——路径看起来很像正确答案，但其实根本没走通。这正是当前视频生成AI的核心困境：它们被训练成"生成视觉上合理的内容"，而不是"确保内容逻辑上正确"。

这个问题在需要精确推理的任务中尤为致命。如果你让AI生成一段"解迷宫"的视频，它生成的路径可能看起来非常像一条正确路径，颜色对、动作对、视觉效果对，但就是没有真正从起点连通到终点。这就是所谓的"感知合理性"和"逻辑正确性"之间的鸿沟。

这项研究的核心贡献，正是要填补这道鸿沟。研究团队提出了一套名为**VideoRLVR**的训练方案，通过一种叫做"可验证奖励的强化学习"的机制，让视频生成模型不仅能画出像样的画面，还能真正按规则"思考"并"解题"。

**一、从"教范文"到"考真题"：AI训练的三个阶段**

要理解这项研究的意义，先要了解现代AI是如何被训练出推理能力的。

以语言推理AI（比如能解数学题的ChatGPT类模型）为例，它们的成长经历了三个关键阶段。第一阶段是"海量阅读"——通过学习大量文字，掌握语言的基本规律。第二阶段是"看范文"——通过学习正确的推理过程样本，了解正确答案"长什么样"。第三阶段是"真题考核"——通过让模型反复尝试，并根据答案是否真的正确来给予奖励或惩罚，从而让模型真正学会解题，而不只是"背答案"。

第三阶段在技术上叫做"RLVR"，即"用可验证的结果做奖励信号的强化学习"。数学题能验证（答案对不对），代码能验证（程序跑不跑得通），棋局能验证（赢没赢）。这种客观可验证的反馈，让AI不再只是模仿人类的推理形式，而是真正优化自己"把题做对"的能力。

但在视频生成领域，这第三阶段一直是缺失的。视频模型只经历了前两个阶段：大规模预训练，然后看着"正确解题视频"学习。它们学会了"解迷宫视频长什么样"，却没有经历过"让我反复尝试，直到我真的解出这道迷宫"的训练过程。VideoRLVR就是要补上这块拼图。

**二、选什么题来考AI？迷宫、连线游戏和推箱子**

研究团队选择了三种经典的规则型逻辑游戏作为测试和训练场景，这三种游戏有一个共同的好处：答案对不对，程序一眼就能判断，不需要人来主观评价。

第一种是**迷宫**（Maze）。给AI看一个迷宫的初始图片，要求它生成一段视频，视频中展示从入口走到出口的完整路径。判断标准很清晰：路有没有连通起点和终点？有没有穿过墙壁？迷宫主要考验的是空间连通性。

第二种是**FlowFree**（连线游戏）。这是一种在格子上把相同颜色的点两两连线的游戏，要求所有颜色都连上，而且每个格子都要被某种颜色的路径经过（填满整个格子）。这比迷宫更复杂，因为多条路径必须互不重叠，而且要同时满足所有颜色的连通性，体现的是全局一致性约束。

第三种是**推箱子**（Sokoban）。经典推箱子游戏，玩家需要把箱子推到目标位置，但箱子只能推不能拉，一旦推到死角就无法继续。这是三个任务中最难的，因为它涉及物体交互、不可逆操作，以及更长序列的规划。

研究团队为每种游戏生成了一万个训练样本，共三万个，并为每个样本准备了正确的解题视频和相应的元数据（比如迷宫的墙壁位置、连线游戏的端点位置等），用于后续的自动验证和奖励计算。测试集则是三千个全新样本，与训练数据完全独立。

**三、VideoRLVR的"食谱"：三种关键配料**

VideoRLVR整个训练方案可以看作一份精心设计的烹饪食谱，包含三种缺一不可的核心配料。

**配料一：能做随机探索的基础引擎（SDE-GRPO）**

视频生成模型的工作原理是"去噪"：从一团随机噪声出发，一步一步把它变成清晰的视频。这个过程有点像在沙地上反复擦拭，逐渐露出下面的图案。通常，这个擦拭过程是完全确定性的——给定同样的起点噪声，每次都会得到完全一样的结果。

但强化学习需要"随机探索"——模型需要尝试各种不同的可能性，才能发现哪些路径会导致成功，哪些会失败。确定性的流程无法支持这种探索。

研究团队的解决方案是在去噪过程中引入受控的随机扰动，让每一步都成为一个带有概率分布的随机过程。这样，模型在每次生成视频时，都会稍微不同，形成一组多样化的候选视频。然后，对这一组视频按照规则验证结果打分，让得分高的路径被强化，得分低的路径被弱化。这种方法叫做GRPO（组相对策略优化），而引入随机扰动的版本叫做SDE-GRPO。

每次训练时，研究团队让模型对同一道题同时生成16个视频（称为"组大小为16"），这16个视频里有的解题成功，有的失败。通过对比这16个视频各自的得分，模型能够学到"什么样的生成路径更可能导致成功"。研究发现，组大小越大，这种对比就越稳定可靠，训练效果越好，但计算成本也线性增加。16是一个实用的平衡点。

**配料二：早期步骤聚焦策略，把训练时间压缩40%**

视频强化学习面临一个实际问题：视频的分辨率高、帧数多，每次生成一个视频就已经很耗时了，还要生成16个、计算梯度、反向传播……计算成本极其巨大。

为了解决这个问题，研究团队发现了一个规律：在把噪声"擦拭"成清晰视频的整个过程中，早期步骤（高噪声阶段）主要决定视频的整体布局、物体位置和大结构，而后期步骤（低噪声阶段）主要负责细节精修，比如颜色是否均匀、边缘是否清晰。

对于"这条路通不通"这类逻辑推理任务，整体结构才是关键，细节精修对最终是否成功几乎没有影响。因此，研究团队提出了"早期步骤聚焦"策略：在20步去噪过程中，只对前10步进行随机扰动和梯度计算，后10步正常运行不做训练干预。

实验结果非常理想。在迷宫任务上，完整20步训练的成功率是72.3%，只训练前10步的成功率是72.2%，几乎没有差别，但训练时间从每步156秒降低到了93.5秒，足足节省了40%。这意味着相同的计算预算可以训练更多样本，效率大幅提升。

**配料三：密集分解奖励，给"差点成功"也打分**

这是整个方案中最有创意也最关键的部分。

纯粹的二值奖励（成功得1分，失败得0分）在任务较难时会完全失效。以FlowFree连线游戏为例，在训练初期，模型每次生成的视频几乎都是失败的（成功率接近0%）。16个视频，每个都得0分，全部一样，强化学习完全不知道该朝哪个方向改进——就像在完全黑暗的房间里摸索，没有任何指引。

研究团队的解决方案是把"成功"这件事拆解成多个可以单独打分的子目标，给出密集的过程性反馈。

以迷宫为例，整体奖励被分解为两个部分：路径有没有从起点连到终点，以及路径有没有穿墙而过。这两个分数相乘，只有两项都满足，才能得到高分。这种乘法结构比加法更严格，能更有力地区分"差不多对"和"真正对"的输出。

FlowFree的奖励拆分更细，分成四个维度：端点是否被正确保留（权重35%）、各颜色路径在格子上是否4连通（权重30%）、格子覆盖率（权重20%），以及端到端路径是否合法（权重15%）。即便整体没有解成功，模型也能因为"端点对了"或"路径连通性更好了"而得到部分奖励，从而持续获得改进方向。

推箱子的奖励则分成两半：最终状态有多少箱子到位了（权重50%），以及过程中有多少个动作符合推箱子的合法规则（权重50%）。过程合法性的引入非常重要，因为它让模型不仅关注最终结果，还关注每一步走得对不对。

**四、和其他选手比个高下**

研究团队在三个任务上对VideoRLVR进行了全面的横向比较，对手阵容相当豪华。

在商业闭源模型方面，测试了OpenAI的Sora 2、快手的Kling V3，以及谷歌的Veo 3.1。这些都是目前市场上顶级的视频生成产品，拥有远超研究团队的计算资源和训练数据。

在开源模型方面，测试了阿里的Wan2.2-TI2V-5B、智谱的CogVideoX1.5，以及腾讯的HunyuanVideo。这些也是当前学术界和工业界的主流开源选手。

在同类研究方面，测试了Wan-R1（基于相同底座模型，用监督微调训练的迷宫和推箱子专项模型）和VBVR-Wan2.2（基于更大的14B参数模型，用LoRA微调方式训练的通用视频推理模型）。

评测指标分两类：一类是轨迹对齐分数（精确度、召回率、F1），衡量生成视频与参考答案的相似程度；另一类是符号成功率，也就是生成的视频到底有没有真正解出题目。

结果相当清晰。所有商业模型和开源基础模型在迷宫任务上的成功率在0%到26%之间，在FlowFree上几乎全部是0%，在推箱子上也全是0%。这说明，哪怕是顶级商业模型，在这类需要精确逻辑推理的视频任务上也几乎完全无能为力。

VideoRLVR使用的底座模型Wan2.2-TI2V-5B是一个5B参数的中等规模模型，经过监督微调后（SFT Epoch 5），在迷宫上的成功率达到了66.1%，在FlowFree上是2.4%，在推箱子上是2.9%。这已经远超所有未经专项训练的模型。

在此基础上，经过VideoRLVR强化学习训练，成功率进一步提升：迷宫达到72.2%（提升6.1个百分点），FlowFree达到7.9%（提升5.5个百分点），推箱子达到6.1%（提升3.2个百分点）。

更有说服力的是与持续监督微调（SFT Epoch 10）的对比。研究团队专门训练了一个在相同数据上额外多训练5轮的监督模型，作为"更多模仿训练"的对照。结果显示，在FlowFree上，继续监督训练几乎没有任何改善（从2.4%涨到2.5%），而VideoRLVR则把成功率推高到了7.9%。在推箱子上，继续监督训练甚至出现了轻微下滑，而VideoRLVR则实现了有效提升。这个对比有力地说明：可验证的强化学习奖励提供了一种单纯模仿学习无法替代的优化信号。

在迷宫任务的难度分层分析中，研究团队把测试集按照迷宫格子数量分成了五个难度档。结果显示，随着迷宫变得越来越大越来越复杂，监督微调模型的成功率急剧下滑，而VideoRLVR的下滑幅度明显更小，呈现出更强的鲁棒性。这进一步验证了：在难题上，强化学习奖励的优势比在简单题上更加明显。

**五、和语言模型比比看：视频模型有独特优势**

研究团队还做了一个有趣的横向实验：直接让顶级语言模型来解迷宫，看看纯语言推理能不能胜过视频生成模型的视觉推理。

测试的对象包括GPT-4o、GPT-5.5 Pro、Gemini 2.5 Flash和Gemini 3.1 Pro，都是目前最先进的语言模型旗舰产品。这些模型拿到的是迷宫的文字或符号描述，需要通过语言推理找出路径。

结果颇具启发性。GPT-4o和Gemini 2.5 Flash在迷宫上的成功率是0%，Gemini 3.1 Pro达到了23%，GPT-5.5 Pro表现最好，达到了66%。而VideoRLVR的成功率是72.2%，超过了所有语言模型。

这个比较揭示了一个本质区别：语言模型需要把迷宫的视觉空间关系"翻译"成文字符号再推理，这个翻译过程会损失大量空间拓扑信息，就像用文字描述一张地图来导航，总不如直接看着地图走那么直观。视频模型则直接在视觉空间中操作，天然保留了路径的空间连通性信息，在处理这类视觉拓扑问题时具有结构性优势。

**六、推广到没见过的任务：OOD泛化能力**

研究团队还测试了VideoRLVR在完全不同于训练任务的场景中能否有效迁移。他们使用了一个叫做VBVR的独立视频推理基准测试集，这个测试集涵盖了抽象推理、知识推理、感知推理、空间推理和变换推理五个不同类别，与迷宫、连线、推箱子这三个训练任务没有重叠。

作为5B参数规模模型的基础对比，未经任何专项训练的CogVideoX1.5在这个测试集上的平均分是26.2分。VideoRLVR则达到了60.2分，在五个类别上全面领先，最高的抽象推理类别得到了65.5分。

更令人关注的是，VBVR-Wan2.2是基于更大的14B参数模型（约是VideoRLVR底座模型的三倍大小）训练的专门为这个测试集设计的对标模型，其平均分是61.0分。VideoRLVR用一个更小的模型、更少的训练数据，在完全不同于训练任务的测试集上取得了与其接近的成绩。这说明VideoRLVR学到的不只是"如何解迷宫"，而是某种更通用的视觉推理能力。

**七、奖励黑客：不加约束会发生什么**

研究团队还专门研究了一个有趣的风险：如果不加任何约束，强化学习会不会让模型"钻空子"？

实验证明，这种担忧完全有必要。在去掉KL散度惩罚项（一种让模型不要偏离原始模型太远的约束）后，模型很快学会了一种"作弊"策略：把整个迷宫的所有路径都涂满，这样不管哪条路，端点之间肯定有连通路径，满足了"路径连通"这个条件，同时也没有刻意穿墙（因为整个图都涂满了，也不需要穿墙）。这种生成结果在视觉上完全是一片噪点或色块，毫无意义，但在奖励函数看来是高分。

加入KL散度惩罚（β=0.04）后，这种奖励黑客行为被有效抑制。模型在追求高奖励的同时，被迫保持与原始SFT模型的接近，从而保留了视频的视觉合理性。这个发现对未来的视频强化学习研究有重要的实践参考价值。

**最后，说到底这意味着什么**

归根结底，这项研究告诉我们一件事：让AI"能做事"和让AI"做得好看"是两个根本不同的目标，需要不同的训练方法。

过去几年，视频生成AI的进步主要体现在"越来越像真的"——运动更流畅，光影更真实，细节更丰富。但这项研究证明，如果要让视频AI真正解决需要逻辑推理的问题，光靠"模仿正确答案的外形"是不够的，必须引入能客观评判"对错"的奖励信号，让模型在反复试错中真正学会推理。

这套方案的三个核心设计——带随机探索的SDE-GRPO优化、早步聚焦节省计算成本、密集分解奖励提供过程反馈——共同解决了视频强化学习在实践中面临的主要障碍。而40%的训练时间节省，让这套方案在现实中是可执行的，而不只是一个理论上可行的想法。

值得思考的是，这套训练思路的边界在哪里。目前测试的三个任务都是规则非常明确的逻辑游戏，奖励计算相对简单。如果要把这套方法推广到更复杂的任务，比如科学实验规划、医疗诊断步骤可视化，或者工程设计方案生成，如何设计密集分解奖励将是一个更大的挑战。另一个开放问题是，视频生成模型在什么规模和什么类型的任务上，比语言模型具有天然优势——这项研究的迷宫实验提供了一个初步答案，但更系统的比较还需要后续工作。

对这项研究感兴趣的读者，可以在arXiv平台通过论文编号2605.15458查阅完整论文，项目主页地址为darthzhu.github.io/VideoRLVR-page/，包含生成视频的可视化展示。

---

Q&A

Q1：VideoRLVR和普通视频生成AI有什么本质区别？

A：普通视频生成AI被训练成"生成视觉上看起来合理的内容"，而VideoRLVR通过强化学习额外训练模型"生成逻辑上真正正确的内容"。具体来说，VideoRLVR会让模型反复尝试解题，用规则验证器检查是否真的成功，然后奖励成功的尝试、惩罚失败的尝试。这类似于让学生不只是抄范文，而是真正做题并根据答对答错来学习。

Q2：VideoRLVR的"早期步骤聚焦"策略是怎么节省训练时间的？

A：视频从噪声变清晰需要多步去噪。早期步骤决定整体布局和逻辑结构，后期步骤只是精修细节。VideoRLVR发现，对于逻辑推理任务，只需对前10步（共20步）进行强化学习训练，后10步正常生成不做干预，成功率几乎不变（从72.3%降到72.2%），但训练时间从每步156秒降到93.5秒，节省约40%。

Q3：密集分解奖励解决了什么问题，为什么不直接用成功与否来奖励？

A：在FlowFree这类困难任务中，初期模型的成功率接近0%，如果只用"成功得1分、失败得0分"，16个候选视频全部得0分，模型完全不知道该往哪个方向改进。密集分解奖励把成功拆成多个子目标分别打分，比如端点保留了多少、路径连通了多少、格子覆盖了多少，即使整体失败也能给出部分奖励，为模型提供持续的改进方向。

视频生成强化学习密集分解奖励

分享至