这项由清华大学软件学院Jialong Wu、Shaofeng Yin、Ningya Feng和Mingsheng Long教授共同完成的研究,于2025年5月20日在arXiv(arXiv:2505.13934v1)上发表。感兴趣的读者可以通过清华大学机器学习研究团队(THUML)的项目网站https://thuml.github.io/RLVR-World获取更多信息。
为什么这项研究如此重要?
想象一下,如果你的智能助手不仅能回答问题,还能预测你的行为会产生什么结果。比如,在你点击网页上的某个按钮前,它能先告诉你"点击这里会打开一个订单页面";或者在机器人执行任务前,它能准确预测机器人的动作会导致什么变化。这正是"世界模型"的核心功能——预测在特定行动后,环境将如何变化。
世界模型就像是智能系统的"想象力",让它能够在实际行动前先在"脑海中"模拟可能的结果。这种能力对于自动驾驶汽车、网络浏览助手、机器人等智能系统至关重要。当一个自动驾驶系统能够预测不同行驶路径的后果时,它才能做出安全的决策;当一个网络助手能预测点击不同按钮的结果时,它才能有效地帮助用户导航网页。
然而,训练世界模型面临着一个根本性的挑战:传统训练方法与实际应用目标存在脱节。大多数世界模型使用"最大似然估计"(MLE)等方法训练,这些方法擅长让模型学习数据的整体分布,但并不直接优化用户真正关心的指标,比如预测的准确性或视觉质量。
清华大学的研究团队针对这一问题提出了一个名为"RLVR-World"的创新框架。这个框架使用"可验证奖励的强化学习"(RLVR)技术,直接优化世界模型在实际应用中最关心的指标。简单来说,这就像是从"学习所有可能的情况"转变为"专注学习最重要的情况",使模型的训练目标与实际应用需求直接对齐。
世界模型的基本概念:理解环境变化的"超级预测器"
在深入了解RLVR-World之前,我们需要先理解什么是世界模型。想象你在玩一个电子游戏,每次按下控制器上的按钮,游戏中的角色就会做出相应的动作,环境也会随之变化。世界模型就像是一个超级预测器,它观察当前的游戏画面和你即将按下的按钮,然后预测下一个画面会是什么样子。
在技术术语中,世界模型试图学习状态转移函数p(s'|s,a),其中s是当前状态,a是行动,s'是下一个状态。这个函数描述了在当前状态下采取某个行动后,环境会如何变化。
传统上,世界模型通常使用最大似然估计(MLE)等方法训练。这就像是让模型不断预测"按下这个按钮后,游戏画面最可能是什么样子",然后通过比较预测和实际结果来调整模型。这种方法在理论上很合理,但实际上存在问题。
例如,在视频预测任务中,使用像均方误差这样的传统损失函数往往会导致模型生成模糊的图像,因为模型在尝试平均所有可能的结果。在语言模型中,这种训练方式可能导致重复或幻觉等问题。简单来说,传统方法让模型学会了"猜测平均情况",而不是"准确预测具体情况"。
RLVR-World:直接优化用户关心的指标
清华大学研究团队提出的RLVR-World框架采用了一种完全不同的训练思路。不再专注于让模型学习数据的整体分布,而是直接优化用户真正关心的指标,如预测的准确性或视觉质量。
这种方法的关键在于使用"可验证奖励的强化学习"(RLVR)。强化学习是一种让模型通过"尝试和反馈"来学习的方法,就像训练宠物一样——当宠物做对事情时给予奖励,做错时给予纠正。在RLVR-World中,模型得到的"奖励"直接基于预测的质量指标,比如文本预测的准确率或视频预测的视觉质量。
具体来说,RLVR-World的工作流程如下:
首先,研究团队将不同类型的世界模型(如处理文本、视频等)统一到一个通用的序列建模框架中。无论是文本状态、视频画面还是机器人的传感器数据,都被转换为一系列的"令牌"(tokens)。
然后,模型使用传统方法(如MLE)进行初步训练,学习基本的预测能力。这就像是先教会一个学生基础知识,为更高级的学习打下基础。
最后,模型通过RLVR进行"微调"(fine-tuning),直接优化用户关心的指标。模型生成多个可能的预测,然后根据这些预测的质量获得"奖励",并据此调整自己的参数。这就像是让学生不仅掌握知识,还能针对特定考试类型进行专门训练。
这种方法的优势在于,它能够让模型的训练目标与实际应用需求直接对齐。例如,如果用户关心的是视频预测的视觉质量,模型就会专门优化这一指标,而不是盲目地追求统计上的"平均正确"。
RLVR-World在文本世界模型上的应用
研究团队首先在语言世界模型上测试了RLVR-World框架,特别是在两个任务上:文字游戏状态预测和网页导航。
在文字游戏状态预测任务中,模型需要根据游戏当前状态和玩家行动预测游戏的下一个状态。例如,如果当前游戏中有一个脏盘子,玩家的行动是"清洗盘子",模型需要预测下一个状态中盘子会变干净。
研究团队使用DeepSeek-R1-Distill-Qwen-1.5B作为基础模型,并进行了监督微调(SFT)和RLVR微调。结果显示,与仅使用SFT的模型相比,使用RLVR微调的模型在不变案例(玩家行动不改变游戏状态)上准确率提高了34.7%,在变化案例(玩家行动改变游戏状态)上准确率提高了8.9%。使用任务特定奖励函数时,性能提升更显著,不变案例准确率提高44.8%,变化案例准确率提高9.6%。这使得这个相对小型的1.5B参数模型在总体性能上能够接近GPT-4,尽管在处理复杂变化案例时仍有差距。
在网页导航任务中,模型需要预测用户在网页上执行某个操作(如点击按钮)后,网页状态的变化。研究团队同样使用DeepSeek-R1-Distill-Qwen-1.5B作为基础模型,并进行了SFT和RLVR微调。结果显示,RLVR微调使模型的精确率提高了48.5%,F1分数提高了30.3%。
更重要的是,这些增强的语言世界模型在实际应用中表现出明显优势。研究团队构建了一个使用模型预测控制(MPC)的网页代理,该代理使用世界模型来预测不同行动的结果,并选择最佳行动。使用RLVR微调的世界模型使网页代理的成功率提高了18.4%。
这些结果证明,RLVR不仅在数学和编码等推理任务上有效,在世界建模这类涉及状态转换预测的任务上同样有效。简单来说,RLVR让语言模型更好地理解"如果做A,会发生B"这类因果关系。
RLVR-World在视频世界模型上的应用
除了文本世界模型,研究团队还在视频世界模型上测试了RLVR-World框架,这是一个更具挑战性的领域。
在机器人操作轨迹预测任务中,模型需要根据当前观察和未来行动预测机器人操作的视觉结果。研究团队使用RT-1数据集,该数据集包含机器人在桌面环境中执行各种任务的视频记录。
他们测试了两种预测设置:单步预测(预测下一帧)和多步预测(预测未来七帧)。在这两种设置下,RLVR微调都显著提高了模型性能。在单步预测中,平均平方误差(MSE)降低了14.3%,感知质量指标LPIPS提高了6.0%。在多步预测中,MSE降低了26.1%,LPIPS提高了9.2%。
特别值得注意的是,RLVR还有效解决了视频预测中的重复问题。在多步预测中,基础模型倾向于简单地重复前一帧,导致48.6%的重复率。而使用RLVR微调后,重复率大幅降低至9.9%。这表明RLVR能够鼓励模型产生更多样化、更准确的预测。
另一个引人注目的发现是,RLVR微调只需要几百个梯度步骤就能实现显著改进,而传统的MLE训练需要数十万步。这表明RLVR提供了一种非常高效的训练方法,特别适合微调预训练模型。
此外,研究团队还发现,使用不同视觉指标(如MAE、MSE、PSNR、SSIM、LPIPS)作为奖励函数微调的模型,在各自的指标上表现最好。这进一步证明了RLVR能够直接优化用户关心的特定指标。
实际应用:从模型到现实世界
强化后的视频世界模型不仅在预测任务上表现优异,在实际应用中也展现出价值。研究团队使用这些模型进行了"Real2Sim策略评估",即在模拟环境中评估机器人策略的有效性。
在这项任务中,模型需要模拟机器人执行特定任务(如打开抽屉)的结果。研究显示,与手工设计的SIMPLER模拟器相比,视频世界模型在真实世界和模拟结果之间产生的差异更小,表明它们能够更准确地模拟现实世界。而使用RLVR微调的世界模型进一步提高了模拟的准确性。
这一发现具有重要的实际意义。在机器人学习中,真实世界的试验往往成本高昂且耗时。如果能够在准确的模拟环境中评估和改进机器人策略,将大大加速机器人学习过程,降低成本。
研究的局限性与未来方向
尽管RLVR-World展示了令人印象深刻的成果,但研究团队也坦率地指出了几个仍需解决的挑战:
首先,如何设计更好的任务对齐奖励函数仍是一个开放问题。虽然传统的视觉指标(如MSE、LPIPS)比MLE更符合世界建模任务,但它们仍未完全捕捉用户的期望质量。未来的研究可能需要纳入物理规则和时间一致性等约束,设计更复杂的奖励函数。
其次,尽管RLVR带来了显著改进,但训练通常在几百步内就趋于收敛,难以持续提升。了解模型、数据和算法中的瓶颈,可能是突破这一限制的关键。
第三,模型在分布外(OOD)数据上的泛化能力仍需探索。特别是在序列决策中,模型对分布外行动的反事实推理能力非常重要。
这些挑战为未来研究提供了明确的方向,也表明RLVR-World框架虽有突破,但仍有很大的发展空间。
总结:强化学习开启世界模型的新时代
归根结底,清华大学研究团队提出的RLVR-World框架代表了世界模型训练的一个重要范式转变。不再局限于传统的最大似然估计等方法,而是直接优化用户真正关心的指标,让模型的训练目标与实际应用需求直接对齐。
这一框架在语言和视频世界模型上都取得了显著成功,在文本游戏状态预测、网页导航和机器人操作轨迹预测等任务上均实现了大幅度的性能提升。特别是,它能够有效解决传统方法中的重复和模糊等问题,生成更准确、更清晰的预测。
更重要的是,RLVR-World提供了一种高效的训练方法,只需几百个梯度步骤就能显著改进预训练模型的性能。这对于实际应用特别有价值,因为它允许研究者和开发者快速适应特定任务的需求。
随着人工智能技术向更复杂的实际应用发展,准确预测环境变化的能力变得越来越重要。RLVR-World为构建更强大、更实用的世界模型提供了一条有前途的路径,有望推动自动驾驶、机器人控制、网页导航等领域的进步。
正如研究团队所指出的,RLVR不仅适用于世界模型,还可能成为生成模型更广泛的后训练范式。它为提升生成模型的实用性提供了一种通用的方法,有望在更多领域产生影响。
对于想深入了解这项研究的读者,可以访问项目网站https://thuml.github.io/RLVR-World获取更多信息,或查阅完整论文了解技术细节。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。