微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

南方科技大学等联合团队的新研究：让AI智能体在"练习"中顺便学会理解世界

强化学习大语言模型智能体联合训练优化

南方科技大学等联合团队的新研究：让AI智能体在"练习"中顺便学会理解世界

作者：科技行者

2026-06-08 15:47

分享至：

PaW是一种为AI智能体设计的协同训练框架，无需额外模型或数据，仅利用强化学习训练中已有的轨迹数据，让智能体同时学会决策与预测环境变化，在多个任务上取得稳定提升。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 15:47 • 科技行者

这项由南方科技大学、香港科技大学、香港科技大学（广州）、香港理工大学以及LIGHTSPEED联合开展的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.02388，有兴趣深入了解的读者可通过该编号查询完整论文。

当我们谈论AI智能体的时候，脑海中浮现的往往是那种能够自主操作网页、在虚拟房间里完成任务、或者帮你搜索信息的"数字助手"。训练这类助手的主流方式，叫做强化学习——说白了，就是让AI不断尝试，做对了就给奖励，做错了就扣分，慢慢学会哪些行动能拿到高分。这套逻辑听起来很像训练小狗：做对了给零食，做错了不给。

然而问题来了：小狗做了某个动作之后，它会立刻看到环境的反应——你皱了眉头，或者开心地摸了摸它。但用强化学习训练的AI智能体，接收到的只是"任务完成"或"任务失败"这样的最终评分。至于它每一步操作到底对世界造成了什么影响，它几乎一无所知。这就像一个厨师只知道最后这道菜被评了几分，却完全不清楚是哪一步下盐、哪一步翻炒出了问题。长此以往，厨师可能偶尔做出好菜，但永远不会真正理解烹饪的原理。

研究团队正是从这个痛点出发，提出了一个叫做PaW的训练框架。PaW是"Policy and World modeling co-training"的缩写，直译过来就是"策略与世界建模协同训练"。它的核心思路简单而巧妙：AI智能体在训练过程中本来就会产生大量"练习记录"，每一条记录都包含了"做了什么动作"以及"之后环境变成了什么样子"。这些信息以前只被用来计算分数，而PaW把它们变成了额外的学习材料，让智能体同时学会"预测下一步会发生什么"。不需要额外的数据采集，不需要单独建造一个模拟器，也不会在实际使用时增加任何计算负担——多余的学习就发生在原本的训练过程中，顺手完成。

一、AI智能体的"只知道结果，不懂过程"困境

要理解为什么PaW的出现很重要，得先搞清楚现有训练方式的局限在哪里。

标准的强化学习训练，就像让一个学生反复做模拟考题，然后只告诉他最终成绩，不给任何解析。学生会逐渐摸清楚哪类题型容易得分，但他对知识本身的理解可能依然残缺。在AI智能体的场景里，这种缺陷体现得更为明显：智能体可能学会了某个"规律"——比如在特定情境下输入某个指令往往能拿高分——但它并不真正理解这个指令会对环境产生什么影响。一旦遇到了稍微陌生的场景，或者某个操作产生了不可逆的后果，它就会陷入混乱。

研究团队把这种缺失命名为"世界建模能力"的缺乏。所谓世界建模，说穿了就是：给智能体一个当前状态和一个打算采取的动作，它能预测出接下来环境会变成什么样。这听起来像是人类的常识——你知道打开冰箱门，冰箱里的东西就会暴露在你面前；你知道搜索"黑色小号T恤"，网页会返回一堆相关商品。但AI智能体如果缺乏这种预判能力，就会像一个对世界运转毫无概念的人一样，只能靠反复试错积累经验。

为了弥补这个缺口，学术界已经有一些探索。一类方法是单独训练一个"世界模型"，作为模拟器来生成虚假的训练轨迹，或者在推理时辅助规划。这类方法的代价是：你需要额外一套模型、额外一套训练流程，推理时还要多走一遍模拟步骤，系统复杂度大幅上升。另一类方法是先给模型灌注世界建模能力，再开始强化学习训练，相当于分两个阶段完成。这同样意味着更多的时间和资源投入，而且两阶段的协调本身就是个麻烦事。

PaW的思路则完全不同。研究团队发现，强化学习的训练过程中其实早已藏着大量的世界建模素材，只是没人用过它们。

二、被忽视的"免费教材"：训练轨迹里的宝藏

每一次智能体执行训练任务，都会留下一段"轨迹记录"，格式大致如下：当前状态 → 执行了什么动作 → 得到了什么奖励 → 环境变成了什么新状态。传统的强化学习只使用前三项——状态、动作、奖励——来更新智能体的策略。而那个"环境变成了什么新状态"，也就是动作之后的观测结果，一直被白白丢弃。

研究团队的核心洞察在于：每一条轨迹中的"动作→新观测"配对，天然就是一份世界建模的训练样本。只要让智能体学会根据当前状态和动作来预测下一步的观测，它就在练习理解环境动态。而这份练习材料，每一轮训练都在免费产生，完全不需要额外采集。

具体到技术实现，PaW的做法是：在原有的强化学习损失函数（也就是鼓励智能体选择高分动作的目标）之外，添加一个辅助的世界建模损失函数，要求同一个模型还要学会预测下一步的观测文本。两个目标共用同一套模型参数，在同一个训练步骤里同时优化。由于语言模型天然的"因果注意力"机制——后面的文字不能影响前面的预测——世界建模部分的监督信号不会干扰策略决策部分的学习，两者泾渭分明。而在实际使用时，模型只需要正常生成动作，完全不需要额外的模拟步骤，没有任何推理开销。

这就好比一个学厨的学徒，既在练习"下一步该做什么操作"，又在练习"这个操作之后锅里会发生什么变化"，两件事同时学，用的是同一套练习材料，用时不变，却多学了一门功课。

不过，正如真实的训练场景里总有各种干扰因素，这份"免费教材"也远非完美干净。研究团队发现了三个必须解决的实际问题，并为此分别设计了对应的解决方案。

三、三道工序，让"免费教材"真正好用

第一个问题是：不是所有的动作都值得学。

在某些任务里，智能体会反复执行同一类高度确定的操作，比如在虚拟房间里一遍又一遍地走向目标物体。这类动作的结果几乎是可以完全预料的，对学习环境动态没有太大帮助，反而会让模型把太多精力花在重复的、低信息量的样本上。

PaW的第一个设计是"基于动作熵的数据筛选"。所谓"动作熵"，可以理解为智能体在选择这个动作时有多纠结——如果它几乎笃定地要选某个动作，熵就低；如果它对好几个选项都拿不准，熵就高。熵高的动作说明这个决策点更关键、更复杂，其对应的环境反应也更值得学习。PaW会从每轮训练产生的所有轨迹里，只挑出熵最高的那一部分转换样本来做世界建模训练，默认比例是保留75%的高熵样本，丢弃低熵的重复操作。这样既节省了计算资源，又保证了世界建模样本的质量。

第二个问题是：观测文本里经常夹杂着"噪声"。

论文中举了两个生动的例子。在虚拟家务任务ALFWorld里，同样是"打开冰箱1"这个动作，在不同的环境实例里，打开之后看到的东西完全不同——一次里面有杯子、番茄和酒瓶，另一次里面是碗、鸡蛋和马克杯。这种随机性意味着观测本身就不是完全可预测的。而在网购任务WebShop里，搜索结果里会夹杂大量商品编号（比如"B09QQP3356"这样的ASIN码）和品牌名称，这些字符完全随机，根本无法从语义上预测。

如果用标准的交叉熵损失来训练世界建模，模型会被迫花费大量精力去"记住"这些随机字符，因为交叉熵损失对低概率预测的惩罚成倍放大，一个几乎不可能猜中的随机编号会产生极大的梯度信号，把模型的优化方向带歪。论文中的分析显示，在WebShop的场景下，交叉熵损失中高达32%的梯度份额来自那些被定义为"噪声"的词元，而MAE损失只有14%。

PaW的第二个设计是用"截断MAE损失"替代标准交叉熵。MAE损失（均绝对误差损失）对低概率预测的惩罚是线性的而非指数级的，天然对难以预测的词元更宽容。在此基础上，研究团队还加入了一个置信度截断机制：如果模型对某个词元的预测概率已经超过了阈值（默认0.2），就认为这个词元已经学得足够好了，直接从损失计算中排除，不再施加梯度压力。这样一来，模型会专注于那些"还没学会但值得学"的观测词元，既不会在随机噪声上浪费力气，也不会反复强迫自己去"过度记忆"已经掌握的内容。

第三个问题是：世界建模的辅助训练和强化学习的主训练之间，力量需要动态平衡。

如果给世界建模目标设置一个固定的、较大的权重，它可能会压过稀疏的奖励信号，让强化学习失去主导。但如果权重太小，辅助训练又几乎没有效果。更关键的是，不同的任务组在不同阶段对世界建模的需求是不同的——那些奖励很差、任务几乎全部失败的训练组，正处于最需要理解环境动态的阶段；而那些已经大部分成功的训练组，只需要继续精化策略就好。

PaW的第三个设计是"奖励自适应损失平衡"。每一组训练轨迹都有一个平均回报，研究团队根据这个平均回报动态计算世界建模的权重：平均回报越低，权重越大；平均回报越高（接近满分），权重越小，让强化学习目标自然占主导。这个机制就像一位聪明的教练，对基础差的队员多花时间讲解战术原理，对已经打得很好的队员则让他们更多地在实战中磨练技巧，而不是反复讲理论。

三个设计组合在一起，形成了完整的PaW框架，并被编写成一个简洁的训练算法：每轮训练，先收集轨迹，然后筛选高熵转换样本，用截断MAE计算世界建模损失，用奖励自适应系数调整权重，最后和强化学习损失合并，同时更新模型参数。整个流程不需要额外的模型推理，也不需要额外的数据收集，相比基础强化学习只增加了约2.1%的训练时间和2.4%的GPU内存占用。

四、三个战场，PaW的实战成绩单

研究团队在三类不同的任务上评测了PaW的效果，使用的基础模型涵盖了不同规模和系列，强化学习算法也不止一种。

第一个战场是虚拟家务任务ALFWorld。这个环境里，智能体需要在虚拟房间中完成六类家务，包括把某件物品捡起放到指定地方、在灯下检查物品、清洗物品、加热物品、冷却物品，以及一次性捡起两件物品。任务最长可达50步，每一步的操作都会对环境状态产生影响，是典型的长序列决策任务。

在1.5B参数规模的Qwen2.5模型上，搭配GRPO算法，PaW把整体成功率从70.0%提升到了77.9%，提升了7.9个百分点。搭配更先进的GIGPO算法，整体成功率从87.6%提升到90.4%，提升2.8个百分点。在7B参数规模的更大模型上，GRPO搭配PaW从77.6%提升到80.6%，GIGPO搭配PaW从90.8%提升到91.8%。提升幅度随模型能力增强而有所收窄，这是合理的——越厉害的模型本身已经更接近天花板，提升空间自然更小。

第二个战场是网购任务WebShop。这个环境里，智能体需要在一个包含11万多件商品的虚拟电商平台上，根据用户的购物需求搜索并购买合适的商品，任务最长15步。这个场景的特殊性在于商品页面包含大量随机文本，正是前面提到的"噪声观测"最严重的地方，也是截断MAE损失发挥作用的核心场景。

结果显示，PaW在WebShop上带来了更大的提升。1.5B模型上，GRPO搭配PaW的成功率从60.6%跃升至68.6%，提升8.0个百分点；GIGPO搭配PaW从66.2%提升至75.3%，提升9.1个百分点。7B模型上，两种算法分别提升4.0和2.9个百分点。

第三个战场是多轮搜索问答任务。这类任务要求智能体通过多轮调用搜索引擎来回答问题，覆盖了七个不同的问答数据集，包括单跳问答（一次搜索能回答的）和多跳问答（需要多次搜索、综合推理才能回答的）。在3B和7B规模的Qwen2.5模型上，PaW对GRPO和GIGPO都带来了稳定的提升，平均分提升幅度在0.9到3.0个百分点之间。

除了这三个主要战场，研究团队还专门测试了PaW在不同强化学习算法和不同模型家族上的泛化能力。PPO算法搭配PaW，WebShop成功率从59.1%提升到65.2%，提升6.1个百分点；RLOO算法搭配PaW从56.7%提升到61.2%，提升4.5个百分点。在模型家族方面，Qwen3-1.7B搭配PaW提升8.8个百分点，更大的Qwen2.5-14B提升2.4个百分点。这些数据表明PaW不依赖于某种特定算法或模型架构，而是一种普遍适用的增强方法。

五、当普通强化学习彻底失效，PaW依然能救场

研究中最引人关注的一个发现，是PaW在"普通强化学习根本学不动"的极端场景下的表现。

用Llama3.2-3B模型在WebShop上做GRPO训练，结果训练了150步，模型的成功率始终在0附近徘徊——几乎所有的任务都失败了，奖励信号极度稀疏，相当于学生做了150道题，每次都是零分，完全不知道自己到底哪里出了错。在这种情况下，强化学习失去了可以学习的信号，训练陷入停滞。

加入PaW之后，情况发生了戏剧性的转变。尽管任务奖励依然稀少，世界建模的损失却提供了密集的学习信号——模型每一步都在尝试预测"执行这个动作之后，购物网站会显示什么"，这个练习不依赖任务是否成功，只要有状态-动作-新状态的三元组就能进行。通过这种方式，模型逐渐积累了对环境运转方式的理解，最终开始产生成功的购物轨迹，为强化学习提供了正向奖励信号，训练得以继续推进。最终成功率从几乎为零的4.0%跃升至62.2%，提升了惊人的58.2个百分点。

这个结果揭示了PaW的一个额外价值：它不仅仅是对已经在学的强化学习的锦上添花，还可以在稀疏奖励的困难场景下扮演"引路人"的角色，帮助智能体从零开始找到学习的方向。

六、消融实验：三个设计缺一不可

研究团队还做了一系列消融实验，专门验证PaW三个核心设计的各自贡献。

如果把奖励自适应权重去掉，改为对所有训练组使用固定的权重1，ALFWorld成功率从77.9%下降到75.5%，WebShop从68.6%下降到67.0%。两项任务都下降了，说明自适应权重确实有助于平衡辅助训练和主训练之间的关系。

更大的影响来自损失函数的选择。如果把截断MAE损失换回标准的交叉熵损失，ALFWorld成功率从77.9%骤降至68.5%，WebShop从68.6%骤降至57.2%——后者甚至比没有PaW的基础GRPO（60.6%）还要差。这个结果非常鲜明：在有噪声观测的环境里，错误的损失函数不仅帮不上忙，反而会拖累主任务的学习。交叉熵损失对随机噪声词元的过度惩罚，会把模型的优化资源引向错误的方向，导致策略学习受损。

研究团队还测试了熵选择比例α和截断阈值ρ两个超参数的敏感性。结果显示，在较宽的参数范围内（α从0.25到1.0，ρ从0.0到0.8），PaW都能带来比基础GRPO更好的成绩，最佳值分别在α=0.75和ρ=0.2附近。这意味着PaW对超参数不是特别敏感，不需要精细调整也能工作。

说到底，PaW做的事情可以用一句话概括：它发现了强化学习训练过程中被长期忽视的"边角料"，把它们变成了有价值的学习材料，帮助智能体在练习"做什么"的同时顺带学会了"做了会怎样"。这种双管齐下的训练方式，不需要额外的成本，却带来了实实在在的能力提升。

对于普通人而言，这项研究的意义在于：未来那些帮你购物、帮你查资料、帮你操作电脑的AI助手，可能会因为类似的训练方式而变得更加聪明稳健，不仅知道该做什么，还真正理解每一步操作会带来什么后果——而这种理解，正是让AI助手在复杂、真实的任务中不出错的关键。

当然，研究团队也坦诚地指出了当前框架的局限。PaW目前只学习"下一步的观测"，对于更长远的多步影响链条，还没有显式建模。在某些任务里，一个动作的真正影响可能要好几步之后才会体现，这部分能力还需要未来的工作来探索。此外，训练轨迹中可能存在大量重复的路径，这会使世界建模的学习样本产生偏差，如何引入多样性采样也是一个值得深入的方向。感兴趣的读者可以通过arXiv:2606.02388查阅完整论文，了解所有技术细节。

Q&A

Q1：PaW框架是什么，和普通强化学习训练有什么不同？

A：PaW是一种策略与世界建模协同训练框架。普通强化学习只用"做了什么动作、得了多少分"来更新模型，而PaW额外利用了训练过程中产生的"动作之后环境变成什么样"这一信息，让模型同时学会预测下一步的环境状态。整个过程共用同一套训练数据，不需要额外的模型或数据采集，推理时也没有任何额外开销。

Q2：截断MAE损失为什么比交叉熵损失更适合世界建模训练？

A：在网购、家务等真实环境里，观测文本中包含大量随机字符（如商品编号、品牌名等），根本无法从语义上预测。标准交叉熵损失对这类低概率预测的惩罚会成倍放大，导致模型把大量优化资源花在"记噪声"上，反而干扰了主任务的策略学习。截断MAE损失对低概率词元的惩罚是线性的，加上置信度截断机制，只关注"还没学会且值得学"的内容，避免了这种干扰，实验显示替换损失函数后WebShop成功率提升超过11个百分点。

Q3：PaW在强化学习完全学不动的情况下真的有效吗？

A：有实验证据支持。用Llama3.2-3B模型在WebShop上做普通GRPO训练，训练150步后成功率仍接近零，奖励信号极度稀疏，训练陷入停滞。加入PaW后，世界建模损失提供了密集的学习信号——每一步都在预测环境变化，不依赖任务是否成功。模型借此积累了对环境的理解，逐渐产生成功轨迹，最终成功率从4.0%跃升至62.2%，提升了58.2个百分点。

强化学习大语言模型智能体联合训练优化

分享至