微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 南方科技大学等联合团队的新研究:让AI智能体在"练习"中顺便学会理解世界

南方科技大学等联合团队的新研究:让AI智能体在"练习"中顺便学会理解世界

2026-06-08 15:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-08 15:47 科技行者

这项由南方科技大学、香港科技大学、香港科技大学(广州)、香港理工大学以及LIGHTSPEED联合开展的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.02388,有兴趣深入了解的读者可通过该编号查询完整论文。

当我们谈论AI智能体的时候,脑海中浮现的往往是那种能够自主操作网页、在虚拟房间里完成任务、或者帮你搜索信息的"数字助手"。训练这类助手的主流方式,叫做强化学习——说白了,就是让AI不断尝试,做对了就给奖励,做错了就扣分,慢慢学会哪些行动能拿到高分。这套逻辑听起来很像训练小狗:做对了给零食,做错了不给。

然而问题来了:小狗做了某个动作之后,它会立刻看到环境的反应——你皱了眉头,或者开心地摸了摸它。但用强化学习训练的AI智能体,接收到的只是"任务完成"或"任务失败"这样的最终评分。至于它每一步操作到底对世界造成了什么影响,它几乎一无所知。这就像一个厨师只知道最后这道菜被评了几分,却完全不清楚是哪一步下盐、哪一步翻炒出了问题。长此以往,厨师可能偶尔做出好菜,但永远不会真正理解烹饪的原理。

研究团队正是从这个痛点出发,提出了一个叫做PaW的训练框架。PaW是"Policy and World modeling co-training"的缩写,直译过来就是"策略与世界建模协同训练"。它的核心思路简单而巧妙:AI智能体在训练过程中本来就会产生大量"练习记录",每一条记录都包含了"做了什么动作"以及"之后环境变成了什么样子"。这些信息以前只被用来计算分数,而PaW把它们变成了额外的学习材料,让智能体同时学会"预测下一步会发生什么"。不需要额外的数据采集,不需要单独建造一个模拟器,也不会在实际使用时增加任何计算负担——多余的学习就发生在原本的训练过程中,顺手完成。

一、AI智能体的"只知道结果,不懂过程"困境

要理解为什么PaW的出现很重要,得先搞清楚现有训练方式的局限在哪里。

标准的强化学习训练,就像让一个学生反复做模拟考题,然后只告诉他最终成绩,不给任何解析。学生会逐渐摸清楚哪类题型容易得分,但他对知识本身的理解可能依然残缺。在AI智能体的场景里,这种缺陷体现得更为明显:智能体可能学会了某个"规律"——比如在特定情境下输入某个指令往往能拿高分——但它并不真正理解这个指令会对环境产生什么影响。一旦遇到了稍微陌生的场景,或者某个操作产生了不可逆的后果,它就会陷入混乱。

研究团队把这种缺失命名为"世界建模能力"的缺乏。所谓世界建模,说穿了就是:给智能体一个当前状态和一个打算采取的动作,它能预测出接下来环境会变成什么样。这听起来像是人类的常识——你知道打开冰箱门,冰箱里的东西就会暴露在你面前;你知道搜索"黑色小号T恤",网页会返回一堆相关商品。但AI智能体如果缺乏这种预判能力,就会像一个对世界运转毫无概念的人一样,只能靠反复试错积累经验。

为了弥补这个缺口,学术界已经有一些探索。一类方法是单独训练一个"世界模型",作为模拟器来生成虚假的训练轨迹,或者在推理时辅助规划。这类方法的代价是:你需要额外一套模型、额外一套训练流程,推理时还要多走一遍模拟步骤,系统复杂度大幅上升。另一类方法是先给模型灌注世界建模能力,再开始强化学习训练,相当于分两个阶段完成。这同样意味着更多的时间和资源投入,而且两阶段的协调本身就是个麻烦事。

PaW的思路则完全不同。研究团队发现,强化学习的训练过程中其实早已藏着大量的世界建模素材,只是没人用过它们。

二、被忽视的"免费教材":训练轨迹里的宝藏

每一次智能体执行训练任务,都会留下一段"轨迹记录",格式大致如下:当前状态 → 执行了什么动作 → 得到了什么奖励 → 环境变成了什么新状态。传统的强化学习只使用前三项——状态、动作、奖励——来更新智能体的策略。而那个"环境变成了什么新状态",也就是动作之后的观测结果,一直被白白丢弃。

研究团队的核心洞察在于:每一条轨迹中的"动作→新观测"配对,天然就是一份世界建模的训练样本。只要让智能体学会根据当前状态和动作来预测下一步的观测,它就在练习理解环境动态。而这份练习材料,每一轮训练都在免费产生,完全不需要额外采集。

具体到技术实现,PaW的做法是:在原有的强化学习损失函数(也就是鼓励智能体选择高分动作的目标)之外,添加一个辅助的世界建模损失函数,要求同一个模型还要学会预测下一步的观测文本。两个目标共用同一套模型参数,在同一个训练步骤里同时优化。由于语言模型天然的"因果注意力"机制——后面的文字不能影响前面的预测——世界建模部分的监督信号不会干扰策略决策部分的学习,两者泾渭分明。而在实际使用时,模型只需要正常生成动作,完全不需要额外的模拟步骤,没有任何推理开销。

这就好比一个学厨的学徒,既在练习"下一步该做什么操作",又在练习"这个操作之后锅里会发生什么变化",两件事同时学,用的是同一套练习材料,用时不变,却多学了一门功课。

不过,正如真实的训练场景里总有各种干扰因素,这份"免费教材"也远非完美干净。研究团队发现了三个必须解决的实际问题,并为此分别设计了对应的解决方案。

三、三道工序,让"免费教材"真正好用

第一个问题是:不是所有的动作都值得学。

在某些任务里,智能体会反复执行同一类高度确定的操作,比如在虚拟房间里一遍又一遍地走向目标物体。这类动作的结果几乎是可以完全预料的,对学习环境动态没有太大帮助,反而会让模型把太多精力花在重复的、低信息量的样本上。

PaW的第一个设计是"基于动作熵的数据筛选"。所谓"动作熵",可以理解为智能体在选择这个动作时有多纠结——如果它几乎笃定地要选某个动作,熵就低;如果它对好几个选项都拿不准,熵就高。熵高的动作说明这个决策点更关键、更复杂,其对应的环境反应也更值得学习。PaW会从每轮训练产生的所有轨迹里,只挑出熵最高的那一部分转换样本来做世界建模训练,默认比例是保留75%的高熵样本,丢弃低熵的重复操作。这样既节省了计算资源,又保证了世界建模样本的质量。

第二个问题是:观测文本里经常夹杂着"噪声"。

论文中举了两个生动的例子。在虚拟家务任务ALFWorld里,同样是"打开冰箱1"这个动作,在不同的环境实例里,打开之后看到的东西完全不同——一次里面有杯子、番茄和酒瓶,另一次里面是碗、鸡蛋和马克杯。这种随机性意味着观测本身就不是完全可预测的。而在网购任务WebShop里,搜索结果里会夹杂大量商品编号(比如"B09QQP3356"这样的ASIN码)和品牌名称,这些字符完全随机,根本无法从语义上预测。

如果用标准的交叉熵损失来训练世界建模,模型会被迫花费大量精力去"记住"这些随机字符,因为交叉熵损失对低概率预测的惩罚成倍放大,一个几乎不可能猜中的随机编号会产生极大的梯度信号,把模型的优化方向带歪。论文中的分析显示,在WebShop的场景下,交叉熵损失中高达32%的梯度份额来自那些被定义为"噪声"的词元,而MAE损失只有14%。

PaW的第二个设计是用"截断MAE损失"替代标准交叉熵。MAE损失(均绝对误差损失)对低概率预测的惩罚是线性的而非指数级的,天然对难以预测的词元更宽容。在此基础上,研究团队还加入了一个置信度截断机制:如果模型对某个词元的预测概率已经超过了阈值(默认0.2),就认为这个词元已经学得足够好了,直接从损失计算中排除,不再施加梯度压力。这样一来,模型会专注于那些"还没学会但值得学"的观测词元,既不会在随机噪声上浪费力气,也不会反复强迫自己去"过度记忆"已经掌握的内容。

第三个问题是:世界建模的辅助训练和强化学习的主训练之间,力量需要动态平衡。

如果给世界建模目标设置一个固定的、较大的权重,它可能会压过稀疏的奖励信号,让强化学习失去主导。但如果权重太小,辅助训练又几乎没有效果。更关键的是,不同的任务组在不同阶段对世界建模的需求是不同的——那些奖励很差、任务几乎全部失败的训练组,正处于最需要理解环境动态的阶段;而那些已经大部分成功的训练组,只需要继续精化策略就好。

PaW的第三个设计是"奖励自适应损失平衡"。每一组训练轨迹都有一个平均回报,研究团队根据这个平均回报动态计算世界建模的权重:平均回报越低,权重越大;平均回报越高(接近满分),权重越小,让强化学习目标自然占主导。这个机制就像一位聪明的教练,对基础差的队员多花时间讲解战术原理,对已经打得很好的队员则让他们更多地在实战中磨练技巧,而不是反复讲理论。

三个设计组合在一起,形成了完整的PaW框架,并被编写成一个简洁的训练算法:每轮训练,先收集轨迹,然后筛选高熵转换样本,用截断MAE计算世界建模损失,用奖励自适应系数调整权重,最后和强化学习损失合并,同时更新模型参数。整个流程不需要额外的模型推理,也不需要额外的数据收集,相比基础强化学习只增加了约2.1%的训练时间和2.4%的GPU内存占用。

四、三个战场,PaW的实战成绩单

研究团队在三类不同的任务上评测了PaW的效果,使用的基础模型涵盖了不同规模和系列,强化学习算法也不止一种。

第一个战场是虚拟家务任务ALFWorld。这个环境里,智能体需要在虚拟房间中完成六类家务,包括把某件物品捡起放到指定地方、在灯下检查物品、清洗物品、加热物品、冷却物品,以及一次性捡起两件物品。任务最长可达50步,每一步的操作都会对环境状态产生影响,是典型的长序列决策任务。

在1.5B参数规模的Qwen2.5模型上,搭配GRPO算法,PaW把整体成功率从70.0%提升到了77.9%,提升了7.9个百分点。搭配更先进的GIGPO算法,整体成功率从87.6%提升到90.4%,提升2.8个百分点。在7B参数规模的更大模型上,GRPO搭配PaW从77.6%提升到80.6%,GIGPO搭配PaW从90.8%提升到91.8%。提升幅度随模型能力增强而有所收窄,这是合理的——越厉害的模型本身已经更接近天花板,提升空间自然更小。

第二个战场是网购任务WebShop。这个环境里,智能体需要在一个包含11万多件商品的虚拟电商平台上,根据用户的购物需求搜索并购买合适的商品,任务最长15步。这个场景的特殊性在于商品页面包含大量随机文本,正是前面提到的"噪声观测"最严重的地方,也是截断MAE损失发挥作用的核心场景。

结果显示,PaW在WebShop上带来了更大的提升。1.5B模型上,GRPO搭配PaW的成功率从60.6%跃升至68.6%,提升8.0个百分点;GIGPO搭配PaW从66.2%提升至75.3%,提升9.1个百分点。7B模型上,两种算法分别提升4.0和2.9个百分点。

第三个战场是多轮搜索问答任务。这类任务要求智能体通过多轮调用搜索引擎来回答问题,覆盖了七个不同的问答数据集,包括单跳问答(一次搜索能回答的)和多跳问答(需要多次搜索、综合推理才能回答的)。在3B和7B规模的Qwen2.5模型上,PaW对GRPO和GIGPO都带来了稳定的提升,平均分提升幅度在0.9到3.0个百分点之间。

除了这三个主要战场,研究团队还专门测试了PaW在不同强化学习算法和不同模型家族上的泛化能力。PPO算法搭配PaW,WebShop成功率从59.1%提升到65.2%,提升6.1个百分点;RLOO算法搭配PaW从56.7%提升到61.2%,提升4.5个百分点。在模型家族方面,Qwen3-1.7B搭配PaW提升8.8个百分点,更大的Qwen2.5-14B提升2.4个百分点。这些数据表明PaW不依赖于某种特定算法或模型架构,而是一种普遍适用的增强方法。

五、当普通强化学习彻底失效,PaW依然能救场

研究中最引人关注的一个发现,是PaW在"普通强化学习根本学不动"的极端场景下的表现。

用Llama3.2-3B模型在WebShop上做GRPO训练,结果训练了150步,模型的成功率始终在0附近徘徊——几乎所有的任务都失败了,奖励信号极度稀疏,相当于学生做了150道题,每次都是零分,完全不知道自己到底哪里出了错。在这种情况下,强化学习失去了可以学习的信号,训练陷入停滞。

加入PaW之后,情况发生了戏剧性的转变。尽管任务奖励依然稀少,世界建模的损失却提供了密集的学习信号——模型每一步都在尝试预测"执行这个动作之后,购物网站会显示什么",这个练习不依赖任务是否成功,只要有状态-动作-新状态的三元组就能进行。通过这种方式,模型逐渐积累了对环境运转方式的理解,最终开始产生成功的购物轨迹,为强化学习提供了正向奖励信号,训练得以继续推进。最终成功率从几乎为零的4.0%跃升至62.2%,提升了惊人的58.2个百分点。

这个结果揭示了PaW的一个额外价值:它不仅仅是对已经在学的强化学习的锦上添花,还可以在稀疏奖励的困难场景下扮演"引路人"的角色,帮助智能体从零开始找到学习的方向。

六、消融实验:三个设计缺一不可

研究团队还做了一系列消融实验,专门验证PaW三个核心设计的各自贡献。

如果把奖励自适应权重去掉,改为对所有训练组使用固定的权重1,ALFWorld成功率从77.9%下降到75.5%,WebShop从68.6%下降到67.0%。两项任务都下降了,说明自适应权重确实有助于平衡辅助训练和主训练之间的关系。

更大的影响来自损失函数的选择。如果把截断MAE损失换回标准的交叉熵损失,ALFWorld成功率从77.9%骤降至68.5%,WebShop从68.6%骤降至57.2%——后者甚至比没有PaW的基础GRPO(60.6%)还要差。这个结果非常鲜明:在有噪声观测的环境里,错误的损失函数不仅帮不上忙,反而会拖累主任务的学习。交叉熵损失对随机噪声词元的过度惩罚,会把模型的优化资源引向错误的方向,导致策略学习受损。

研究团队还测试了熵选择比例α和截断阈值ρ两个超参数的敏感性。结果显示,在较宽的参数范围内(α从0.25到1.0,ρ从0.0到0.8),PaW都能带来比基础GRPO更好的成绩,最佳值分别在α=0.75和ρ=0.2附近。这意味着PaW对超参数不是特别敏感,不需要精细调整也能工作。

说到底,PaW做的事情可以用一句话概括:它发现了强化学习训练过程中被长期忽视的"边角料",把它们变成了有价值的学习材料,帮助智能体在练习"做什么"的同时顺带学会了"做了会怎样"。这种双管齐下的训练方式,不需要额外的成本,却带来了实实在在的能力提升。

对于普通人而言,这项研究的意义在于:未来那些帮你购物、帮你查资料、帮你操作电脑的AI助手,可能会因为类似的训练方式而变得更加聪明稳健,不仅知道该做什么,还真正理解每一步操作会带来什么后果——而这种理解,正是让AI助手在复杂、真实的任务中不出错的关键。

当然,研究团队也坦诚地指出了当前框架的局限。PaW目前只学习"下一步的观测",对于更长远的多步影响链条,还没有显式建模。在某些任务里,一个动作的真正影响可能要好几步之后才会体现,这部分能力还需要未来的工作来探索。此外,训练轨迹中可能存在大量重复的路径,这会使世界建模的学习样本产生偏差,如何引入多样性采样也是一个值得深入的方向。感兴趣的读者可以通过arXiv:2606.02388查阅完整论文,了解所有技术细节。

Q&A

Q1:PaW框架是什么,和普通强化学习训练有什么不同?

A:PaW是一种策略与世界建模协同训练框架。普通强化学习只用"做了什么动作、得了多少分"来更新模型,而PaW额外利用了训练过程中产生的"动作之后环境变成什么样"这一信息,让模型同时学会预测下一步的环境状态。整个过程共用同一套训练数据,不需要额外的模型或数据采集,推理时也没有任何额外开销。

Q2:截断MAE损失为什么比交叉熵损失更适合世界建模训练?

A:在网购、家务等真实环境里,观测文本中包含大量随机字符(如商品编号、品牌名等),根本无法从语义上预测。标准交叉熵损失对这类低概率预测的惩罚会成倍放大,导致模型把大量优化资源花在"记噪声"上,反而干扰了主任务的策略学习。截断MAE损失对低概率词元的惩罚是线性的,加上置信度截断机制,只关注"还没学会且值得学"的内容,避免了这种干扰,实验显示替换损失函数后WebShop成功率提升超过11个百分点。

Q3:PaW在强化学习完全学不动的情况下真的有效吗?

A:有实验证据支持。用Llama3.2-3B模型在WebShop上做普通GRPO训练,训练150步后成功率仍接近零,奖励信号极度稀疏,训练陷入停滞。加入PaW后,世界建模损失提供了密集的学习信号——每一步都在预测环境变化,不依赖任务是否成功。模型借此积累了对环境的理解,逐渐产生成功轨迹,最终成功率从4.0%跃升至62.2%,提升了58.2个百分点。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-