微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

腾讯研究团队发明AI智能体训练新方法：让机器学会"从成功中学习"

强化学习自我模仿学习智能体训练

腾讯研究团队发明AI智能体训练新方法：让机器学会"从成功中学习"

作者：科技行者

2025-10-17 14:07

分享至：

腾讯优图实验室提出SPEAR方法，通过建立AI"成功经验库"和渐进式探索策略，解决智能体训练中的探索-利用平衡难题。该方法在虚拟环境、网购模拟和数学解题等任务中显著提升AI表现，仅增加10%-25%计算开销却带来高达20%的性能改进，为AI智能体实用化部署提供重要技术突破。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-17 14:07 • 科技行者

这项由腾讯优图实验室的覃宇雷、谭晓宇、何正豹等多位研究者领导的研究，发表于2025年9月的arXiv论文库，论文编号为arXiv:2509.22601v2。研究团队还包括来自上海交通大学、北京大学、复旦大学、厦门大学等高校的学者。这个名为SPEAR（Self-imitation with Progressive Exploration for Agentic Reinforcement Learning）的创新训练方法，就像给AI智能体配备了一个"经验回忆录"，让它能从自己的成功经历中不断学习和改进。

当前的AI智能体就像初学者一样，面对复杂任务时往往需要大量的试错过程。比如让AI学会使用各种工具解决数学问题、在网上购物或者操控虚拟环境，这些都需要多步骤的决策和行动。传统的训练方法就像让学生在考试中随机答题，没有充分利用之前成功的经验。研究团队发现，现有的强化学习方法在训练这类长期任务的AI时，容易陷入两个极端：要么过度保守不敢尝试新方法，要么过于激进导致行为不稳定。

这个问题就好比学习开车。新手司机刚开始可能会各种尝试，有时过于谨慎在路上龟速行驶，有时又过于大胆导致危险驾驶。SPEAR方法的核心思想是让AI建立一个"成功驾驶经历档案"，每当它成功完成一次任务，就把这次的操作步骤记录下来，作为未来参考的宝贵经验。同时，这个方法还设计了一个渐进式的学习过程，让AI先学会使用基本工具，再逐步掌握复杂的策略组合。

一、传统AI训练的困境：在探索与保守间摇摆

要理解SPEAR方法的创新之处，我们首先需要了解当前AI智能体训练面临的核心挑战。现在的AI训练就像教一个人学习复杂的手工艺，比如制作精美的陶瓷。传统方法往往让学习者在没有任何指导的情况下自己摸索，结果要么过于小心翼翼只会做最简单的泥坯，要么过于激进把陶土搞得一团糟。

当AI智能体需要处理长期任务时，这个问题变得更加突出。以让AI学习使用计算器解决复杂数学问题为例，传统的训练方法经常遇到所谓的"熵坍塌"问题。熵在这里可以理解为AI行为的多样性程度。当熵过低时，AI就像一个只会背诵公式的学生，遇到新题型就束手无策；当熵过高时，AI又像一个完全没有章法的人，随意按计算器按键，完全没有逻辑可言。

更复杂的是，现有的训练方法往往只关注最终结果的好坏，而忽略了过程中的学习价值。这就像只告诉学生考试成绩，却不分析错题和解题过程。研究团队发现，很多AI在训练过程中会偶然找到正确的解决方案，但由于缺乏有效的经验积累机制，这些宝贵的成功经历很快就被遗忘了。

传统的组相对策略优化（GRPO）方法虽然在某些方面有所改进，但仍然存在明显不足。这种方法就像让学生在小组中相互比较，虽然能提供一些相对的反馈，但缺乏绝对的标准和历史经验的积累。当面对真正具有挑战性的长期任务时，这种方法往往显得力不从心。

研究团队通过大量实验发现，现有方法在处理需要多步骤工具使用的任务时，经常出现训练不稳定的情况。AI可能在某一阶段表现很好，但随着训练的进行，性能却开始下降。这种现象在需要使用代码解释器、网络搜索工具或虚拟环境操作的任务中尤为明显。

二、SPEAR方法的核心理念：建立AI的"成功经验库"

面对这些挑战，研究团队提出了SPEAR方法，这个名字本身就体现了其核心理念：Self-imitation with Progressive Exploration，即"渐进式探索的自我模仿学习"。如果把AI的学习过程比作一个人成长的历程，那么SPEAR就是在教AI如何建立和使用自己的"成功日记"。

SPEAR的第一个核心组件是"经验重放缓冲区"，这就像给AI配备了一个专门的记忆库。每当AI成功完成一项任务，系统就会自动将这次的完整操作序列保存下来，包括遇到的问题、采取的行动、使用的工具以及最终的结果。这个记忆库不是简单的流水账，而是经过精心筛选的优质经验集合。

与人类学习不同的是，AI可以完美地重现之前的成功经历。SPEAR充分利用了这个优势，让AI定期回顾这些成功案例，从中提取有价值的行为模式。这个过程类似于优秀的运动员通过反复观看自己成功比赛的录像来改进技术动作。

SPEAR的第二个创新点是"渐进式探索策略"。传统方法往往一开始就让AI面对完整的复杂任务，这就像让一个从未接触过音乐的人直接演奏交响乐。SPEAR采用了更加人性化的学习路径：首先让AI掌握基本的工具使用技能，比如学会正确调用计算器、搜索引擎或代码执行器；然后逐步过渡到学习如何组合这些工具来解决复杂问题。

这种渐进式策略通过一个巧妙的"课程调度"机制来实现。在训练的早期阶段，系统会给予AI更多的内在奖励，鼓励它大胆尝试各种工具和方法。随着训练的深入，这些内在奖励逐渐减少，而对最终结果正确性的要求则相应提高。这就像学习驾驶时，教练一开始会鼓励学员多练习基本操作，后期则更注重实际道路驾驶的安全性和效率。

三、优势重新校准：让过往经验保持时效性

SPEAR方法面临的一个技术挑战是如何处理"过时经验"的问题。AI在学习过程中不断进步，今天的成功经验可能对明天已经升级的AI来说价值有限。这就像一个不断进步的棋手，初学阶段的获胜棋谱对高水平阶段的参考价值会逐渐降低。

为了解决这个问题，研究团队设计了"优势重新校准"机制。这个机制的工作原理类似于给历史经验重新评分。系统会维护一个动态的基准线，反映当前AI的平均表现水平。当回顾历史成功经验时，系统会根据这个新的基准线重新评估这些经验的价值。

具体来说，系统会保存最近一段时间AI的平均表现数据，然后用这个数据来重新计算历史经验的"优势值"。如果一个历史经验在当前水平下仍然表现突出，它就会被保留并继续用于学习；如果它的表现已经低于当前平均水平，就会被从经验库中移除。这种机制确保了经验库始终保持高质量，不会被过时的低水平经验所污染。

这个重新校准过程还避免了重复计算的开销。传统的自我模仿学习方法每次使用历史经验时都需要重新计算各种指标，这不仅耗时还可能引入计算误差。SPEAR通过智能的增量更新策略，大大提高了计算效率。

四、熵正则化：在保守与激进间找到平衡

AI训练中的另一个关键挑战是控制"策略熵"，这个概念可以用一个简单的比喻来理解。策略熵就像衡量一个人行为可预测性的指标。熵值高意味着行为多样且难以预测，就像一个充满创意但有时会做出意外决定的艺术家；熵值低则意味着行为模式固定，就像一个严格按照程序操作的工厂工人。

对于AI智能体来说，适当的熵值至关重要。太低的熵会让AI过度保守，只会重复已知的安全操作，无法应对新情况；太高的熵则会让AI行为过于随机，失去解决问题的逻辑性。SPEAR通过精心设计的正则化机制来维持这个微妙的平衡。

研究团队发现，当AI使用自我模仿学习时，容易陷入"熵坍塌"的陷阱。这种现象类似于一个学生过度依赖标准答案，逐渐失去独立思考的能力。为了防止这种情况，SPEAR引入了"协方差剪切"技术。这个技术的工作原理是识别那些与奖励高度相关的行为模式，然后有选择地降低对这些模式的过度依赖。

具体来说，系统会分析AI的每个决策与最终奖励之间的关联性。如果发现某些决策过度影响了奖励的获得，系统就会在训练过程中适当"忽略"这些决策的梯度更新。这就像提醒学生不要过度依赖某个特定的解题技巧，而要培养多样化的问题解决能力。

SPEAR还采用了"热身调度"机制来平滑这个过程。在训练的早期阶段，自我模仿的权重较低，AI主要通过正常的探索来学习；随着训练的进行，自我模仿的权重逐渐增加，让AI更多地参考成功经验。这种渐进式的调整避免了突然的行为模式变化，保证了训练过程的稳定性。

五、内在奖励设计：从工具使用到策略制定

SPEAR的另一个创新之处在于其精心设计的内在奖励系统。这个系统就像为AI设计了一套个人成长激励机制，不仅关注最终结果，还鼓励学习过程中的积极行为。

内在奖励系统包含三个主要组成部分。首先是"结果奖励"，这是最直接的反馈，相当于考试成绩，要么成功得到正分，要么失败得到负分。这种二元化的奖励虽然简单明确，但对于复杂的多步骤任务来说，反馈信息往往过于稀疏。

为了解决这个问题，SPEAR引入了"工具调用奖励"。这种奖励机制鼓励AI积极使用各种可用工具，比如计算器、代码执行器或搜索引擎。奖励的数量与AI使用工具的次数成正比，但设有上限以防止无意义的重复操作。这就像鼓励学生多使用字典和参考书，但不希望他们为了获得奖励而无目的地翻阅。

第三种是"格式奖励"，这是一个看似简单但实际上很重要的设计。当AI的输出符合预期格式时（比如在代码块中包含实际代码，在思考标签中包含推理过程），系统会给予小额奖励。这种奖励培养了AI良好的"表达习惯"，使其输出更加规范和易于理解。

特别值得注意的是，这三种奖励的权重会随着训练进程动态调整。在训练初期，工具调用奖励占较大比重，鼓励AI大胆尝试各种工具；随着训练深入，结果奖励的权重逐渐增加，促使AI更加关注任务的实际完成质量。这种动态调整避免了AI为了获得内在奖励而偏离主要目标的问题。

六、Dr.BoT基准：集成工业级优化技术

除了提出SPEAR方法外，研究团队还开发了一个名为Dr.BoT的强化基准系统。这个系统的名称暗示了其"医生"般的诊断和治疗能力，专门针对现有AI训练方法的各种"病症"提供解决方案。

Dr.BoT集成了多项经过工业验证的优化技术。首先是移除KL散度约束，这个技术听起来很专业，但其实质是给AI更大的学习自由度。传统方法往往会限制AI的行为变化幅度，担心过大的变化会导致性能下降。Dr.BoT的做法就像放宽了对学生答题方式的限制，允许他们采用更多样化的解题思路。

第二个优化是"高位剪切"技术。在传统的训练过程中，系统会限制AI行为变化的上下边界。Dr.BoT提高了上边界的限制，这相当于给AI更多向好的方向改进的空间，同时保持对负面变化的严格控制。这种不对称的处理方式反映了"奖励进步，限制退步"的教育理念。

Dr.BoT还移除了组内标准化步骤。这个技术性改进的实际意义是让系统能够更好地处理难度不同的任务。传统方法可能会因为某些任务特别简单或特别困难而产生偏见，Dr.BoT通过移除这种标准化，让系统能够更公平地对待各种难度的任务。

除此之外，Dr.BoT还包含了长度过滤、空白轮次过滤等多项实用功能。这些功能就像给AI配备了质量检查机制，自动过滤掉那些明显有问题的训练样本，比如过长的无意义输出或者完全没有进行工具调用的无效尝试。

七、实验验证：三大任务场景的全面测试

为了验证SPEAR方法的有效性，研究团队在三个具有代表性的任务场景中进行了全面测试。这三个场景分别代表了AI智能体应用的不同方向：虚拟环境交互、现实世界任务模拟和复杂问题解决。

第一个测试场景是ALFWorld，这是一个文本化的虚拟家庭环境。在这个环境中，AI需要通过自然语言指令来完成各种家务任务，比如"把热过的土豆放到垃圾桶里"或"用台灯照亮茶杯"。这些任务看似简单，但实际上需要AI理解复杂的物理关系和因果逻辑。比如要加热土豆，AI需要先找到土豆，然后找到微波炉，打开微波炉，放入土豆，设定时间，等待完成，最后取出土豆。整个过程涉及多个步骤，任何一步出错都会导致任务失败。

测试结果显示，使用SPEAR方法训练的AI在ALFWorld环境中的成功率有了显著提升。以1.5B参数的Qwen2.5模型为例，传统GRPO方法的总体成功率为72.8%，而使用SPEAR后提升到88.9%，增幅达到16.1%。更令人印象深刻的是，在某些特定任务上，比如"清洁并放置"类型的任务，成功率从84.5%提升到96.4%，几乎达到了完美水平。

第二个测试场景是WebShop，这是一个模拟在线购物的环境。AI需要根据用户需求在虚拟的电商网站上搜索、比较和购买商品。这个任务考验的是AI的信息处理能力和决策逻辑。比如用户要求"买一个蓝色的、小号的、价格在50美元以下的T恤"，AI需要使用搜索功能找到相关商品，然后在众多选项中筛选出符合所有条件的产品。

在WebShop环境中，SPEAR的表现同样出色。以7B参数模型为例，传统方法的购物成功率为66.1%，使用SPEAR后提升到84.6%，改进幅度达到18.5%。这意味着AI在理解复杂购物需求和执行多步骤操作方面都有了质的提升。

第三个测试场景是DAPO-Math-17K，这是一个竞赛级数学问题解决任务。AI需要使用代码解释器来解决复杂的数学问题，这些问题通常来自奥林匹克竞赛，需要高级的数学推理能力和编程技巧。比如解决一个关于数论的问题，AI可能需要编写程序来计算大数的性质，验证数学猜想，或者进行复杂的几何计算。

在这个最具挑战性的任务中，SPEAR同样展现了其优势。在AIME 2024（美国数学邀请考试）的问题上，使用SPEAR的AI正确率从64.7%提升到66.3%，在AIME 2025上从54.0%提升到60.1%。虽然提升幅度看似较小，但考虑到这些都是人类数学天才才能解决的超难题，这样的改进已经具有重要意义。

八、技术深入：架构设计与实现细节

SPEAR方法的成功不仅在于其整体设计理念，更在于许多精巧的技术实现细节。整个系统的架构就像一座精密的时钟，每个组件都有其特定的作用，而且彼此之间协调配合。

经验重放缓冲区的设计采用了智能的存储策略。系统不是简单地按时间顺序存储经验，而是维护一个动态的优先级队列。新的成功经验会根据其质量被分配不同的优先级，高质量的经验会被保留更长时间。同时，系统还会定期清理那些已经过时或质量下降的经验，确保缓冲区始终保持最优状态。

在优势重新校准方面，SPEAR使用了一个滑动窗口机制来估计当前策略的基准性能。这个窗口的大小是动态调整的：当AI性能稳定时，窗口较大，提供更平滑的基准估计；当性能快速变化时，窗口较小，能够快速适应新的性能水平。这种自适应机制确保了重新校准的准确性和及时性。

熵正则化模块使用了一种创新的"协方差感知"剪切策略。系统会实时监控每个决策与奖励之间的统计关系，当发现某些决策过度主导奖励时，就会在梯度更新中降低这些决策的权重。这个过程是动态的，不会永久性地抑制任何特定的行为模式，而是在保持探索性的同时避免过度拟合。

内在奖励的计算也经过了精心设计。工具调用奖励使用了递减函数，前几次工具使用获得较高奖励，后续使用的奖励逐渐降低，这样既鼓励了工具使用，又避免了无意义的重复操作。格式奖励则使用了二元开关，只要输出格式正确就给予固定的小额奖励，简单但有效。

九、性能分析：计算开销与实际收益

任何新的训练方法都需要在性能改进和计算成本之间找到平衡。SPEAR在这方面表现出了良好的工程实用性，其额外的计算开销相对有限，而性能收益却相当可观。

从理论复杂度分析来看，SPEAR主要增加了两部分计算开销。第一部分是经验重放的前向和反向传播计算，这部分的开销与重放样本的数量成正比。第二部分是优势重新校准和各种正则化操作，这些操作的计算量相对较小。总体而言，SPEAR的额外计算开销约为原始训练成本的10%-25%。

在实际运行时间测试中，研究团队发现SPEAR的时间开销甚至更小。这是因为经验重放使用的是已经生成的轨迹数据，避免了重复的环境交互成本，而环境交互往往是整个训练过程中最耗时的部分。在ALFWorld和WebShop任务中，使用SPEAR的训练时间与基准方法几乎相同；在更复杂的数学问题解决任务中，时间开销增加了约5%-26%，但这个增加主要是由于AI生成了更长、更复杂的推理过程。

内存使用方面，SPEAR需要维护经验重放缓冲区和基准性能缓冲区，但这些缓冲区的大小都是可配置的。在实验中，研究团队使用了2048个轨迹的重放缓冲区和10240个基准值的性能缓冲区，这些存储需求相对于现代GPU的内存容量来说是完全可以接受的。

更重要的是，SPEAR带来的性能改进完全证明了这些额外成本的合理性。在某些任务上，20%的性能提升意味着AI能够解决更多实际问题，这种能力的价值远远超过了modest的计算成本增加。

十、扩展应用：视觉智能体的初步验证

为了验证SPEAR方法的通用性，研究团队还在视觉智能体任务上进行了初步测试。他们选择了Sokoban（推箱子）游戏作为测试场景，这是一个经典的空间推理问题，需要AI通过视觉信息理解环境并制定移动策略。

在Sokoban任务中，AI需要控制一个角色在网格世界中移动，将箱子推到指定位置。这个任务不仅需要空间推理能力，还需要长期规划能力，因为错误的移动可能导致箱子被困在死角，使得任务无法完成。使用Qwen2.5-VL-3B-Instruct模型进行测试，结果显示SPEAR在所有测试的基准方法上都取得了改进。

具体来说，在基础GRPO方法上，成功率从67.1%提升到86.7%，改进幅度达到19.6%。在更复杂的GiGPO变体上，也有6.7%的稳定提升。这些结果表明，SPEAR的核心原理不仅适用于基于文本的智能体任务，同样适用于需要视觉理解的复杂任务。

视觉智能体任务的成功验证具有重要意义，因为它表明SPEAR方法具有良好的模态泛化能力。无论是处理文本、代码还是视觉信息，SPEAR的自我模仿学习机制都能够有效地帮助AI从成功经验中学习。这为SPEAR在更广泛的AI应用场景中的部署奠定了基础。

十一、深入分析：AI能力的质的变化

通过详细的案例分析，研究团队发现SPEAR不仅提升了AI的任务完成率，更重要的是改变了AI解决问题的方式和质量。这种变化是质的飞跃，而不仅仅是量的改进。

在数学问题解决方面，使用SPEAR训练的AI展现出了更加成熟的编程能力。训练前，AI编写的代码主要用于简单的计算和验证；训练后，AI学会了编写复杂的矩阵运算程序，能够进行高效的数值计算和解决方案验证。这种进步类似于从使用计算器的算术水平跃升到使用专业软件进行科学计算的水平。

在网购任务方面，AI的策略也发生了根本性改变。训练前，AI往往陷入"完美主义陷阱"，试图通过不断重复搜索来找到完全符合所有条件的商品，结果经常因为搜索次数限制而失败。训练后，AI学会了更加实用的购物策略：先进行粗略搜索找到大致符合要求的商品类别，然后进入具体商品页面查看详细信息，最后根据实际可选项做出权衡决策。这种策略更接近人类的实际购物行为。

在虚拟环境操作方面，AI的空间理解能力也有了显著提升。训练前，AI经常在环境中"迷路"，重复执行无效操作；训练后，AI能够建立更好的空间记忆，规划更高效的行动路径。比如在执行"把热过的土豆放到垃圾桶"这个任务时，训练后的AI会先规划整个任务序列，确定土豆、微波炉和垃圾桶的位置关系，然后按照最优路径执行，避免了无效的往返移动。

十二、技术局限与未来展望

尽管SPEAR方法取得了显著成功，但研究团队也诚实地指出了当前方法的一些局限性，并提出了未来的改进方向。

首先是"好经验"定义的模糊性问题。在高度复杂和随机的环境中，成功和失败的界限可能不那么清晰。比如在包含不可靠工具或噪声环境的任务中，AI可能因为运气好而成功，这样的经验可能并不值得模仿。目前SPEAR主要依赖稀疏的结果奖励来判断经验质量，这种方法在某些情况下可能不够精确。

研究团队建议的解决方案是引入更细粒度的过程监督。比如使用另一个AI模型来评估每个工具调用的合理性，或者设计逐步奖励机制来评估每个决策的逻辑一致性。虽然这会增加系统复杂性，但能够提供更准确的经验质量评估。

第二个局限是熵控制机制的刚性。当前的协方差剪切和热身调度都是基于预设规则的，可能不适应所有类型的任务。不同任务可能需要不同的探索-利用平衡策略，而目前的方法还不能自动适应这种差异。

对此，研究团队提出了自适应熵控制的设想。系统可以根据任务的复杂性、AI的当前性能和学习进度来动态调整熵控制参数。这类似于为每个学生定制个性化的学习计划，而不是使用统一的教学方法。

第三个挑战是计算效率的进一步优化。虽然SPEAR的额外开销相对可控，但随着模型规模和任务复杂性的增加，这些开销可能变得更加显著。特别是在部署到资源受限的环境中时，这个问题会更加突出。

研究团队正在探索几种优化策略，包括经验重放的异步处理、优势重新校准的近似算法，以及基于重要性采样的高效经验选择方法。这些技术有望在保持SPEAR效果的同时显著降低计算成本。

说到底，SPEAR方法代表了AI智能体训练领域的一个重要进步。它巧妙地解决了长期困扰研究者的探索-利用平衡问题，为AI智能体的实用化部署提供了新的技术路径。虽然还存在一些局限性，但其核心理念和技术框架为未来的研究奠定了坚实基础。

随着AI技术的不断发展，我们有理由相信，类似SPEAR这样的创新方法将帮助AI智能体在更多实际应用场景中发挥作用。从个人助手到专业工具，从教育辅导到科学研究，训练更加智能、可靠和高效的AI系统正在成为现实。对于关注AI发展前沿的读者，这项研究无疑提供了一个观察未来技术趋势的重要窗口。

Q&A

Q1：SPEAR方法是什么？它解决了AI训练的什么问题？