这项由快手科技Klear团队的张鸿志、傅佳、张靖远、傅凯、王琦、张富征和周国睿等研究人员合作完成的研究发表于2025年7月,论文标题为"RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning"。有兴趣深入了解的读者可以通过https://github.com/Kwai-Klear/RLEP 访问完整代码、数据集和模型检查点。
当你第一次尝试爬一座陡峭的山峰时,你可能会选择几条不同的路线进行探索,最终找到一条能够到达某个高度的路径,但由于体力耗尽只能止步于此。第二次攀登时,聪明的做法是什么?你会沿着之前成功的路线快速到达上次的最高点,然后继续向更高的峰顶前进。这正是快手团队在人工智能领域的一个巧妙发现——让AI系统像经验丰富的登山者一样,通过重复成功的经验来实现更高效的学习。
在人工智能快速发展的今天,让计算机像人类一样进行复杂推理已经成为一个重要突破口。OpenAI的o1模型、DeepSeek的R1模型以及阿里的Qwen3模型都在这个方向上取得了显著进展,它们能够解决复杂的数学问题、进行逻辑推理,甚至处理需要多步思考的复杂任务。这些模型的成功很大程度上依赖于强化学习技术,这是一种让AI通过试错来学习的方法,就像教孩子学习一样——做对了给奖励,做错了给惩罚。
然而,当前的强化学习训练过程就像一个耗费巨大体力的马拉松比赛。AI系统需要不断地探索、尝试、犯错、修正,这个过程不仅消耗大量的计算资源,而且训练往往不够稳定。更让人头疼的是,随着训练的进行,AI系统可能会逐渐偏离它最初学到的知识,就像一个学生在学习新知识时忘记了之前掌握的基础内容。
快手团队提出的RLEP(Reinforcement Learning with Experience Replay)解决方案就像是给AI系统配备了一个"成功经验回放器"。这个方法分为两个阶段:首先是经验收集阶段,就像登山者在第一次攀登时仔细记录每一条成功的路径;然后是经验重放训练阶段,在后续的训练中,AI系统会将这些成功的经验与新的探索相结合,既能快速到达之前的高度,又能继续向更高的目标前进。
这种方法的核心思想非常直观:如果你已经知道某种解决问题的方法是有效的,为什么要完全抛弃它,而是重新从零开始探索呢?通过重复播放那些已经验证过的成功案例,AI系统可以更加稳定地学习,避免在无效的探索上浪费时间和资源。
研究团队使用Qwen2.5-Math-7B模型进行了大量实验,结果令人印象深刻。在AIME-2024数学竞赛题目上,准确率从38.2%提升到39.9%;在AIME-2025题目上,从19.8%提升到22.3%;在AMC-2023题目上,从77.0%大幅提升到82.2%。更重要的是,RLEP不仅提高了最终性能,还大大加快了训练速度,让AI系统能够用更少的训练步骤达到传统方法的峰值性能。
一、强化学习的挑战:像走钢丝一样的平衡艺术
要理解RLEP的创新之处,我们首先需要了解传统强化学习在训练大型语言模型时面临的挑战。这就像是一个需要同时juggling多个球的杂技演员,必须在三个关键方面保持完美平衡。
第一个挑战是学习能力。AI系统必须能够从每次探索中吸收有用的知识,就像一个学生需要从每次练习中学到新的解题技巧。如果学习能力不足,即使进行了大量的探索,系统也无法真正改善自己的表现。这就好比一个人反复练习钢琴,但如果不能从每次练习中总结经验,技能就不会有实质性提升。
第二个挑战是保持稳定性。在强化学习过程中,AI系统会不断调整自己的参数,就像调音师调整钢琴的音准。但如果调整过于激进,系统可能会偏离原本的良好状态,甚至出现"灾难性遗忘"现象——在学习新技能的同时丢失了之前掌握的能力。这就像一个原本会多种语言的人,在学习新语言时反而忘记了母语的一些词汇。
第三个挑战是探索能力。AI系统需要能够发现新的、有价值的解决方案,而不是总是重复相同的模式。这就像一个探险家需要在已知的安全区域和未知的新领域之间找到平衡。如果过于保守,就会错过更好的解决方案;如果过于激进,又可能陷入完全无效的探索。
为了应对这些挑战,研究界已经开发了一些技术手段。比如DAPO和DrGRPO方法引入了"token-mean"目标函数,这种方法在处理长序列时能够更好地保持学习信号的强度。另一个重要技术是"clip-higher",它对正向和负向的学习信号采用不同的处理策略,防止AI系统在学习过程中失去探索新解决方案的能力。还有高熵token更新策略,它能够在提高效率的同时保持训练的稳定性。
然而,即使采用了这些先进技术,强化学习训练仍然是一个"能量密集型"的过程。AI系统需要从当前状态出发,在奖励信号的指导下探索可能的推理路径,然后将学到的知识整合到自身的参数中。随着训练的进行,系统可能会遇到训练不稳定和权重漂移的问题,导致性能达到一个平台期,甚至出现倒退。这就像一个运动员在高强度训练后可能会出现疲劳和状态下滑一样。
二、登山者的智慧:经验重放的核心理念
RLEP的灵感来源于一个简单而深刻的观察:成功的经验应该被珍视和重复利用。就像一个经验丰富的登山向导会将成功的路线记录下来,供后续的攀登者参考一样,AI系统也应该能够从之前的成功经验中学习。
这种经验重放的概念在强化学习领域并不陌生。早在1992年,研究人员就提出了经验重放的基本框架,后来这个概念被成功应用到深度强化学习中,特别是在DeepQ-Networks(DQN)中发挥了关键作用。优先经验重放(PER)更是进一步提升了采样效率,让AI系统能够更聪明地选择哪些经验值得重复学习。
在大型语言模型的强化学习训练中,经验重放技术也开始受到关注。现有的一些方法主要关注如何处理"困难样本"——那些当前模型还无法正确解决的问题。比如EFRAME方法会对这些困难案例进行额外的尝试,只保留那些被判定为有价值的轨迹。Rollout-Rescue机制采用了更直接的策略:当训练遇到失败时,它会随机用之前缓存的正确答案替换错误的响应。LUFFY方法则利用强大的离线指导(如DeepSeek R1)来处理那些缺乏正确在线回答的提示。
RLEP的创新之处在于它采用了一种更加全面和系统的方法。与那些只关注困难样本的方法不同,RLEP会收集来自已收敛策略的轨迹,这些轨迹本身就具有内在的稳定性。然后,它会从头开始重新训练,在新的探索和这些稳定的轨迹之间找到平衡。重放能够加速收敛并平滑学习过程,而新的探索则保护了系统的探索能力。
更重要的是,RLEP将经验重放应用到所有提示上,而不是仅仅限制在困难案例上。这种做法将重放的好处扩展到了整个训练分布,让每个样本都能从成功经验中受益。这就像一个优秀的教练不仅会帮助学生克服困难,还会让他们反复练习已经掌握的技能,以达到更高的熟练度。
三、RLEP的工作原理:两阶段训练策略
RLEP的工作流程就像一个精心设计的两幕剧。第一幕是经验收集阶段,第二幕是重放训练阶段,两个阶段相互配合,共同实现更高效的学习。
在经验收集阶段,研究团队首先使用传统的强化学习方法训练一个基础模型。这个过程就像让一个新手登山者独自探索山峰,虽然过程艰难,但最终能够找到一些可行的路径。具体来说,这个基础模型会对每个数学问题生成多个候选答案,然后通过验证系统检查这些答案的正确性。所有能够得到正确答案的推理轨迹都会被仔细记录下来,形成一个"经验池"。
这个经验池就像一个珍贵的宝库,里面存储着各种成功的解题路径。对于每个问题,系统都会维护一个专门的经验池,确保有足够的成功案例可供后续学习。研究团队要求每个问题至少要有两个验证过的正确推理路径,这样可以保证经验的多样性和可靠性。
在重放训练阶段,真正的魔法开始发生。每当系统需要进行一次训练更新时,它会采用一种混合策略:一部分样本来自当前模型的新探索,另一部分样本来自经验池中的成功案例。这就像一个登山者在攀登过程中,既会尝试新的路线,也会沿着之前成功的路径前进。
具体的训练过程是这样的:系统首先让当前模型生成一组新的候选答案,比如16个新的推理轨迹。然后,它会从经验池中随机抽取一些成功的轨迹,比如2个,将它们与新生成的轨迹合并,形成一个包含18个轨迹的扩展组。接下来,系统会在这个混合组上计算优势函数和策略梯度,进行参数更新。
这种混合策略的巧妙之处在于它能够同时利用两种不同类型的信息。来自经验池的成功轨迹为系统提供了稳定的学习信号,帮助它快速恢复到之前的最佳状态。而新生成的轨迹则确保系统不会停滞不前,仍然保持探索新解决方案的能力。
为了确保这种混合策略的有效性,研究团队采用了改进的GRPO(Group Relative Policy Optimization)算法。这个算法的核心思想是通过群体比较来计算每个轨迹的优势。简单来说,如果一个轨迹的奖励高于群体平均值,它就会被强化;如果低于平均值,就会被抑制。
更进一步,研究团队还采用了两个重要的技术改进。第一个是"token-mean"策略,它不是简单地对整个序列进行平均,而是对每个token的对数概率比率进行平均。这种方法能够防止长的错误序列被过度惩罚,同时保持长的正确序列的学习信号。第二个是"clip-higher"策略,它对正向和负向的优势采用不同的裁剪界限,这种不对称的处理能够减轻强化学习过程中的熵坍塌问题。
四、实验设计:构建强大的基准系统
为了验证RLEP的有效性,研究团队首先需要构建一个强大的基准系统。这就像在测试新的跑车性能之前,你需要先确保测试跑道和对比车辆都是顶级水准的。
研究团队选择了Qwen2.5-Math-7B作为基础模型,这是一个专门为数学推理任务优化的大型语言模型。他们从DAPO方法的推荐参数设置开始,然后进行了一系列精心的调整,最终在AIME-2024、AIME-2025和其他数据集上获得了稳定的性能提升。
在训练策略方面,研究团队采用了token-mean、clip-higher和过长奖励塑形等策略,同时保持了Verl框架中的大部分默认设置。考虑到推理生成是整个训练过程中最耗时的部分,他们有意省略了动态采样加速方案,而是专注于调整其他关键参数来构建更强的基准。
一个关键的发现是关于mini-batch大小的重要性。原始配置使用512个样本进行推理,然后进行16次actor更新,每次使用32个样本的mini-batch。虽然这种设置收敛很快,但研究团队观察到在训练后期,BoN(Best of N)和Maj@N(Majority at N)准确率都会出现下降。通过将mini-batch大小增加到64,即每次推理后进行8次更新,训练稳定性得到了显著改善。
这个看似简单的调整实际上反映了强化学习中的一个重要原理。在标准的监督微调中,批量大小通常只有适度的影响。但在强化学习中,每次推理后都会进行几次策略更新步骤,批量大小直接影响受到优势裁剪操作影响的样本比例。这种耦合关系使得批量大小在强化学习中变得更加重要。
实验结果显示了几个有趣的模式。DAPO方法与动态采样确实能够获得更高的准确率,证明了动态采样的积极作用。在比较不同PPO训练mini-batch大小时,32样本的mini-batch在开始时学习更快,但64样本的mini-batch最终收敛到更高的准确率,并且具有更平滑的Maj@32曲线。DAPO-nodyn-bs64甚至在整体准确率上略微超过了DAPO,消除了移除动态采样的影响。
从实际运行时间来看,每个DAPO更新在步骤230之前大约需要220秒,而DAPO-nodyn-bs64只需要大约160秒。在步骤230之后,DAPO的单步时间攀升到大约360秒,因为需要额外的推理来填充批次。综合考虑速度和准确率,研究团队选择了DAPO-nodyn-bs64配置作为后续RLEP实验的基础。
实验还揭示了强化学习训练的一个普遍模式:模型准确率在训练开始时快速攀升,但随着不稳定性的累积和策略偏离初始权重,整体准确率最终会达到平台期,甚至可能下降。这种现象再次证明了强化学习训练确实是一个"能量密集型"的过程。
五、突破性成果:数字背后的真实意义
RLEP的实验结果不仅在数字上令人印象深刻,更重要的是它们揭示了一种全新的训练范式的潜力。这些结果就像一面镜子,反映出经验重放在AI推理训练中的深层价值。
研究团队从DAPO-nodyn-bs64基准开始,训练了400个PPO步骤,mini-batch大小为64,以构建经验池。对于每个问题,策略会采样64个候选答案,使用温度0.7和top-p 0.95的设置。只有经过奖励模型验证为正确的答案才会被保留,研究团队要求每个问题至少要有两个这样的有效推理路径。
在RLEP阶段,每个问题会接收16个新的在线推理加上2个重放的答案,所有其他超参数都与基准保持一致。值得注意的是,每步运行时间相对于DAPO-nodyn-bs64基准增加不到5秒,使得整体训练时间基本保持不变。这意味着RLEP不仅提高了性能,还保持了训练效率。
实验结果显示了两个关键优势。首先是快速的早期收益。通过重放经验,准确率在训练开始时就急剧上升。在AIME-2024数据集上,RLEP在第135步就达到了基准的峰值性能,而基准需要380步才能达到。在AIME-2025上,它在仅仅50步后就超过了基准的最佳得分。重放的轨迹引导模型远离无效的早期探索和困难的推理路径,就像一个经验丰富的向导带领登山者避开危险的路线。
更重要的是更高的最终性能。RLEP不仅仅是加速收敛,它还能达到更高的最终水平。在AIME-2024上,最佳准确率从38.2%提升到39.9%,在AIME-2025上从19.8%提升到22.3%。在未见过的AMC-2023数据集上进行离线评估时,准确率从77.0%上升到82.2%。这些结果表明,利用先前的经验使RLEP能够收敛到更优的解决方案。
这些数字背后的深层含义是什么?它们表明AI系统可以像人类专家一样,通过积累和重复使用成功经验来实现持续改进。人类数学家在解决复杂问题时,往往会回忆起类似问题的解决方案,然后在此基础上进行创新。RLEP实现了类似的机制,让AI系统能够站在"前人的肩膀上"继续前进。
研究团队还进行了一个有趣的对比实验:他们测试了是否在重放缓冲区中补充失败的答案能够帮助策略避免糟糕的解决方案。结果显示,重放成功和不成功的轨迹相比仅重放正向案例没有可测量的改善。这个发现很有启发性:错误模式在不同模型和训练阶段之间变化很大,错误空间过于宽泛,对这些异质错误的不似然更新对当前策略提供的帮助很少。
六、技术创新:算法层面的突破
RLEP的成功不仅仅在于其直观的思路,更在于其在算法层面的精心设计。研究团队需要解决一个关键问题:如何将来自不同时间和不同策略的轨迹有效地结合在一起进行训练?
这个问题的复杂性在于,重放的轨迹是由之前的策略生成的,而新的轨迹是由当前策略生成的。这两种轨迹在概率分布上可能存在显著差异,直接混合可能导致训练不稳定。研究团队的解决方案是扩展GRPO算法,使其能够处理这种异质性。
在传统的GRPO算法中,系统会对一组同质的轨迹计算群体优势,然后使用这些优势来更新策略。在RLEP中,研究团队将这个过程扩展到混合组,其中包括新生成的轨迹和重放的成功轨迹。关键的创新在于,他们在整个混合组上计算优势函数,这样重放的成功轨迹和新的推理共享一个共同的基线。
具体来说,如果有G个新轨迹和M个重放轨迹,总共G' = G + M个轨迹,那么优势函数的计算公式变为:
A_{i,t} = (r_{i,t} - mean{r_{1,t}, ..., r_{G',t}}) / std{r_{1,t}, ..., r_{G',t}}
这种设计确保了重放的轨迹不会简单地因为它们的高奖励而总是被强化,而是相对于当前混合组的整体表现来评估。这种相对评估机制是RLEP能够稳定工作的关键因素。
另一个重要的技术细节是importance ratio的计算。对于重放的轨迹,系统需要计算当前策略相对于原始策略的重要性比率。这个比率反映了当前策略对这些轨迹的偏好程度。如果当前策略对某个重放轨迹的偏好远高于原始策略,这个轨迹就会得到更强的强化信号。
研究团队还保留了token-mean和clip-higher等先进技术。Token-mean策略确保了长序列的学习信号不会被稀释,这对于数学推理任务尤其重要,因为这些任务通常需要多步推理。Clip-higher策略则确保了正向轨迹能够得到充分的强化,同时防止负向轨迹被过度惩罚。
这些技术创新的结合使得RLEP能够在保持训练稳定性的同时,有效地利用历史经验。这就像一个精密的机械装置,每个部件都经过精心设计,相互配合以实现最佳性能。
七、实际影响与应用前景
RLEP的影响远远超出了学术研究的范围,它为AI推理能力的提升开辟了一条全新的道路。这种影响可以从多个层面来理解。
从训练效率的角度来看,RLEP显著减少了达到目标性能所需的训练时间和计算资源。在一个计算成本日益昂贵的时代,这种效率提升具有重要的经济意义。企业和研究机构可以用更少的资源训练出更强大的AI系统,这将加速AI技术的普及和应用。
从模型性能的角度来看,RLEP不仅加速了收敛,还提高了最终性能的上限。这意味着AI系统可以在数学推理、逻辑分析、问题解决等任务上达到更高的水平。这种改进对于教育、科研、工程设计等领域都有直接的应用价值。
从方法论的角度来看,RLEP展示了一种新的训练范式,它将经验积累与持续学习结合起来。这种范式可能会影响未来AI系统的设计思路,推动研究者们开发更多基于经验重放的学习方法。
研究团队在论文中提到了几个未来的研究方向,这些方向显示了RLEP的进一步发展潜力。首先是设计更智能的经验选择方案,利用离线启发式方法和基于模型的奖励来识别最有信息量的推理路径进行重放。这就像一个图书管理员不仅要收集书籍,还要知道哪些书籍最值得读者反复阅读。
其次是将RLEP扩展到单一数据集之外的设置,在更大的语料库上进行训练,并评估其在不同领域的有效性。这种扩展可能会带来更广泛的应用,让AI系统能够在多个领域同时受益于经验重放的优势。
从更长远的角度来看,RLEP可能会催生新的AI训练基础设施和工具。专门的经验管理系统、优化的重放算法、智能的经验选择策略等都可能成为未来AI开发的标准组件。这就像现代软件开发中的版本控制系统一样,经验重放可能会成为AI训练中不可或缺的一部分。
说到底,RLEP的真正价值在于它改变了我们对AI学习过程的理解。它告诉我们,AI系统不必每次都从零开始学习,而是可以像人类一样,通过积累和重复使用成功经验来不断改进。这种观点可能会深刻影响未来AI系统的设计和开发,推动我们向更高效、更智能的AI系统迈进。
快手团队的这项工作不仅解决了一个具体的技术问题,更开启了一个新的研究领域。随着更多研究者加入这个领域,我们可能会看到更多基于经验重放的创新方法,这些方法将共同推动AI推理能力的发展。对于普通用户来说,这意味着未来的AI助手、教育工具、研究平台等都可能变得更加智能和高效,能够更好地帮助人们解决复杂问题。
有兴趣深入了解这项研究的读者可以访问快手团队公开的代码仓库,那里提供了完整的实现细节、数据集和模型检查点,这种开放的态度也体现了研究团队对推动整个领域发展的承诺。
Q&A
Q1:RLEP是什么?它和传统的强化学习有什么区别? A:RLEP是一种新的AI训练方法,全称是"带经验重放的强化学习"。与传统强化学习每次从零开始探索不同,RLEP会先收集成功的解题经验,然后在后续训练中重复使用这些经验。就像登山者会重复使用成功的路线一样,这种方法让AI训练更高效、更稳定。
Q2:RLEP在实际应用中效果如何?训练时间会增加吗? A:实验显示RLEP在数学推理任务上表现出色,准确率提升了1.7-5.2个百分点,训练速度也大幅加快。比如在AIME-2024数据集上,RLEP用135步就达到了传统方法需要380步才能达到的性能。更重要的是,每步训练时间几乎没有增加,整体训练效率显著提升。
Q3:RLEP技术难不难复现?普通研究者能使用吗? A:快手团队已经将RLEP的完整代码、数据集和模型检查点公开在GitHub上,任何研究者都可以免费使用。该方法基于成熟的强化学习框架,技术门槛相对较低。研究团队还提供了详细的实现细节,使得其他研究者可以轻松复现和改进这项工作。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。