微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AREAL：突破传统，完全异步强化学习如何让大语言模型的推理能力飞跃

强化学习系统大语言模型推理异步训练架构

AREAL：突破传统，完全异步强化学习如何让大语言模型的推理能力飞跃

作者：科技行者

2025-06-06 09:17

分享至：

AREAL是一个由清华大学和蚂蚁研究院开发的全新异步强化学习系统，专为提升大语言模型的推理能力而设计。与传统同步系统不同，AREAL完全解耦了生成和训练过程，推理工作器持续生成新输出，训练工作器则在收集到足够数据时更新模型。通过创新的过时性感知训练和解耦PPO目标函数，AREAL成功解决了异步训练中的数据过时和策略不一致问题。实验表明，AREAL在数学和代码推理任务上实现了高达2.57倍的训练加速，同时保持或提高了模型性能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 09:17 • 科技行者

2025年5月30日，来自清华大学和蚂蚁研究院的研究团队在arXiv上发布了一篇标题为《AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》的研究论文。这项由Wei Fu、Jiaxuan Gao、Yi Wu等人共同完成的研究，提出了一种全新的异步强化学习系统，专为提升大语言模型的推理能力而设计。论文代码已在GitHub上开源，有兴趣的读者可通过https://github.com/inclusionAI/AReaL/查看完整代码库。

一、为什么我们需要异步强化学习系统？

想象你正在教一个聪明但经验不足的学生解决复杂问题。传统的教学方式是：你给学生一道题，等他完全解答出来后，再根据他的答案给予反馈，然后修正他的思维方法，再给下一道题。这种教学方式虽然直观，但效率低下——尤其是当不同学生解题速度差异巨大时，总是要等最慢的学生完成，其他人则在空等。

在大语言模型（LLM）的世界里，强化学习（RL）就像这样的教学过程，而当前主流的RL系统大多采用这种"同步"方式工作。这导致了严重的计算资源浪费问题，特别是在训练大型推理模型（Large Reasoning Models，LRMs）时，不同输入可能产生长度从几十到数万不等的思考过程，使得GPU利用率低下。

研究团队发现，现有的强化学习系统面临两个核心问题：首先，推理设备利用率低，因为系统必须等待最长输出完成才能开始训练；其次，同步系统的可扩展性差，因为将生成任务分散到更多设备上会降低每个GPU的批处理大小，使得解码过程变成内存IO受限的状态，难以通过增加设备来提高吞吐量。

二、AREAL：一个全异步的强化学习系统

AREAL系统就像是完全重新设计的教学流程——不再要求所有学生同步提交答案，而是让每个学生独立作答，老师随时收集已完成的答卷进行批改，同时不断更新教学方法。这种异步模式让资源利用率大大提高。

具体来说，AREAL由四个核心组件组成：

首先是"可中断的推理工作器"（Interruptible Rollout Worker）。这些工作器负责接收两类请求：一是生成响应，二是更新权重。当新的模型参数可用时，这些工作器会中断当前正在进行的生成任务，加载新参数，然后继续未完成的序列生成。这就像学生正在解题过程中，老师提供了新的解题思路，学生立即采纳并继续解题。

其次是"奖励服务"（Reward Service），负责评估模型生成的回答质量。比如在编程任务中，这个服务会提取代码并运行单元测试来验证其准确性。

第三是"训练工作器"（Trainer Workers），它们从经验回放缓冲区持续采样数据，直到达到配置的训练批量大小，然后执行PPO（Proximal Policy Optimization）更新并将结果参数存储在分布式存储中。为确保数据新鲜度，回放缓冲区的数据只使用一次。

最后是"推理控制器"（Rollout Controller），作为推理工作器、奖励服务和模型工作器之间的关键桥梁。它从数据集读取数据并调用推理工作器的生成请求，然后将收到的响应发送给奖励服务以获取奖励。轨迹和奖励存储在回放缓冲区中，等待模型工作器进行训练。当模型工作器更新参数后，控制器会调用推理工作器的权重更新功能。

这种完全异步的设计确保了生成和训练资源的持续满负荷运行，大大提高了系统效率。想象一下，这就像是一个工厂的生产线，不同工位独立运作，材料流动从不停止。

三、异步学习的算法挑战与解决方案

然而，异步系统设计虽然提高了效率，但也带来了几个技术挑战。

首先是"数据过时"问题。由于系统的异步特性，每个训练批次包含的数据可能来自多个不同版本的策略。想象一下，如果学生用旧方法解的题被用来改进最新的教学方法，效果可能并不理想。之前在强化学习训练系统的研究表明，这种过时性会降低学习性能。

其次是"策略版本不一致"问题。由于生成过程可能被中断并使用新参数继续，同一轨迹可能包含由不同策略版本生成的片段，这违反了标准PPO假设——所有动作都由单一策略生成。

为了解决这些问题，研究团队提出了两个关键的算法创新：

第一是"过时性感知训练"（Staleness-Aware Training）。他们引入了一个名为η的超参数，代表最大允许过时度。给定最新参数版本i，总生成轨迹数Nr和训练批量大小B，系统强制执行：?Nr/B? ≤ i + η。当η=0时，系统退化为同步RL设置；当η=1时，系统恢复为之前的一步重叠方法。在训练过程中，系统优先处理较旧的轨迹，确保过时度保持在η以下。

第二是"解耦PPO目标函数"（Decoupled PPO Objective）。研究团队应用了一个解耦的PPO目标函数，将行为策略和近端策略分离。行为策略πbehav代表用于采样轨迹的策略，代理策略πprox作为近期目标，用于规范πθ的更新。通过对采样轨迹应用重要性采样，他们推导出适用于异步RL训练的解耦PPO目标函数。

这个解耦的PPO目标函数提供了一个自然的好处：它放宽了所有数据在一个训练批次中应该由单一策略生成的要求。这对于结合可中断生成与策略更新至关重要。研究团队证明，一个轨迹中不一致的策略版本等同于单一行为策略πbehav。

实际实现中，他们简单地使用每次模型更新前的参数作为πprox，并在每个训练步骤中全局批次到达时重新计算令牌概率。

四、AREAL的系统实现与优化

AREAL系统是使用Python和PyTorch实现的，建立在ReaLHF框架基础上。该系统结合了SGLang v0.4.6作为生成服务后端，以及Megatron-Core v0.11.0作为训练后端，由SLURM管理资源调度。

为了最大化生成和训练阶段的吞吐量，研究团队实施了几项关键的系统级优化：

首先，AREAL将GPU计算与CPU操作解耦，包括基于规则的奖励计算（如数学问题的字符串匹配或代码的单元测试执行）和基于TCP的数据传输。通过在单独的线程中执行这些操作并流水线化工作流程，系统可以将奖励计算和数据传输与后续生成请求重叠。他们使用asyncio协程在推理工作器中并发运行多个请求，避免相互阻塞等待。

其次，为了处理可变长度序列的训练，他们采用了无填充的序列打包策略，结合动态分配算法。该算法在固定内存约束下平衡微批次间的令牌分布，最大化GPU内存利用率，同时最小化所需的前向-后向传递次数。

这些优化共同导致了系统性能的显著提升，使AREAL能够充分利用可用的计算资源。

五、实验结果：AREAL的性能优势

研究团队在具有挑战性的数学和编程任务上评估了AREAL系统，使用了从1.5B到32B参数不等的模型。他们采用了从DeepSeek-R1蒸馏的Qwen2模型系列作为基础模型。

在最终的对比实验中，AREAL与最先进的同步RL系统进行了比较：用于数学推理的DeepScaleR（1.5B模型）和用于代码生成的DeepCoder（14B模型），两者都使用verl训练。对于较大的7B和32B模型，由于缺乏可比较的基线，他们使用AREAL的同步变体进行了对照实验。

实验结果令人印象深刻：AREAL在不影响（甚至提高）最终性能的情况下，实现了显著的加速。在数学推理任务中，使用1.5B和7B模型时，AREAL分别将训练时间从41.0小时和57.7小时减少到14.8小时和25.4小时，同时保持了42.2%和63.1%的AIME24基准准确率。在代码生成任务中，使用14B和32B模型时，AREAL将训练时间从48.8小时和51.1小时减少到21.9小时和31.1小时，同时在LiveCodeBench基准上分别达到58.1%和61.0%的准确率。

总体而言，AREAL实现了高达2.57倍的训练吞吐量提升，并在多达512个GPU上展示了线性扩展效率。关键的是，这种加速甚至伴随着这些任务上的解决方案准确率提高，说明AREAL在不牺牲（实际上是增强）模型性能的同时提供了显著的效率提升。

六、算法验证实验与系统消融研究

为了验证研究团队在第三部分提出的算法创新，他们进行了一系列消融研究，通过在数学任务上训练1.5B LRM来验证他们的方法。

首先，他们改变了最大允许过时度η，并比较了有无解耦PPO目标函数的配置。结果显示，朴素PPO无法匹配同步RL的性能（即η=0时的性能）。即使轻微的过时度也会由于不当的裁剪中心和可中断生成过程中的策略变化而显著降低最终性能。此外，增加数据过时度会持续降低学习性能，这与之前在其他领域的研究观察一致。

然而，通过比较学习曲线，他们发现解耦PPO目标函数在处理过时数据时大大提高了训练稳定性，这与游戏领域的发现一致。值得注意的是，即使使用解耦目标函数，无界过时度（η→∞）仍然导致比零过时度的效果差。当适当约束时，适度的过时度（如η≤4）对最终性能影响很小，同时通过异步流水线显著加速训练。

研究团队还对系统组件进行了消融研究。没有可中断生成功能时，控制器必须等待最长的响应，导致1.5B和7B模型在4个节点上的吞吐量分别降低12%和17%。这验证了他们的架构设计选择。

在动态微批次分配方面，与标准微批次策略相比，动态批处理在各种模型大小上平均提高了30%的吞吐量。标准微批次策略可能导致多个长序列被分配到同一个微批次，通常需要足够多的微批次以防止内存不足错误。

这些消融研究结果证实了研究团队的设计选择，并验证了他们提出的算法创新在提高异步RL训练稳定性和效率方面的有效性。

七、AREAL的局限性与未来研究方向

尽管AREAL取得了令人印象深刻的成果，但这项研究仍存在一些局限性，这也为未来的研究提供了方向。

首先，推理与训练设备之间的比例可以进一步优化，特别是针对特定的训练设置。此外，这一比例可能受益于训练过程中的动态调整，尤其是在微调预训练基础模型时，上下文长度通常会增加。

研究团队的评估主要集中在单步数学和编码任务上，但AREAL架构本身并不仅限于这些领域。未来的工作可以探索多轮交互和代理场景，扩展AREAL的应用范围。