微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

华为团队打造AI训练"流水线"：让大模型学习效率提升一倍的秘密武器

强化学习框架异步训练优化分布式系统架构

华为团队打造AI训练"流水线"：让大模型学习效率提升一倍的秘密武器

作者：科技行者

2025-07-04 17:44

分享至：

华为研究团队提出AsyncFlow框架，通过TransferQueue数据管理模块和异步工作流优化，解决大语言模型强化学习训练中的效率瓶颈。该系统实现了平均1.59倍的吞吐量提升，支持多种训练引擎，为大规模AI模型后训练提供了高效可扩展的解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-04 17:44 • 科技行者

这项由华为公司韩振宇、游安胜等研究人员主导的研究发表于2025年7月的arXiv预印本平台，论文编号为arXiv:2507.01663v1。有兴趣深入了解的读者可以通过该编号在arXiv官网搜索访问完整论文。

当我们谈论让人工智能变得更聪明时，就像培养一个学生一样，不仅要教给它知识，还要让它学会思考和判断。近年来，大型语言模型通过学习海量文本已经展现出了惊人的语言能力，但要让这些模型真正符合人类的期望和价值观，还需要一个关键步骤——后训练过程。

想象一下，如果说预训练阶段是让AI学生大量阅读各种书籍，那么后训练阶段就像是请一位严格的导师来纠正学生的思考方式和行为习惯。在这个过程中，强化学习扮演着导师的角色，通过奖励和惩罚机制来引导模型产生更好的回答。

然而，现有的强化学习训练系统就像一个效率低下的工厂流水线。传统的系统要么把所有工作都安排给同一批工人完成，导致大量时间浪费在切换不同任务上；要么虽然分工明确，但各个环节之间配合不佳，经常出现某些工人忙得不可开交，而另一些工人却在无所事事地等待。更糟糕的是，大多数现有系统都像是为特定品牌机器量身定制的，无法兼容其他设备，这给那些已经投资了不同设备的用户带来了巨大困扰。

华为研究团队意识到了这些问题的严重性，特别是在大规模AI训练场景中，这些效率瓶颈会被成倍放大。他们提出了一个名为AsyncFlow的创新解决方案，这就像是重新设计了一条高效的智能流水线。

AsyncFlow的核心创新在于引入了一个名为TransferQueue的分布式数据管理模块。如果把传统的数据传输比作邮局的信件处理，那么TransferQueue就像是建立了一个智能化的现代物流中心。在这个物流中心里，每一份数据都有自己的身份标识和去向信息，系统可以智能地调度和分发数据，确保每个处理环节都能及时获得所需的信息，而不会出现排队等待或资源闲置的情况。

更巧妙的是，研究团队设计了一套基于生产者-消费者模式的异步工作流程。这就像是在工厂里安排了一个缓冲仓库，当上游生产线完成了产品制造后，不需要等待下游所有环节都准备就绪，而是可以先将产品存放在仓库中，然后继续进行下一轮生产。这种设计大大减少了因为等待而产生的时间浪费，同时还能通过控制缓冲时间来保证最终产品的质量。

在系统架构设计上，AsyncFlow采用了模块化的理念，就像搭积木一样灵活。无论用户使用的是什么品牌的训练设备或推理引擎，都可以通过标准化的接口轻松接入这个系统。这种设计不仅解决了兼容性问题，还让学术研究人员和工业用户都能根据自己的需求进行定制。

为了验证这套系统的实际效果，研究团队在包含32到1024个NPU（神经网络处理单元）的大规模集群上进行了全面测试。测试结果令人印象深刻：AsyncFlow在各种配置下都显著超越了当前最先进的基准系统verl，平均吞吐量提升了1.59倍，在某些配置下甚至达到了2.03倍的性能提升。这意味着使用AsyncFlow可以用同样的时间完成近两倍的训练工作，或者用一半的时间完成同样的训练任务。

一、数据管理的智能革命：TransferQueue系统

在传统的AI训练过程中，数据管理就像是一个繁忙但混乱的图书馆。不同的研究任务需要查阅不同的资料，但图书管理员往往需要手动记录每本书的位置和借阅状态，当多个研究小组同时需要资料时，经常会出现冲突和延误。

TransferQueue的出现彻底改变了这种状况。它就像是为这个图书馆引入了一套现代化的智能管理系统。在这个系统中，每一份数据都被赋予了全局唯一的身份标识，就像给每本书都贴上了独特的条形码。当某个任务需要特定数据时，系统可以立即知道这些数据在哪里，是否可用，以及谁正在使用它们。

这套系统的核心设计理念是将控制平面和数据平面分离，这个概念源自软件定义网络的思想。控制平面就像是图书馆的总控制台，负责管理所有书籍的元数据信息，包括位置、状态和借阅记录。而数据平面则像是分布在图书馆各个区域的书架，负责实际存储和传输数据。

当某个AI训练任务需要数据时，它会向对应的控制器发送请求。控制器就像是一个智能的图书管理员，它会扫描当前可用的数据，根据任务需求动态组装一个数据批次，然后将这些数据的位置信息返回给请求者。请求者随后可以直接从分布式存储单元中获取所需的数据，整个过程既高效又精确。

为了应对高并发的场景，TransferQueue采用了多控制器和多存储单元的架构。当系统面临大量请求时，可以轻松扩展存储单元的数量来提升总体带宽和降低延迟。这就像是在图书馆里增加更多的管理员和书架，每个人负责一个特定区域，从而避免了单点瓶颈。

特别值得一提的是，TransferQueue支持变长数据传输，这在传统系统中往往需要进行大量的填充操作来统一数据长度。就像在邮寄包裹时，传统方法需要将所有包裹都填充到相同大小，而TransferQueue则可以直接处理不同大小的包裹，大大减少了不必要的传输开销。

二、异步工作流的巧妙平衡：让效率与稳定性兼得

传统的强化学习训练就像是一个严格按照时刻表运行的火车系统。每一班列车（训练迭代）都必须等待前一班完全到站并清空乘客后才能发车，这种同步机制虽然保证了系统的稳定性，但也造成了大量的等待时间。

AsyncFlow提出的异步工作流程则像是重新设计了这个交通系统。在新的系统中，不同的列车可以在不同的轨道上并行运行，而且不需要严格等待前一班列车完全结束。这种设计的关键在于引入了一个智能的调度机制，确保在提高效率的同时不会影响最终的运行安全。

异步工作流的核心是延迟参数更新机制。在传统系统中，当模型参数更新完成后，所有的推理实例都必须立即停止工作，加载新的参数，然后才能继续。这个过程就像是工厂里的所有工人都必须同时停下手头工作去接受新的操作指南。

而在AsyncFlow中，推理实例可以继续使用旧的参数完成当前的工作，同时在后台异步地接收和准备新的参数。只有当当前工作完全结束后，系统才会切换到新参数。这种方式大大减少了因为参数同步而造成的空闲时间，就像是让工人先完成手头的任务，然后在工作间隙学习新的操作方法。

研究团队还提出了一种更加精细的子步异步机制。由于推理任务通常需要大量的硬件资源，系统往往会分配多个推理实例来满足下游训练任务的数据需求。在这种情况下，不同的推理实例可以依次进行参数更新，而其他实例继续提供数据支持。这就像是在一个餐厅里，不同的厨师可以轮流更新菜谱，确保餐厅始终能够正常营业。

这种异步机制的巧妙之处在于它在效率和算法稳定性之间找到了最佳平衡点。研究表明，一步的异步差异并不会对模型的收敛性造成显著影响，而性能提升却是显而易见的。实验数据显示，这种设计可以有效消除训练过程中的空闲时间，使整个系统的利用率接近理论最优值。

三、管道并行的艺术：让多个任务协同起舞

在传统的强化学习训练中，不同的任务必须按照严格的顺序执行，就像是一个单行道上的车队，后面的车必须等前面的车完全通过后才能前进。这种串行执行方式虽然逻辑清晰，但却造成了大量的资源浪费。

AsyncFlow通过TransferQueue实现的流水线并行就像是将单行道改造成了多车道的高速公路。在这个新系统中，不同的任务可以在各自的车道上并行前进，大大提高了整体的通行效率。

具体来说，当演员模型开始生成回答时，参考模型可以同时开始处理已经完成的部分数据，而不需要等待所有回答都生成完毕。奖励模型也可以在获得足够数据后立即开始计算奖励分数，训练过程则可以在收集到足够的经验数据后随时启动。这种重叠执行的方式就像是在装配线上，每个工人都可以在前一个工人完成一部分工作后立即开始自己的任务。

这种并行机制的实现依赖于TransferQueue的智能调度能力。系统会实时监控每个任务的数据需求和可用数据状态，动态决定何时启动哪个任务。当某个任务完成一批数据处理后，系统会立即通知相关的下游任务，使它们能够及时获取所需的输入。

更重要的是，这种并行机制是完全自动化的，不需要研究人员手动设计复杂的任务调度方案。无论是什么样的强化学习算法，只要符合基本的数据依赖关系，都可以自动受益于这种并行优化。这就像是一个智能的交通管理系统，能够根据实时路况自动调整信号灯和引导路线。

四、服务导向的灵活架构：积木式的自由组合

现有的强化学习框架往往像是预制的套房，虽然功能齐全，但用户只能接受既定的设计，无法根据自己的需求进行调整。如果用户想要使用不同的训练引擎或推理系统，往往需要重新搭建整个框架，这不仅耗时耗力，还可能引入新的问题。

AsyncFlow采用了完全不同的设计哲学，它更像是一套标准化的积木系统。每个组件都有明确定义的接口，用户可以根据自己的需求自由组合不同的模块。无论是学术研究人员想要快速验证新算法，还是工业用户需要在现有系统基础上部署新功能，都可以通过这套灵活的接口轻松实现。

系统的架构分为两个层次的抽象。用户级接口就像是汽车的驾驶舱，提供了启动引擎、加载数据、同步权重等核心功能的简单控制按钮。研究人员可以通过这些高级API快速搭建和调试强化学习算法，而不需要关心底层的实现细节。

后端级接口则像是汽车的发动机舱，提供了与不同训练和推理引擎对接的标准化适配器。每个适配器负责将通用的任务请求转换为特定引擎能够理解的指令格式，同时将引擎的输出转换回标准格式。这种设计使得系统可以轻松支持MindSpeed、DeepSpeed、vLLM等各种主流引擎，用户甚至可以开发自己的适配器来集成定制化的引擎。

这种模块化设计的优势在于它实现了算法逻辑与执行引擎的完全解耦。当新的训练引擎或推理系统出现时，用户不需要重写算法代码，只需要开发相应的适配器即可。同样，当研究人员想要尝试新的算法时，也不需要关心底层的硬件和软件环境，可以专注于算法本身的创新。

五、性能突破的验证：数字背后的真实故事

为了验证AsyncFlow的实际效果，华为研究团队设计了一系列全面的实验，就像是对一辆新车进行各种路况的测试。他们选择了从32个到1024个NPU的不同规模集群，使用了Qwen2.5系列的7B和32B参数模型，并采用了具有挑战性的数学推理数据集DeepScaleR进行训练。

实验结果令人印象深刻。在所有测试配置中，AsyncFlow都显著超越了当前最先进的基准系统verl。平均而言，AsyncFlow的吞吐量提升了1.59倍，这意味着在相同的时间内可以完成近60%更多的训练工作。在某些配置下，性能提升甚至达到了2.03倍，相当于将训练时间缩短了一半。

更重要的是，AsyncFlow展现出了优秀的可扩展性。当集群规模扩大16倍时，系统仍然保持了0.65到0.88的线性度，这表明随着硬件资源的增加，训练效率可以近似线性地提升。这种特性对于大规模工业部署来说至关重要，因为它意味着投入更多硬件资源可以获得相应的性能回报。

为了深入理解各个组件的贡献，研究团队还进行了详细的消融实验。结果显示，单独引入TransferQueue就能带来2.01倍的性能提升，这主要归功于其高效的数据管理和任务并行能力。在此基础上加入异步工作流优化后，性能进一步提升了36.3%，最终达到了2.74倍的综合提升。

特别值得注意的是，异步训练机制并没有对模型的收敛性造成负面影响。实验显示，使用异步工作流训练的模型在奖励分数和回答质量方面与传统同步训练的结果几乎没有差异，这证明了系统在提升效率的同时成功保持了算法的稳定性。

六、实际部署的考量：从实验室到生产环境

AsyncFlow的设计不仅考虑了性能优化，还充分考虑了实际部署中可能遇到的各种挑战。在真实的生产环境中，硬件资源往往是异构的，不同节点的计算能力和网络条件可能存在差异。传统的静态资源分配方式在这种环境下往往效率低下。

AsyncFlow通过动态负载均衡机制很好地解决了这个问题。系统会实时监控各个节点的工作负载和响应时间，自动将更多任务分配给性能较好的节点，同时避免让性能较差的节点成为整体瓶颈。这就像是一个智能的任务分配系统，能够根据每个工人的能力和当前工作量来合理安排任务。

在网络通信方面，AsyncFlow采用了多种优化策略来减少数据传输开销。系统会指定每个数据并行组中的一个节点作为代表与TransferQueue交互，然后将获取的数据广播给组内其他节点。这种设计大大减少了网络请求的数量，特别是在大规模集群中效果显著。

对于变长数据的处理，AsyncFlow避免了传统系统中常见的填充操作。在传统方法中，为了保证批处理的一致性，所有数据都需要填充到相同长度，这会产生大量冗余的传输和计算开销。AsyncFlow直接支持变长数据的拼接和拆分，在传输时将多个变长序列拼接成一个连续的张量，在接收端再根据长度信息进行拆分。

七、技术细节的巧思：魔鬼藏在细节中

AsyncFlow的成功不仅在于其宏观的架构设计，更在于大量精心考虑的技术细节。在数据结构设计上，系统采用了二维列式存储格式，这就像是将传统的行式表格转换为列式数据库。每一列代表特定的数据组件，如输入提示、模型回答、奖励分数等，而每一行代表一个完整的训练样本。

这种设计的优势在于不同任务可以只访问所需的数据列，大大减少了不必要的数据传输。例如，参考模型只需要输入提示和模型回答，而不需要奖励分数，通过列式访问可以精确获取所需数据。同时，这种结构天然支持并发读写操作，不同位置的数据可以同时被多个任务访问而不会产生冲突。

在元数据管理方面，AsyncFlow实现了一套高效的通知机制。当新数据写入存储单元后，系统会立即向所有相关控制器广播元数据更新，包括数据的全局索引和对应的数据列信息。这种实时通知机制确保了控制器能够立即感知到新数据的可用性，从而实现真正的流式处理。

控制器的调度逻辑也经过精心设计。当收到数据请求时，控制器会扫描当前可用的元数据，识别满足任务需求的数据样本，即所有必需列的状态都为可用且没有被其他数据并行组消费。如果可用数据超过请求的批次大小，控制器会根据负载均衡策略选择合适的样本组合，然后将这些样本标记为已消费，避免重复使用。

参数更新的实现采用了分层的异步策略。在训练集群端，模型权重会先被卸载到主机内存，然后通过网络异步传输到推理集群。在推理集群端，新权重会先在主机内存中准备就绪，只有当当前生成任务完全结束后，系统才会执行从主机到设备的快速传输。这种设计将网络传输的延迟完全隐藏在计算过程中，大大减少了暴露的同步开销。

八、与现有方案的深度对比：站在巨人肩膀上的创新

AsyncFlow的诞生并非空中楼阁，而是在深入分析现有解决方案优缺点的基础上提出的创新方案。当前的强化学习框架主要分为两大类：任务并置型和任务分离型。

任务并置型框架如DeepSpeed-Chat和verl，就像是让同一个工人同时负责多种不同的工作。这种方式的优点是资源利用率高，因为所有计算资源在任何时刻都在工作。但缺点也很明显：工人需要不断切换不同的工具和工作方式，这种切换本身就消耗大量时间。更严重的是，不同工作对资源的需求差异很大，可能导致某些资源闲置而另一些资源过载。

任务分离型框架如OpenRLHF和StreamRL采用了专业化分工的思路，让不同的工人专门负责不同的任务。这种方式可以针对每种任务优化硬件配置和并行策略，理论上效率更高。但实际部署中面临的挑战是任务间的数据依赖关系复杂，需要精心设计调度方案，而且容易出现负载不均衡的问题。

AsyncFlow吸收了两种方案的优点，同时针对性地解决了各自的缺点。通过TransferQueue的动态调度，系统既保持了任务分离的专业化优势，又通过智能负载均衡避免了资源闲置问题。异步工作流机制则进一步减少了任务间的等待时间，使得专业化分工的效益得到最大化发挥。

在算法支持方面，AsyncFlow展现出了更好的通用性。传统框架往往与特定的强化学习算法紧密耦合，当研究人员想要尝试新算法时需要大量的代码修改。AsyncFlow的高层抽象设计使得它可以轻松适应不同的算法变体，目前已经支持GRPO算法，PPO算法的支持也在开发中。

九、未来发展的无限可能：技术演进的方向

AsyncFlow的成功不仅在于解决了当前的技术挑战，更在于为未来的发展奠定了坚实基础。研究团队已经在论文中提出了一些令人兴奋的发展方向，这些方向可能会进一步推动强化学习训练技术的边界。

其中最有前景的是子步异步机制的完整实现。目前的版本已经在理论上证明了这种方法的可行性，未来的完整实现将允许不同推理实例在更细粒度上进行参数更新。这就像是让餐厅里的不同厨师可以在任意时刻更新菜谱，而不影响整体的出餐效率。这种机制有望进一步减少参数同步的开销，实现更接近理想状态的并行效率。

在存储系统方面，TransferQueue的模块化设计为集成更先进的存储后端留下了空间。研究团队提到了与Mooncake Store、Redis等专业存储系统的集成可能性，这些系统针对大规模机器学习训练进行了专门优化，可能会带来更好的性能和可靠性。

算法层面的扩展也充满潜力。AsyncFlow的架构天然支持更复杂的强化学习算法，包括多智能体系统、层次化强化学习等前沿方向。随着这些算法的成熟，AsyncFlow可能成为下一代AI系统训练的重要基础设施。

在硬件适配方面，虽然当前版本主要针对华为昇腾NPU进行了优化，但其模块化的设计理念使得移植到其他硬件平台成为可能。随着AI专用芯片的快速发展，AsyncFlow有望成为一个跨平台的通用解决方案。

说到底，AsyncFlow代表的不仅仅是一个技术工具的进步，更是AI训练系统设计思维的转变。从传统的单体架构转向模块化、异步化的分布式架构，从静态的资源分配转向动态的智能调度，这些理念的转变可能会影响整个AI基础设施的发展方向。

对于普通关注AI发展的人来说，AsyncFlow的意义在于它可能会加速AI模型的训练和迭代速度，让更先进的AI能力更快地从实验室走向实际应用。当训练效率提升一倍时，意味着同样的成本可以支持更多的实验和优化，从而推动整个行业的快速发展。

对于AI从业者而言，AsyncFlow提供了一个值得学习的系统设计范例。它展示了如何在复杂的技术约束下找到优雅的解决方案，如何在效率和稳定性之间取得平衡，以及如何设计真正可扩展和可维护的系统架构。

归根结底，AsyncFlow的成功证明了在AI基础设施领域仍然存在巨大的创新空间。通过深入理解实际需求，巧妙运用系统设计原理，我们可以显著提升现有技术的效率和可用性，为AI技术的进一步发展铺平道路。有兴趣深入了解技术细节的读者，建议访问MindSpeed-RL的开源项目页面（https://gitee.com/ascend/MindSpeed-RL），那里提供了完整的实现代码和详细的使用文档。

Q&A

Q1：AsyncFlow是什么？它能解决什么问题？ A：AsyncFlow是华为开发的一套AI模型训练系统，专门用于提升大语言模型的后训练效率。它主要解决现有系统中任务切换耗时、资源闲置和兼容性差的问题，通过智能流水线设计让训练效率平均提升1.59倍。

Q2：AsyncFlow会不会影响AI模型的训练质量？ A：不会。实验证明AsyncFlow的异步训练机制不会对模型收敛性造成负面影响，训练出的模型在奖励分数和回答质量方面与传统方法几乎没有差异，在提升效率的同时保持了算法稳定性。

Q3：普通开发者可以使用AsyncFlow吗？有什么要求？ A：可以。AsyncFlow已经在MindSpeed-RL项目中开源（https://gitee.com/ascend/MindSpeed-RL），支持多种主流训练和推理引擎。开发者可以根据自己的硬件环境选择合适的配置，系统提供了标准化接口方便集成。

强化学习框架异步训练优化分布式系统架构

分享至