微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

复旦大学开发DiRL框架：让AI写作像流水线一样又快又好

人工智能强化学习数学推理

复旦大学开发DiRL框架：让AI写作像流水线一样又快又好

作者：科技行者

2025-12-31 20:14

分享至：

复旦大学团队开发的DiRL框架解决了扩散语言模型训练效率低下的核心问题。通过分块处理策略和FlexAttention优化，训练速度提升6倍，整体吞吐量提升2.5倍。配套的DiPO算法实现了首个无偏的强化学习方法。最终训练的DiRL-8B-Instruct模型在数学推理任务上表现卓越，多项基准测试中超越同类模型，甚至在部分任务上超过更大规模的传统模型，为扩散语言模型的实用化奠定了坚实基础。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-12-31 20:14 • 科技行者

这项由复旦大学朱英等人领导的研究发表于2024年12月的arXiv预印本平台，论文编号为arXiv:2512.22234v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能领域，有一类特殊的AI模型叫做扩散语言模型，它们生成文本的方式就像画家作画一样，先画出整体轮廓，再逐步填充细节。这种方法虽然能够产生高质量的文本，但就像一个才华横溢却效率低下的艺术家，在实际应用中面临着巨大的挑战。

传统的AI文本生成就像打字机一样，一个字一个字地按顺序输出，速度快但缺乏全局规划。而扩散语言模型更像是一位深思熟虑的作家，会先构思整篇文章的框架，然后反复修改和完善。虽然这种方式能产生更加连贯和高质量的内容，但训练这样的模型就像教会一个人同时掌握构思、写作和修改的全部技能，难度极大。

复旦大学的研究团队注意到，虽然扩散语言模型在理论上很有前景，但在实际训练中遇到了严重的瓶颈。就像一个工厂想要生产高质量产品，却发现生产线设计不合理，工人培训方法落后，导致效率低下、成本高昂。这正是他们要解决的核心问题。

**一、现有技术的困境：像用手工作坊的方式做工业生产**

要理解这个问题的复杂性，我们可以把AI模型的训练过程比作培养一个优秀的作家。传统的自回归模型就像训练一个按部就班的作家，他们严格按照从左到右的顺序写作，每写一个字都要参考前面所有的内容。这种方法虽然稳定可靠，但缺乏创造性和灵活性。

扩散语言模型则像是培养一个更有艺术天赋的作家，他们能够同时考虑整篇文章的结构，可以先写某个段落的关键句子，再填充其他内容。这种能力让他们能够创作出更加连贯、逻辑性更强的作品。然而，培养这样的作家需要完全不同的训练方法。

问题在于，现有的训练方法就像用培养传统作家的方式去训练这些具有全局视野的作家，结果是事倍功半。具体来说，扩散语言模型在训练时需要计算复杂的概率分布，这个过程就像让作家在写作时不断地重新评估整篇文章的每一个可能性，计算量巨大。更糟糕的是，训练时使用的随机遮盖策略与实际使用时的生成策略不匹配，就像在练习时用左手写字，但考试时却要求用右手，训练效果大打折扣。

此外，现有的强化学习方法也存在严重问题。强化学习就像通过奖励和惩罚来改善作家的写作技巧，但对于扩散语言模型来说，传统的奖励机制设计不当，导致训练不稳定，效果不佳。这就像用错误的评价标准来指导作家改进，不仅不能提高写作水平，反而可能让他们越来越困惑。

**二、DiRL框架：设计高效的AI训练流水线**

面对这些挑战，复旦大学的研究团队提出了DiRL框架，这是一个专门为扩散语言模型设计的高效训练系统。如果把AI模型训练比作建设一条高效的生产线，那么DiRL就是一套全新的生产线设计方案，从原材料投入到成品输出的每个环节都经过了精心优化。

DiRL框架的核心思想是分块处理。研究团队没有让AI模型一次性处理整篇文本，而是将文本分成若干个小块，每个块包含几个词语。这种方法就像把一个复杂的装配任务分解成若干个简单的小任务，每个工作站只负责组装一个小部件，这样既能保持整体的协调性，又能大幅提高效率。

在这个分块处理的基础上，DiRL引入了一种叫做FlexAttention的高效注意力机制。如果把AI模型的注意力机制比作一个管弦乐团中指挥的协调能力，传统的注意力机制就像一个需要同时关注每个乐手的指挥，工作量巨大。而FlexAttention则像一个更聪明的指挥，能够根据乐曲的不同部分灵活调整关注重点，既保证了协调效果，又大大减轻了工作负担。

更重要的是，DiRL实现了训练和推理的紧密集成。在传统方法中，模型训练完一个阶段后需要保存到硬盘，然后重新加载进行下一阶段的训练，这个过程就像工人每完成一个零件就要把工具收起来，然后重新取出来继续工作，效率极低。DiRL通过在线参数更新技术，让整个过程变得连续流畅，就像一条不停歇的流水线。

**三、DiPO算法：为扩散模型量身定制的学习方法**

在DiRL框架的基础上，研究团队还开发了一种名为DiPO的新型强化学习算法。如果说DiRL是高效的生产线设计，那么DiPO就是专门为这条生产线设计的质量控制系统。

传统的强化学习算法在应用于扩散语言模型时面临一个根本性问题：它们无法准确计算模型的输出概率。这就像试图用一个设计给传统流水线的质量检测器来检测一个全新类型的产品，检测结果往往不准确，甚至可能产生误导。

DiPO算法通过巧妙的设计解决了这个问题。它利用分块处理的特性，能够准确计算每个文本块的生成概率，从而实现无偏的策略优化。这个过程就像为新产品设计了专门的检测设备，不仅能够准确评估产品质量，还能提供精确的改进建议。

具体来说，DiPO算法采用了一种叫做群体相对策略优化的方法。这种方法就像让多个学生一起做同一道题，然后通过比较他们的答案来评判每个答案的质量。对于表现好的答案给予鼓励，对于表现差的答案进行纠正，这样每个学生都能从群体的智慧中学到更好的解题方法。

算法的另一个创新之处在于它使用了智能剪切技术。当模型的学习方向偏离太远时，算法会自动进行调整，就像给一辆汽车安装了防滑系统，当车辆可能失控时自动介入，保证行驶安全。这种设计大大提高了训练的稳定性和可靠性。

**四、工程优化：让理论变成实用的工具**

理论上的突破只是第一步，要让这些创新真正发挥作用，还需要大量的工程优化工作。DiRL团队在这方面做了许多细致入微的改进，就像一个优秀的工程师不仅要设计出好图纸，还要解决实际施工中的各种技术难题。

在计算效率方面，研究团队重新设计了注意力掩码的处理方式。传统方法就像用一个复杂的筛子来过滤信息，不仅效率低下，还容易堵塞。新的方法则像使用了一个更加精巧的过滤系统，不仅处理速度更快，还能处理更复杂的过滤需求。

在系统集成方面，DiRL实现了训练框架和推理引擎的深度融合。这就像把原本分离的设计部门和生产部门合并成一个高效的团队，设计师可以实时了解生产情况，生产人员可以及时获得设计反馈，整个系统的响应速度大大提高。

团队还引入了LMDeploy推理引擎，这是一个高度优化的AI模型运行环境。使用这个引擎就像给汽车换上了更高效的发动机，不仅动力更强，燃油效率也更高。实验结果显示，这些优化措施使得整个系统的运行速度提升了数倍。

为了验证这些改进的效果，研究团队进行了详细的性能对比测试。结果显示，相比于之前最先进的方法，DiRL在训练延迟方面实现了近6倍的改进，在整体吞吐量方面提升了2.5倍。这样的性能提升就像把一条每小时生产100件产品的生产线改造成每小时生产250件产品的高效生产线。

**五、实验验证：数学推理能力的显著提升**

理论和工程上的创新最终还是要通过实际效果来检验。研究团队选择了数学推理任务作为测试平台，这个选择很有代表性，因为数学推理需要逻辑严密、步骤清晰，对AI模型的能力要求很高。

团队首先进行了两阶段的训练。第一阶段是监督微调，就像先让学生学习标准的解题方法和步骤。他们使用了高质量的数学数据集OpenR1-Math，这些数据来自GLM-4.6模型的蒸馏结果。选择这个数据集是因为GLM-4.6在数学任务上表现优异，生成的推理轨迹既准确又具有合理的长度。

第二阶段是强化学习训练，就像让学生通过大量练习来提高解题技巧。他们使用了Big-Math数据集，这是一个专门为强化学习设计的大规模高质量数学数据集。通过DiPO算法的训练，模型学会了如何生成更好的推理过程，如何避免常见错误，以及如何找到更优雅的解题路径。

最终训练出的模型被命名为DiRL-8B-Instruct，它在多个数学基准测试中都取得了优异的成绩。在MATH500测试中，准确率达到了85.1%，在GSM8K测试中准确率为93.1%，这些成绩不仅超越了其他同类扩散语言模型，甚至在某些任务上超过了参数量更大的传统自回归模型。

特别值得注意的是，在AIME2024和AIME2025这样的高难度数学竞赛题目上，DiRL-8B-Instruct的表现尤其突出，准确率分别达到21.5%和22.9%。这些题目相当于高水平数学竞赛的难度，能够在这样的测试中取得良好成绩，说明模型确实掌握了复杂的数学推理能力。

**六、深入分析：为什么DiRL如此有效**

为了更好地理解DiRL框架的优势，研究团队进行了详细的对比分析。他们发现，传统方法在训练过程中存在一个根本性的不匹配问题：训练时使用的随机遮蔽策略与实际推理时的生成策略差异很大，就像练习时用的是一套规则，比赛时却要遵循另一套规则。

DiRL通过分块处理巧妙地解决了这个问题。分块策略使得训练过程更接近实际的推理过程，就像让练习环境尽可能地模拟真实的比赛环境。这种一致性大大提高了训练的有效性。

研究团队还发现，DiRL生成的推理轨迹明显比其他方法更长更详细。平均来说，DiRL-8B-Instruct生成的数学解题过程包含更多的中间步骤和解释，这表明模型学会了进行更深入、更全面的推理。就像一个优秀的学生不仅能得出正确答案，还能清楚地解释每一个推理步骤。

为了验证模型对不同参数设置的敏感性，团队还进行了消融实验。他们测试了不同的动态解码阈值设置，发现DiRL-8B-Instruct在各种设置下都能保持稳定的优异性能，这说明模型的优势来自于算法本身的设计，而不是特定参数设置的巧合。

**七、技术细节：分块扩散的巧妙设计**

要深入理解DiRL的工作原理，需要了解分块扩散语言模型的核心机制。这种模型的设计思想就像是结合了两种不同写作风格的优势：既保持了传统写作的逻辑顺序，又具备了整体规划的能力。

在传统的扩散语言模型中，整个文本的每个位置都可能被同时修改，这就像一个作家同时用多支笔在纸上不同位置写字，虽然理论上可以产生很好的结果，但实际操作极其困难。分块扩散模型则将这个过程分解为更易管理的小任务。

具体来说，模型将输入文本分成若干个固定长度的块，然后按照从左到右的顺序逐块处理。在处理每个块时，模型可以并行地生成块内的所有词汇，但不同块之间必须按顺序进行。这就像一个写作团队，每个人负责写一个段落，但段落之间的顺序是固定的，段落内部的句子可以同时构思。

这种设计的巧妙之处在于它保留了扩散模型的并行生成能力，同时又避免了计算复杂度的爆炸性增长。每个块的处理都可以利用高效的并行计算，而块与块之间的依赖关系又保证了生成内容的逻辑连贯性。

**八、训练流程：从基础到高级的渐进式学习**

DiRL的训练过程采用了两阶段策略，这种设计就像培养一个专业人才的完整教育体系。第一阶段相当于基础教育，第二阶段相当于高等教育和实践训练。

在监督微调阶段，模型主要学习如何理解和生成基本的数学推理步骤。训练数据包含了大量的高质量数学题目及其详细解答过程。模型通过反复练习这些标准案例，逐渐掌握数学推理的基本规律和常见模式。这个过程使用了8个H200 GPU，训练了100个步骤，全局批次大小为512。

在强化学习阶段，模型开始接受更高级的训练。这个阶段使用了DiPO算法，通过奖励机制来鼓励模型生成更好的推理过程。模型会尝试多种不同的解题路径，算法会根据最终结果的正确性来调整模型的行为。这个过程需要128个H200 GPU，进行了40个步骤的训练，每个问题生成32个不同的解答轨迹。

整个训练过程中，模型处理的最大序列长度为8000个令牌，这已经是扩散语言模型中报告的最长推理长度。这个长度足以容纳复杂的数学推理过程，包括多个中间步骤和详细的解释。

**九、性能对比：全面超越现有方法**

为了客观评估DiRL的性能，研究团队选择了多个具有代表性的基准测试。这些测试覆盖了不同难度级别的数学问题，从基础的算术运算到高级的数学竞赛题目。

在MATH500这个综合性数学基准上，DiRL-8B-Instruct达到了85.1%的准确率，显著超过了之前最好的扩散语言模型SDAR-8B-Chat的71.5%。这个提升幅度相当可观，表明DiRL在数学推理能力上确实有了质的飞跃。

在GSM8K这个专门测试小学数学应用题的基准上，DiRL-8B-Instruct的准确率为93.1%，同样大幅超越了其他扩散语言模型。虽然这个任务相对简单，但高准确率表明模型在基础数学推理方面非常可靠。

更令人印象深刻的是在高难度测试上的表现。在AIME2024和AIME2025这两个数学竞赛基准上，DiRL-8B-Instruct的准确率分别达到21.5%和22.9%，不仅远超其他扩散语言模型，甚至超过了参数量更大的Qwen2.5-32B-Instruct模型。

在OlympiadBench这个包含奥林匹克数学题目的测试中，DiRL-8B-Instruct的准确率为47.3%，这个成绩相当出色，因为这些题目通常需要高水平的数学思维和创造性解题能力。

除了准确率之外，研究团队还统计了模型生成的推理轨迹长度。DiRL-8B-Instruct生成的解答过程明显比其他模型更加详细和完整，平均长度在各个测试中都是最长的。这表明模型不仅能给出正确答案，还能提供完整的推理过程，这对于理解和验证解题思路非常重要。

**十、效率提升：工程优化的显著成果**

DiRL框架在计算效率方面的改进同样令人瞩目。通过精心设计的工程优化，整个系统的性能得到了大幅提升。

在训练延迟方面，DiRL相比于之前的TraceRL方法实现了近6倍的改进。这种提升来自多个方面的优化：FlexAttention的使用减少了注意力计算的开销，在线参数更新避免了频繁的模型加载和保存操作，优化的注意力掩码设计提高了计算效率。

具体的时间分解显示，在每个训练步骤中，DiRL只需要167秒来完成推理过程，而TraceRL需要993秒。在训练阶段，DiRL仅需要不到0.1秒，而TraceRL需要1秒多。最显著的改进来自于输入输出操作，DiRL基本上消除了这部分的时间开销，而TraceRL需要花费大量时间进行模型的加载和保存。

这些性能提升不仅仅是数字上的改进，它们有着实际的意义。更快的训练速度意味着研究人员可以更快地迭代和改进模型，更低的计算成本使得更多的研究团队能够承担得起这样的实验，更高的效率也为将来的大规模应用奠定了基础。

研究团队还测试了不同模型规模下的性能表现。无论是1.7B、4B还是8B参数的模型，DiRL都能保持一致的性能优势，这说明框架的设计具有良好的扩展性。

说到底，复旦大学团队开发的DiRL框架解决了扩散语言模型训练中的几个关键问题，就像给一个有潜力但效率低下的工厂进行了全面的现代化改造。通过分块处理策略、高效的注意力机制、创新的强化学习算法，以及精心设计的工程优化，DiRL不仅大幅提高了训练效率，还显著改善了模型的性能。

最终训练出的DiRL-8B-Instruct模型在数学推理任务上取得了优异的成绩，证明了这个框架的有效性。这项工作为扩散语言模型的实际应用铺平了道路，也为整个领域提供了宝贵的技术积累。虽然目前的研究主要集中在数学推理任务上，但研究团队表示将来会扩展到更多领域，包括代码生成、智能体任务等。

这项研究的意义不仅在于技术上的突破，更在于它展示了如何将理论创新转化为实用的工具。从算法设计到工程实现，从性能优化到实际验证，DiRL展现了一个完整的研究开发流程。对于有兴趣深入了解这项技术的读者，可以通过arXiv:2512.22234v1查询完整的研究论文，相关的代码和模型也已经在GitHub和HuggingFace上开源发布。

Q&A

Q1：DiRL框架是什么，它解决了什么问题？

A：DiRL是复旦大学开发的扩散语言模型训练框架。它主要解决了扩散语言模型训练效率低、计算成本高的问题。通过分块处理和工程优化，DiRL让AI模型训练变得像高效的工业流水线一样又快又好。

Q2：DiPO算法相比传统方法有什么优势？

A：DiPO是专门为扩散语言模型设计的强化学习算法。它最大的优势是能够准确计算模型输出概率，避免了传统方法中的偏差问题。就像为新产品专门设计了精确的检测设备，能够更好地指导模型学习改进。

Q3：DiRL-8B-Instruct模型的数学推理能力有多强？

A：DiRL-8B-Instruct在多个数学基准测试中表现优异。在MATH500上准确率达到85.1%，在高难度的AIME数学竞赛题目上准确率超过20%，甚至超过了一些参数量更大的传统模型，展现出了卓越的数学推理能力。

人工智能强化学习数学推理

分享至