微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

复旦大学团队突破语言模型瓶颈：让AI对话变得更快更聪明

人工智能掩码扩散语言模型强化学习优化

复旦大学团队突破语言模型瓶颈：让AI对话变得更快更聪明

作者：科技行者

2025-10-24 09:44

分享至：

复旦大学团队针对掩码扩散语言模型提出三项关键技术：EOS早期拒绝解决句号陷阱问题，渐进式步长调度器将解码步骤从L/2降至log?L，一致性轨迹强化学习确保训练与实际运行的一致性。研究发现规划任务更适合并行解码而数学任务偏好顺序解码，为AI系统的任务特定优化提供新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-24 09:44 • 科技行者

这项由复旦大学杨静怡、陈冠旭、胡旭昊与上海人工智能实验室邵晶团队合作的研究发表于2025年1月的arXiv预印本服务器，论文编号为arXiv:2509.23924v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能快速发展的今天，大部分AI对话系统就像是一个认真的学生，必须逐字逐句地"念"出每个字，不能跳跃，不能并行。这种传统的自回归语言模型虽然表现出色，但速度限制让人头疼。就好比一个打字员，无论多熟练，也只能一个字母一个字母地敲击键盘。

然而，科学家们一直在探索一种全新的可能性：让AI能够像人类思考一样，同时处理多个信息片段，并行生成文本。这就是被称为"掩码扩散语言模型"的新技术。这种模型就像是一位能够同时用多只手写字的神奇作家，可以并行处理信息，大大提升生成速度。

但是，这种看似完美的技术却面临着一些令人困惑的问题。研究团队发现，当他们尝试让这种并行模型按照理想的"完全扩散"方式工作时，效果往往不如预期。更奇怪的是，一种被称为"半自回归"的折中方案反而表现更好，这就像是让那位多手作家只用一部分手写字，效果竟然比全力以赴还要好。

更让人困惑的是，当研究人员尝试用强化学习来训练这些模型时，传统的方法似乎"水土不服"。这就像是用训练单手写字的方法去训练多手写字，结果自然不理想。

面对这些挑战，复旦大学的研究团队决定深入挖掘问题的根源，并提出了一套全新的解决方案。他们的发现不仅解释了为什么会出现这些奇怪现象，更重要的是，他们开发出了三个巧妙的技术来解决这些问题。

一、揭开"句号陷阱"的秘密

研究团队首先着手解决一个被他们称为"EOS陷阱"的问题。EOS是"句子结束"标记的缩写，就像我们写文章时的句号。在传统的AI模型中，这个"句号"只会在合适的时候出现。但在掩码扩散模型中，却出现了一个奇怪现象：AI总是急着在不合适的时候"画句号"。

这就像是一个急性子的学生，明明句子还没写完，就迫不及待地加上句号。为什么会这样呢？研究团队通过大量分析发现，问题出在模型的训练数据中。训练时，模型看到了太多的句号，导致它对句号产生了过度的偏好。

当模型在生成文本的早期阶段，本应该谨慎地选择词汇时，它却对句号表现出异常高的自信。这种现象在图表分析中表现得非常明显：在生成过程的早期步骤，句号的出现频率远远超过了其他有意义的词汇。

为了解决这个问题，研究团队提出了"EOS早期拒绝"技术。这个技术的工作原理就像给那个急性子学生安排一个耐心的老师，在早期阶段故意降低句号的"吸引力"，让模型更多地关注其他有意义的词汇。

具体来说，这个技术使用了一个巧妙的衰减系数。在生成的早期阶段，这个系数会大幅降低句号的选择概率，随着生成过程的推进，这个限制逐渐放松，最终在合适的时候完全恢复句号的正常权重。这样，模型就能够在合适的时机自然地结束句子，而不会过早地"画句号"。

实验结果显示，这个看似简单的技术带来了显著的改善。在规划任务和数学推理任务中，使用了EOS早期拒绝技术的模型表现明显优于原始的完全扩散解码策略，有时甚至超过了半自回归方法的效果。

二、智能的渐进式解码调度器

解决了"句号陷阱"问题后，研究团队转向了另一个重要发现：在文本生成过程中，模型的"自信心"呈现出明显的变化规律。

通过深入分析，他们发现模型在生成过程的早期阶段，就像一个刚开始学习的新手，对自己的选择缺乏信心。但随着过程的推进，模型的自信心会急剧增长，就像逐渐找到感觉的熟练工匠。

基于这个观察，研究团队意识到传统的"均匀步长"解码方式并不是最优的。传统方法就像让工匠在整个制作过程中都保持相同的工作节奏，但实际上，在不同阶段采用不同的工作策略会更加有效。

因此，他们提出了"渐进式步长"调度器。这个调度器采用了2的幂次方增长模式，在早期谨慎地生成少量词汇，在后期则更加积极地生成更多内容。

这种方法的巧妙之处在于它充分利用了模型在不同阶段的不同能力。在早期，当模型的自信心较低时，调度器会让模型只生成少量词汇，避免在不确定的情况下做出错误决策。而在后期，当模型的自信心显著提升时，调度器会释放更多的生成能力，让模型一次性处理更多内容。

这种设计带来了双重好处：不仅提高了生成质量，还大幅降低了所需的解码步骤数量。传统方法可能需要L/2步（L是目标长度），而新的调度器只需要log?L步，这意味着当目标长度为256个词时，步骤数从128步减少到仅8步，效率提升是巨大的。

更令人印象深刻的是，这种方法可以与半自回归解码策略结合使用。研究团队展示了如何将多个2的幂次方步骤组合成块，创建出更加灵活的混合解码策略，进一步优化了性能。

三、革新的轨迹一致性强化学习

在解决了解码策略的问题后，研究团队面临着更加根本性的挑战：如何有效地训练这些掩码扩散模型。

传统的强化学习方法是为自回归模型设计的，这些模型具有"因果性"保证，就像多米诺骨牌一样，每一步都严格依赖于前一步的结果。但掩码扩散模型采用的是"双向注意"机制，这打破了传统的因果链条，就像是一个能够同时看到过去和未来的时间旅行者。

这种根本性差异导致了一个严重问题：模型在实际运行时的"轨迹"与训练时优化的"轨迹"不一致。这就像是在练习驾驶时使用模拟器，但模拟器的物理规律与真实世界不同，导致在真实环境中驾驶时出现问题。

研究团队深入分析了这个问题，发现现有的妥协方案都存在显著缺陷。第一种方案是对提示进行轻微扰动，然后执行一步优化，这相当于在接近终点的地方进行微调，但忽略了整个过程的重要性。第二种方案是直接从起点跳跃到终点进行优化，这虽然涵盖了整个过程，但忽略了中间步骤的重要信息。

为了解决这个问题，研究团队提出了"一致性轨迹群体相对策略优化"算法。这个算法的核心思想是确保训练过程和实际运行过程使用完全相同的轨迹。

具体实现上，这个算法在模型运行过程中记录每一步的中间状态，包括每个位置的词汇选择概率和具体的解码位置。这些信息被存储在两个队列中：一个记录模型的"信心水平"，另一个记录具体的"决策位置"。

在训练阶段，算法使用这些真实记录的中间状态来指导优化过程，确保每一步的训练都基于模型实际运行时会遇到的情况。这样，训练和实际应用之间就建立了完美的一致性。

算法的损失函数也经过了精心设计，它计算相邻步骤之间的损失，然后对整个轨迹进行平均。这确保了模型在每个生成步骤都能得到适当的训练信号，而不是仅仅关注最终结果。

这种方法的一个潜在限制是内存消耗会随着解码步骤的增加而增长，因为需要存储更多的中间状态。但研究团队巧妙地将这个算法与渐进式步长调度器结合，由于后者大幅减少了所需的解码步骤，内存问题得到了有效缓解。这种组合策略实现了"一石三鸟"的效果：提高了性能、降低了时间复杂度、减少了空间复杂度。

四、实验验证与惊人发现

研究团队选择了LLaDA-8B-Instruct作为基础模型进行全面测试，这是一个在掩码扩散语言模型领域具有代表性的模型。他们的测试涵盖了多个具有挑战性的任务领域。

在数学推理方面，团队使用了GSM8K数据集，这是一个包含小学数学应用题的高质量数据集，以及MATH500数据集，这是从更具挑战性的MATH数据集中精心筛选的500个问题。在规划任务方面，他们测试了4x4数独游戏和"倒计时"数字游戏，前者需要约束满足和系统性消除策略，后者则是一个需要使用基本算术运算达到目标数字的组合算术游戏。

实验结果揭示了一些令人惊讶的模式。在没有额外训练的情况下，新提出的EOS早期拒绝技术显著改善了完全扩散解码的性能。特别是在规划任务中，这种技术甚至超过了传统的半自回归方法。然而，在数学任务中，EOS早期拒绝技术的表现相对保守，仍然略逊于半自回归方法。

当结合强化学习训练时，结果变得更加有趣。一致性轨迹算法与半自回归解码的组合在所有任务和16种不同设置中都超过了传统的方法。在规划任务中，这种组合的性能提升尤为显著，在某些配置中达到了传统方法的两倍性能。

更引人注目的是一致性轨迹算法与EOS早期拒绝技术的组合。在规划任务中，这种组合不仅显著超越了所有传统方法，在数独游戏中甚至达到了其他方法的四倍性能。然而，在数学推理任务中，这种组合的表现却不尽如人意，明显低于半自回归方法。

研究团队对这种有趣的任务差异进行了深入分析。他们发现，这种差异源于不同类型推理任务的本质特征。规划任务，如倒计时游戏，展现出明显的并行推理模式。在倒计时游戏中，需要推断夹在操作数和目标值之间的运算符，而数独游戏则需要同时考虑行和列的约束条件，这些都更适合非因果的并行处理。

相比之下，数学推理任务通常遵循顺序推理过程，每一步都直接建立在前一步的基础上。这种特征使得半自回归解码更加适合数学问题，因为它保持了某种程度的顺序性。

五、少步数推理的突破性进展

在验证了核心技术的有效性后，研究团队进一步探索了减少解码步骤数的潜力。传统上，掩码扩散模型需要大约一半目标长度的解码步骤才能获得良好性能，但新的渐进式步长调度器将这个需求降低到了对数级别。

在使用仅log?L步骤的实验中，EOS早期拒绝与渐进式步长调度器的组合在几乎所有基准测试中都表现出了最优性能，在7种不同设置中超越了各种其他解码方法和步长调度器。这个结果表明，这种组合具有显著降低解码步骤数的潜力。

当与强化学习结合时，即使只使用7-8步（相比原来的32-64步），EOS早期拒绝与渐进式步长调度器的组合仍然能够获得相当可观的性能。在规划任务中，这种组合甚至超越了使用传统L/2步数的传统强化学习方法。

这种少步数生成能力的实现对实际应用具有重要意义。它不仅大幅降低了计算成本，还使得掩码扩散模型的速度优势能够真正显现出来。研究团队指出，目前掩码扩散模型的性能改进还不够显著，速度优势也没有完全实现，但少步数生成的探索可能真正揭示掩码扩散模型相比自回归模型的速度优势。

六、深度分析与理论洞察

研究团队还进行了详细的消融实验来验证他们提出的一致性轨迹优化方法的有效性。他们比较了三种不同的轨迹优化策略：从接近终点的状态进行一步优化、从起点到终点的一步优化，以及他们提出的完整轨迹一致性优化。

结果清楚地显示，对每个中间解码步骤进行优化能够带来显著更好的性能。跳过中间步骤并实施其他优化策略会引入实际推出轨迹的显著优化误差，导致优化偏差。从接近终点进行优化代表了一种妥协方案，但产生了最差的性能。

这些发现提供了重要的理论洞察，解释了为什么直接将为自回归模型设计的强化学习算法应用到掩码扩散模型时会遇到困难。因果性保证的缺失不仅仅是技术细节，而是影响整个训练过程有效性的根本性问题。

研究团队还深入分析了不同任务类型对解码策略选择的影响。他们发现，任务的推理模式与解码策略的匹配程度是影响性能的关键因素。这种分析为未来设计任务特定的解码策略提供了重要指导。

通过对解码步骤数的系统性分析，研究团队确认了一个重要趋势：对于半自回归和EOS早期拒绝策略，最佳性能通常在解码步骤数为目标长度一半时实现。然而，对于完全扩散解码策略，最优步骤数通常更小，这表明完全扩散解码在快速生成方面具有更大潜力。

七、技术实现与实用性考量

在技术实现方面，研究团队详细描述了他们的算法在实际系统中的运行方式。一致性轨迹算法的实现需要在推出阶段记录中间状态，这确实会增加内存开销，但通过与渐进式步长调度器的结合，这个问题得到了有效缓解。

渐进式步长调度器的实现相对简单，但其效果却非常显著。通过采用2的幂次方增长模式，这个调度器能够自然地适应模型在不同生成阶段的能力特征。研究团队还展示了如何将这种调度器与半自回归解码相结合，创建更灵活的混合策略。

EOS早期拒绝技术的实现也相当直观，通过一个简单的衰减系数就能有效控制句号标记的出现时机。研究团队提供了具体的参数设置建议：对于均匀步长解码，建议设置γmax = 1.0，γmin在0.4到0.6之间；对于渐进式步长调度器，建议设置γmax = 1.0，γmin = 0.01。

研究团队也坦诚地讨论了他们方法的局限性。一致性轨迹算法的内存需求随着解码步骤数的增加而增长，这在处理很长的序列时可能成为瓶颈。此外，在数学推理任务中，他们的方法仍然不如半自回归策略，这表明还有进一步改进的空间。

说到底，这项研究为掩码扩散语言模型的发展开辟了新的道路。研究团队不仅识别并解决了这种新兴技术面临的关键问题，还提供了一套完整的解决方案，使得这种更高效的AI文本生成方式变得更加实用。

他们的工作证明了，通过深入理解模型的行为特征并针对性地设计优化策略，可以显著改善新兴AI技术的性能。EOS早期拒绝技术解决了模型过早结束生成的问题，渐进式步长调度器大幅减少了所需的计算步骤，而一致性轨迹强化学习则确保了训练过程的有效性。

更重要的是，这项研究揭示了不同类型任务对不同解码策略的偏好，为未来开发更智能的自适应系统提供了重要启示。归根结底，这种能够根据任务特征选择最优策略的AI系统，可能是实现真正高效、灵活的人工智能的关键所在。

当我们站在人工智能技术快速发展的十字路口时，这项研究提醒我们，技术创新不仅仅是追求更大的模型或更多的数据，有时候，深入理解现有技术的工作机制并针对性地解决其局限性，同样能够带来突破性的进展。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2509.23924v1查阅完整的研究报告。

Q&A

Q1：掩码扩散语言模型相比传统AI有什么优势？

A：掩码扩散语言模型最大的优势是能够并行处理文本生成，就像多手写字一样同时处理多个位置的词汇选择，而传统的自回归模型只能像单手写字一样逐字生成。这种并行特性带来了更高的生成速度和更灵活的生成顺序，特别适合处理需要同时考虑多个约束条件的任务。

Q2：EOS早期拒绝技术是如何解决句号陷阱问题的？

A：EOS早期拒绝技术通过在生成早期故意降低句号标记的选择概率来解决问题。它使用一个渐变的衰减系数，在生成初期大幅抑制句号的出现，随着生成过程推进逐渐放松限制，最终在合适时机恢复句号的正常权重。这就像给急性子学生安排耐心老师，防止过早结束句子。

Q3：为什么这些技术在数学任务和规划任务中表现不同？

A：这是因为不同任务的推理模式不同。数学推理通常需要顺序处理，每一步都严格依赖前一步结果，更适合半自回归的解码方式。而规划任务如数独和倒计时游戏具有天然的并行推理特征，需要同时考虑多个约束条件，因此更适合完全扩散的并行解码策略。这种差异为未来开发任务特定的AI系统提供了重要指导。

人工智能掩码扩散语言模型强化学习优化

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

复旦大学团队突破语言模型瓶颈：让AI对话变得更快更聪明

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接