微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

新加坡国立大学出手：让AI写作速度翻三倍，还几乎不出错！

人工智能扩散语言模型并行解码优化

新加坡国立大学出手：让AI写作速度翻三倍，还几乎不出错！

作者：科技行者

2026-04-17 15:15

分享至：

这项由新加坡国立大学完成的研究提出了DMax方案，针对扩散语言模型在并行生成时容易出错、错误级联累积的核心问题，通过"在线策略均匀训练"和"柔性并行解码"两项技术，赋予模型在高速并行生成文字的同时自主纠错的能力。实验表明，DMax可将数学推理任务的并行解码效率提升约2.7倍，代码生成任务提升约2.2倍，同时准确率几乎不下降，在两块H200 GPU上实现了平均每秒超过1338个词的推理吞吐量。论文编号为arXiv:2604.08302。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-17 15:15 • 科技行者

这项由新加坡国立大学研究团队完成的工作，以预印本论文形式发布于2026年4月，论文编号为arXiv:2604.08302，有兴趣深入了解技术细节的读者可以通过这个编号查询完整论文。

要理解这项研究解决了什么问题，不妨先从一个打字员的故事说起。

假设你雇了一位打字员帮你抄写文章。这位打字员有两种工作方式：第一种是逐字逐句地打，每打一个字都确认无误再往下打，这样虽然慢，但基本不出错；第二种是一次性把整段话同时打出来，速度很快，但因为没有前后对照，难免出现前言不搭后语的错误，而且一旦某个字打错了，后面的字也跟着乱了，因为打字员已经把错字当作参考往后打了。

现在的"扩散语言模型"（Diffusion Language Models，简称dLLMs）就面临着这个打字员的困境。这类模型是近年来兴起的一种AI写作技术，与大家熟知的ChatGPT等"自回归模型"不同，它更像是第二种打字员，天生就有一次性并行生成多个词语的能力，理论上速度可以快很多。但问题恰恰也在这里：一旦并行生成得太激进，错误就会像多米诺骨牌一样级联倒塌，最终生成的文字乱七八糟，毫无意义。

新加坡国立大学的研究团队针对这个"一快就出错、不出错就得慢"的核心矛盾，提出了一套名为**DMax**的新方案，让这位打字员在一次性打出大量文字的同时，还能随时发现并纠正自己的错误，最终实现了速度与质量的双赢。

---

一、两种写作机器人的根本区别

在正式介绍DMax之前，有必要先搞清楚扩散语言模型和大家熟悉的ChatGPT之间的根本区别，因为这是理解整个研究的基础。

ChatGPT这类"自回归模型"的工作方式，可以类比为一个说书人。这位说书人每次只说一个字，说完这个字才能想下一个字，思路非常清晰，前因后果衔接自然，但速度就受限于这种"一字一字"的节奏，很难加快。

而扩散语言模型的工作方式则完全不同。它更像是一个雕塑家。一开始，面前摆着一块完全被白色面具盖住的雕塑（所有位置都是"遮罩"，也就是空白），雕塑家每次揭开一批面具，露出下面的字，经过几轮揭露，最终完整的文章就呈现出来了。这种方式可以一次揭开很多面具，理论上速度远超说书人。

然而问题就在于，当雕塑家一次揭开太多面具时，有些地方可能揭错了——比如本来应该是"苹果"的位置，却错误地揭成了"香蕉"。更糟糕的是，这个"香蕉"一旦被揭露，后续的揭面具过程就会把它当作正确答案来参考，于是围绕这个错误的"香蕉"，后面的内容越来越歪，最终整个雕塑面目全非。

这就是所谓的"错误积累"问题（error accumulation）。现有的扩散语言模型，比如本文的实验基础模型LLaDA-2.0-mini，在每次揭开的面具数量较少时表现还不错，但一旦激进地大批量揭面具，准确率就急剧下降。研究团队在实验中发现，在极端并行设置下，模型在数学推理任务上的准确率会从92%以上跌落到接近0%，几乎完全失效。

---

二、为什么"改错能力"才是关键

研究团队观察到，现有扩散模型的致命弱点，正是在于它没有"改错能力"。

回到雕塑家的比喻：传统的扩散语言模型，一旦把某个位置的面具揭开，那个字就算永久定稿了，不能再修改。这就好比一个只能用钢笔写字、不能用橡皮擦的编辑。在每步谨慎操作时，这位编辑表现尚可；但一旦急着写下大量文字，出了错又没法改，就只能眼睁睁地看着文章越来越乱。

与此形成对比的，是另一类研究方向——"均匀扩散模型"（Uniform Diffusion Language Models，UDLMs）。这类模型的工作原理稍有不同：它不是把位置设置成空白面具，而是一开始随机填满乱七八糟的词，然后一步步把乱词替换成正确的词。这种方式让模型天然具备了"改写"能力，因为每个位置在每一步都可以被重新评估和替换，类似于用铅笔写字随时可以擦掉重写的编辑。

但这种方式也有明显的问题：从一堆乱码开始生成文字，难度极大，生成过程非常不稳定，就像在一张被乱涂了颜料的画布上试图画出一幅精美的画，难度远高于在空白画布上创作。

DMax的核心思路，就是把这两种方式的优点合二为一：用扩散模型稳定的"从空白开始"的方式启动，同时赋予它均匀扩散模型"随时可以改写已生成词语"的自纠错能力。

---

三、"学会纠错"的训练秘诀：在线策略均匀训练

要赋予模型改错能力，核心挑战在于训练方式。研究团队提出了一种名为"在线策略均匀训练"（On-Policy Uniform Training，OPUT）的方法，这个名字听起来很拗口，但背后的逻辑其实非常直观。

传统的均匀扩散训练方式，是这样做的：给模型看一段正确的文字，然后人为地把其中一些词随机替换成词典里随机挑出的词（比如把"苹果"换成词典里随机抽到的"航空"），再让模型猜测这些被替换的词原本是什么。这就好比出一道填空题，但挖掉的词被替换成了毫无关联的词，题目难得离谱，而且这些奇怪的填充词在真实语言中根本不会出现，导致模型学到的"纠错经验"和实际工作时遇到的错误完全不是一回事。

研究团队把这个问题称为"训练-推理不匹配"。简单说，就是模型在训练时练习的是一种错误类型，但实际工作时遇到的却是另一种错误类型，两者南辕北辙，模型自然学不到有用的纠错技能。

OPUT的聪明之处，在于让模型用自己可能犯的错误来练习纠错。具体操作是：先给模型一段带空白面具的文字，让它猜一遍；然后把它自己猜出来的结果（包括那些可能猜错的词）重新喂给它，让它再猜一遍，这次要纠正自己之前可能猜错的地方。

用一个更生动的例子来理解：一个学生在练习改错题，与其给他一堆外星文字让他猜原本应该是什么，不如先让他自己写一篇文章，然后再把他自己写出来的文章（包含他自己犯的错误）交还给他，让他找出并改正自己的错误。这样练出来的改错能力，才是真正有用的改错能力。

在技术层面，这个过程分两步走。第一步，对于一段正确的文章，随机遮住75%的词，让模型预测这些被遮住的词，得到一个"预测版本"的文章；第二步，把这个预测版本（含有模型可能犯的错误）和原始遮罩版本都喂给模型，计算两次预测的损失并加在一起进行训练。这个"两步走"的训练被称为"在线策略"，意思是训练数据来自于模型自己的在线预测，而非固定的随机干扰。

训练结束后，原本只能处理遮罩输入的模型，现在同时学会了处理"带有自己预测结果的输入"，也就是具备了修正自身错误的能力。实验验证了这种方法的有效性：在数学推理任务GSM8K上，采用这种训练方式后，模型在激进并行解码设置下的准确率从78%大幅提升到90%，效果相当显著。

---

四、解码时的"软着陆"：柔性并行解码

即便有了OPUT训练出的改错能力，研究团队发现还有一个问题没有彻底解决：当模型一次性并行生成大量词语时，大批错误可能同时出现，这些错误之间相互影响，形成一个复杂的错误网络，仅靠之后的迭代纠正很难全部修复。

在极端情况下，把一个区块内所有位置都同时解码（即解码阈值为0），即使用了OPUT训练，准确率也只有68%，距离目标还差得很远。

为了进一步增强纠错的鲁棒性，研究团队提出了"柔性并行解码"（Soft Parallel Decoding，SPD）。这个方法的核心思想是：不要把已经生成的词当作板上钉钉的最终答案，而是给每个已生成的词附加一个"不确定性信号"，并在后续迭代中把这个信号传递下去。

回到雕塑家的比喻：传统方式是一旦揭开面具，就把原来的面具扔掉，这个位置从此就是一个"确定的字"。而柔性并行解码则是：揭开面具后，不扔掉面具，而是根据揭开时的把握大小，把面具和下面的字按比例混合成一个"半透明面具"。如果揭开时把握很大（概率接近1），这个位置就接近完全透明（接近一个确定的字）；如果揭开时把握不大（概率只有0.3），这个位置就还有很大一块面具的成分（携带着大量不确定性）。

技术上，这个"半透明面具"被实现为两种向量的加权插值：一是预测的词语对应的"词嵌入向量"（可以理解为这个词的数字身份证），二是遮罩符号对应的"遮罩嵌入向量"（代表最大不确定性）。两者按照预测概率加权混合，形成一个"混合嵌入向量"。为了防止这种混合导致向量长度失衡（技术上称为"范数崩塌"），研究团队还对混合向量进行了归一化处理，确保其长度与各分量长度的加权平均相匹配。

这种设计带来了一个关键优势：在每次迭代开始之前，模型就已经通过这个混合向量收到了来自上一步的"置信度信号"。对于置信度高的位置，模型可以安心地保持原判；对于置信度低的位置，模型知道这里需要重点审查，从而集中资源进行修正。这就像一位编辑修改文章时，用浅色标注了"不太确定"的部分，下次审阅时可以重点关注这些部分，而不必对全文进行无差别的重新审查。

值得强调的是，柔性并行解码必须和OPUT训练配合使用才能奏效。原因很简单：OPUT训练让模型同时学会了从"遮罩输入"和"自身预测结果"恢复正确答案，这意味着这两种类型的向量对模型来说都是"有意义的输入"，它们之间的插值自然也是有意义的。而如果对没有经过OPUT训练的普通扩散模型直接使用柔性并行解码，模型从未见过这种混合向量输入，完全无法处理，性能会直接崩溃。实验证实了这一点：对原始LLaDA-2.0-mini直接应用柔性并行解码，模型性能确实灾难性地崩溃了。

---

五、解码流程的具体设计：一步一步揭开谜底

DMax的完整解码过程，采用了一种"分块半自回归"的方式，每次处理32个词语位置构成的一个区块，在区块内部进行并行迭代，区块之间按顺序推进。

每个区块的解码从全部遮罩状态开始，然后进入迭代循环。每次迭代时，对所有遮罩位置和已预测位置分别计算当前预测，然后按照一个"解码阈值"决定是否把某些遮罩位置升级为预测位置。

这里有一个精妙的设计：研究团队并不是简单地把所有置信度超过阈值的遮罩位置一次性全部揭开，而是只揭开从左到右连续的满足条件的最长前缀。举个例子，如果当前遮罩区域从第5个词开始，第5、6、7个词的置信度都超过阈值，但第8个词置信度不够，那就只揭开第5、6、7个词，第8个词及其后面的所有词保持遮罩状态。

这种设计的逻辑是：右边的未来词语，在当前状态下可能预测得不准确，如果强行把它们揭开，反而会给左边的词语预测带来干扰。保持从左到右的连续遮罩区域，可以防止这种"未来错误污染当前预测"的问题。

区块被认为已经收敛完成，有两个判断标准：一是连续两次迭代的最优预测结果完全相同（说明模型对这一区块已经收敛到稳定状态）；二是区块内所有位置的置信度都超过0.9（说明模型对所有预测都非常有把握，无需再迭代）。只要满足其中一个条件，就提交这个区块的结果，移动到下一个区块。研究团队发现，第一个条件（一致性）是主要的收敛信号，大多数区块靠这个条件终止迭代；第二个条件（置信度）可以在模型已经非常确定时提前终止，省去最后一次多余的前向传递，进一步提升效率，同时不影响准确率。

---

六、实验怎么做的，效果有多好

研究团队用LLaDA-2.0-mini这个目前开源最先进的扩散语言模型作为基础，通过OPUT方法进行了微调训练。训练数据完全来自模型自身的生成，没有使用任何外部高质量数据，体现了一种"自举"（bootstrapping）的思路。具体来说，数学方向收集了包括GSM8K训练集、PRM12K等来源的提示词，让模型自己生成回答，最终得到了70万条数学样本；代码方向则从OpenCodeInstruct数据集取样，得到了100万条代码样本。训练在8块H200 GPU上进行，对模型所有参数进行了2轮完整微调。

评估在6个不同的基准测试上进行，覆盖了数学推理和代码生成两大领域。数学方向包括GSM8K（小学数学应用题）、MATH500（竞赛级数学题）、Minerva-Algebra（代数推理）和ASDIV（多样化数学题）；代码方向包括HumanEval-Instruct（代码生成）和MBPP-Instruct（编程问题求解）。评估时使用了两块H200 GPU的张量并行配置，生成长度统一设置为2048个词。

除了准确率和通常的速度指标（每秒生成词数，TPS），研究团队还特别引入了两个更有说服力的指标。第一个是"每次前向传播生成词数"（TPF，Tokens Per Forward），这个指标衡量的是每次调用模型时平均能生成多少词，直接反映了并行解码的效率，TPF越高说明并行度越高、效率越高。第二个是"AUP分数"，这是一个综合考虑准确率和并行度的综合评分，如果准确率下降到某个阈值以下就会被记零分，防止用牺牲准确率来换取虚假的速度提升。

在GSM8K上，原始LLaDA-2.0-mini的TPF是2.04，意味着平均每次前向传播只能生成约2个词；DMax则将这个数字提升到5.48，提升了将近2.7倍，而准确率仅从92.6%微降至92.1%，几乎没有变化。在MATH500上，TPF从2.58提升到5.94，同样是约2.3倍的提升，准确率从75.8%微降到75.4%。在代码生成的MBPP上，TPF从2.71提升到5.86，准确率从80.6%小幅降至79.2%。

与其他竞争方案相比，DMax的优势相当突出。研究团队对比了三种基线方法：一是"层级解码"（Hierarchical Decoding），一种通过分而治之提升并行度的无需训练的解码策略；二是"dParallel-SFT"，使用了确定性强制蒸馏的有监督微调方法；三是"均匀扩散训练"，也就是用传统方式训练的均匀扩散模型。

结果显示，层级解码在GSM8K上的TPF只提升到2.44，dParallel-SFT提升到2.79，而DMax提升到5.48，差距非常显著。均匀扩散训练的结果则一塌糊涂——TPF没有改善不说，准确率还大幅下降，在GSM8K上只有68.7%，MATH500上更惨跌至33.6%，这恰恰验证了研究团队关于"传统均匀训练存在严重训练-推理不匹配"的判断。在AUP综合评分上，DMax在所有6个基准上都全面领先，均匀扩散训练则因准确率崩溃而被记零分。

此外，一个令人意外的发现是，DMax不只是在激进并行解码下有优势，即使在保守的低并行度设置下，它的准确率也比原始模型更高。在GSM8K上，低并行度下DMax的准确率为93.4%，比原始模型的92.6%高了0.8个百分点；在HumanEval上高了3个百分点，达到87.2%。研究团队认为，这是因为自纠错能力让模型能够在推理过程中发现并修正之前步骤中的推理错误，而不仅仅是生成层面的词语错误。

在实际推理速度上，在两块H200 GPU上，DMax的平均推理吞吐量超过每秒1000个词，其中部分基准上达到了1557词/秒，整体平均约1338词/秒，真正实现了高速高质的并行解码。

---

七、关键设计的消融实验：每一步都有它的价值

研究团队还系统地分析了DMax中每个设计选择的贡献，通过"消融实验"（即逐一去掉某个设计，看效果会如何变化）来验证每个组件的必要性。

在三种解码激进程度（阈值0.95、0.50、0.0）下，研究团队对比了以下几种组合：什么都不加的原始模型；只加OPUT训练；加OPUT训练加连续前缀限制；加OPUT训练加混合嵌入；全部三种改进都加。

结果清晰地显示了各个组件的贡献。单独使用OPUT训练（没有柔性解码）时，在中等并行度（阈值0.5）下准确率就已经从78%提升到90.1%，说明OPUT本身就有很强的效果。进一步加入连续前缀限制，准确率从90.1%升到91.3%，提升幅度不大但稳定。加入混合嵌入（柔性并行解码的核心）后，准确率从90.1%跳升到91.4%（中等并行度），而在极端情况（阈值0.0）下从68.2%大幅提升到90.4%，效果在高并行度下尤为突出。三种改进全部组合，在各个并行度下都能达到最优或接近最优的效果，同时在高并行度下保持了90.4%的高准确率。

值得注意的是，如果在没有OPUT训练的情况下直接应用连续前缀限制和混合嵌入，模型完全崩溃——TPF只有1.04（甚至比原来更低），准确率为0%。这再次证实了OPUT训练是整个系统的基础，柔性并行解码只有在OPUT训练的前提下才有意义。

---

说到底，DMax做的事情，就是教会了扩散语言模型一件它原本不会的本领：在快速生成文字的同时，随时发现并纠正自己的错误，而不是一错到底。

这件事的价值，对于普通用户来说体现在两个层面。第一个层面是速度：同样的问题，DMax驱动的模型可以在更短的时间内给出答案，在数学推理等任务上速度提升接近三倍，而准确率几乎没有损失。第二个层面是质量：由于具备了自纠错能力，模型在推理过程中能够修正中间步骤的错误，因此即便在慢速解码模式下，准确率也比原来提高了1%到3%，这对于追求精确答案的应用场景意义不小。

当然，这项研究也存在一些值得关注的边界：目前的实验主要集中在数学推理和代码生成两个领域，这些领域有明确的对错标准，便于评估。对于更开放性的创意写作或对话任务，DMax的效果是否同样出色，还需要进一步验证。此外，训练数据完全来自模型自身的生成这一做法虽然节省了成本，但也意味着如果原始模型在某类问题上就有系统性偏差，这种偏差可能会被延续下来。

未来，这项工作指向了一个有趣的方向：如果AI模型能够更好地在生成过程中实时自我监督和修正，是否意味着一条通向更可靠、更高效AI助手的新路径？对于扩散语言模型这一相对新兴的方向，DMax提供了一个值得深入研究的新范式。有兴趣追踪这个方向的读者，可以通过论文编号arXiv:2604.08302获取完整的技术细节。

---

Q&A

Q1：扩散语言模型和ChatGPT这类模型有什么区别，哪个更好？

A：扩散语言模型和ChatGPT代表的自回归模型是两种不同的AI写作方式。自回归模型逐字生成，类似于说书人一字一句讲故事，准确但速度受限；扩散语言模型则可以同时生成多个词，速度更快但容易出错。目前两类模型各有优劣，自回归模型在质量上仍然领先，但扩散语言模型在推理速度上更有潜力，DMax正是朝着弥合这一差距的方向努力。

Q2：DMax的训练数据都是模型自己生成的，这样不会越练越差吗？

A：这是个很好的问题。DMax采用了"自举"训练方式，数学和代码样本全部来自模型自己的生成，没有引用外部高质量答案。研究发现这种方式反而有效，原因在于OPUT训练的目标不是让模型生成更好的答案，而是让它学会识别并纠正自己的错误。训练时使用的是"正确答案"作为监督信号，只是用模型自己的错误预测作为输入来练习纠错，所以不会陷入自我强化错误的循环。

Q3：DMax需要专用硬件才能运行吗，普通消费者能用到这个技术吗？

A：DMax的实验是在两块H200专业GPU上完成的，目前确实不是消费级配置。不过，DMax本身是一套训练和解码方法，理论上可以应用于任何规模的扩散语言模型。随着扩散语言模型技术逐步走向成熟和普及，DMax这类提升效率的方法有望被整合进未来更多的AI产品中，最终以更快速响应的形式惠及普通用户。

人工智能扩散语言模型并行解码优化

分享至