微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI写作助手不再"认真看自己写的字"：一项由法国综合理工学院、MBZUAI等机构联合发起的离散扩散模型研究

离散扩散模型均匀扩散模型优化留一法后验预测

当AI写作助手不再"认真看自己写的字"：一项由法国综合理工学院、MBZUAI等机构联合发起的离散扩散模型研究

作者：科技行者

2026-06-04 10:16

分享至：

这篇论文揭示均匀扩散模型训练目标与实际最优解之间的根本矛盾，提出"留一法预测"框架，通过精确转换公式统一去噪后验与留一法后验，并构建吸收态均匀扩散模型，显著提升文本生成质量。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 10:16 • 科技行者

这项由法国综合理工学院（Ecole polytechnique）、穆罕默德·本·扎耶德人工智能大学（MBZUAI）、法国国家信息与自动化研究所（Inria）及巴黎科学文理研究大学（PSL Research University）联合完成的研究，于2026年5月以预印本形式发布，编号为arXiv:2605.22765。有兴趣深入研究的读者可通过该编号在arXiv平台查阅完整论文。

在AI生成文字这件事上，有一种模型的工作方式不是从左到右一个字一个字地写，而是先把整段文字弄成"乱码"，然后再把乱码慢慢还原成有意义的句子。这类模型叫做"离散扩散模型"，近年来因其灵活性和并行处理能力而备受关注。不过，这类模型内部有一个长期被忽视的设计问题，而这项研究就是专门来把这个问题说清楚的。

核心问题可以用这样一个场景来理解：假设你是一位校对员，负责把一段被随机打乱的文字还原回正确内容。正常情况下，你应该看着整段乱文来猜测某个位置原本的内容——但有一种特殊情况是，当你猜测第7个字的时候，你不应该参考第7个位置现在写的是什么，因为那个位置的"乱码"对你判断它原本是什么几乎没有帮助，甚至会误导你。然而现有的很多模型在设计上却让它猜第7个字时，偏偏非常依赖第7个位置上那个乱码。这就是这篇论文发现的核心矛盾。

研究团队把这种"猜某个位置的内容时不参考该位置自身乱码"的预测策略称为"留一法预测"，并围绕它展开了一系列理论分析与实验验证。他们不仅证明了这种预测策略在数学上才是真正最优的，还给出了多种将其应用于实际训练和推理的方法，最终显著改善了模型的生成质量。

---

一、两种扩散模型的故事：乱码派和遮挡派

要理解这项研究，首先需要了解两种主流的离散扩散模型是如何工作的。可以把文本生成过程想象成一幅画的修复工作：原始画作代表有意义的句子，经过"损坏"处理后变成残破图像，然后模型要把残破图像一步步还原成完整画作。

两种模型的区别在于"损坏方式"不同。一种叫做"均匀扩散模型"（Uniform Diffusion Model，简称UDM），它的做法是把文字中的每个字随机替换成词汇表中任意一个字，就像把画中每个像素随机替换成彩色噪点。另一种叫做"遮挡扩散模型"（Masked Diffusion Model，简称MDM），它的做法是直接把某些字用一个特殊的"遮挡符号"盖住，就像在画上贴了一张不透明的贴纸，被贴住的地方完全不可见，但没贴的地方仍然清晰可见。

在过去几年里，遮挡模型变得越来越流行，而均匀替换模型逐渐被边缘化。研究者们普遍认为这是因为遮挡方式本身更好，但这项研究要挑战这个流行观点。研究团队认为，两种模型之间的性能差距，可能并不来自"遮挡"和"均匀替换"这两种损坏方式本身的优劣，而更多来自人们在使用均匀扩散模型时所选择的训练和预测方式。换句话说，是"用法问题"而非"工具问题"。

这个判断的出发点，是研究团队发现了均匀扩散模型在参数化设计上存在一个被长期忽视的根本性矛盾。

---

二、校对员的困境：为什么"看自己写的字"是个坏习惯

理解这个矛盾，需要先了解扩散模型是如何做预测的。模型在训练时需要学会一件事：给定一段被随机扰动的文字，预测出每个位置原本的正确内容。这个预测过程可以用数学上的"去噪后验概率"来描述，也就是"在看到乱文之后，判断每个位置原本是什么字的概率分布"。

现有的均匀扩散模型主要使用一种叫做"桥接插入参数化"的方法：训练一个神经网络，让它输出每个位置的"猜测"，然后把这个猜测直接代入一个数学公式（叫做"桥"或"bridge"），计算出下一步应该如何更新文字。这种做法听起来很直接，但问题恰恰藏在这里。

研究团队通过严格的数学推导证明了一件事：在均匀扩散模型中，当你用"桥接插入"方式训练模型时，模型真正学到的最优预测，并不是标准的"去噪后验概率"，而是一种叫做"留一法后验概率"的东西。这两者的区别非常微妙但又至关重要。

标准的去噪后验是：看着整段乱文（包括第7个位置的乱码），来预测第7个位置原本是什么字。而留一法后验是：只看除了第7个位置之外的所有位置的乱码，来预测第7个位置原本是什么字。

为什么两者会有区别？在均匀替换模型中，第7个位置的乱码可能是原始词汇，也可能是随机替换来的任意词汇。这个乱码本身携带了一定的"自我信息"：如果乱码和原始字相同，那就有点像是"线索"，而非纯粹的噪声。所以，如果模型在预测第7个字时，受到了第7个位置乱码的强烈影响，它就会倾向于"无脑复制"当前位置的乱码，而不是从周边语境中获取真正有用的信息。

用校对员来类比就是：当你要判断第7个字原本应该是什么时，你不应该太依赖"这个位置现在写着什么"，而应该更多地依靠"这个位置前后的语境"。因为在均匀替换的场景下，当前位置的内容有可能是噪声干扰，参考它反而会带偏你的判断。

这就是留一法预测的核心直觉，而研究团队从数学上证明了它才是"桥接插入参数化"的真正最优解。

---

三、遮挡模型为什么没有这个问题

了解了均匀扩散模型的困境之后，自然会产生一个疑问：遮挡模型为什么没有这个问题？

原因在于遮挡模型的损坏方式天然就屏蔽了"看自己写的字"这个问题。在遮挡模型中，每个位置要么被一个统一的"遮挡符号"覆盖，要么保留原始内容。当一个位置被遮挡时，模型看到的是空白——那个位置上什么信息都没有，所以"看自己"和"不看自己"这两件事根本没有区别，因为反正什么都看不见。而当一个位置没有被遮挡时，模型可以直接知道该位置的原始内容，无需预测。

这就解释了为什么遮挡模型中"桥接插入"和"边缘化预测"两种方式是等价的——因为遮挡操作本身就消除了两者之间的区别。而在均匀替换模型中，每个位置都保留了"部分信息"（有可能是原始字，也有可能是噪声），这才使得"参考自己"和"不参考自己"产生了实质性的差异。

这个发现不仅揭示了一个长期被忽视的理论矛盾，也说明了为什么历史上的均匀扩散模型训练效果往往不尽如人意——它们的训练目标（最小化标准交叉熵，相当于训练一个标准去噪模型）和真正应该学习的东西（留一法后验概率）之间存在系统性的错位。

---

四、从发现问题到解决问题：三把钥匙

发现了这个矛盾之后，研究团队提出了一套完整的解决方案，可以用三把"钥匙"来概括。

第一把钥匙是转换公式。既然留一法后验和标准去噪后验是不同的东西，那么它们之间能互相转换吗？研究团队推导出了一组精确的转换公式，可以在这两种预测之间来回切换。具体来说，如果已经训练好了一个标准去噪模型，可以通过一个简单的数学变换把它的输出"转换"成留一法预测，反之亦然。

这个转换公式在实践中有三个重要用途。第一个用途是让模型同时享受两种训练目标的好处。研究者可以选择训练一个输出留一法预测的模型，然后在生成时用标准桥接公式采样；也可以反过来，训练一个标准去噪模型，但在推理时先把它转换成留一法预测再使用。第二个用途是改进采样过程，不需要重新训练模型就能提升生成质量（下文详述）。第三个用途是作为诊断工具，检测一个已训练模型是否真正学到了留一法后验——如果模型的第7个位置输出对第7个位置的输入非常敏感，就说明它还没有达到最优。

转换公式的具体形式是这样的：在均匀扩散模型中，前向过程对每个位置的噪声化概率有一个明确的数学形式，可以用当前的噪声强度和词汇表大小来表示。利用这个结构，研究团队推导出了标准去噪预测和留一法预测之间的显式关系式，使得两者可以精确互换，不损失任何信息。

---

五、用更聪明的方式训练模型

有了转换公式，研究团队提出了一种更聪明的训练方式。核心思路是：让神经网络的最终输出代表留一法后验，但训练时用的损失函数仍然是人们熟悉的标准交叉熵——只是在损失计算之前，先把网络输出转换成对应的标准去噪预测，再用它和真实标签计算交叉熵。

这个设计的巧妙之处在于，它把留一法结构"内嵌"进了网络的参数化方式，而不需要修改训练目标或者改变模型架构。网络内部输出的是留一法预测，但损失函数看到的是标准去噪预测——两者通过转换公式连接，形成一个自洽的训练循环。

具体实现时，假设网络对第7个位置输出了一个概率分布（用softmax激活函数得到），这个输出代表的就是"不考虑第7个位置自身噪声时，该位置原本内容的猜测"。然后在计算损失之前，系统会自动把这个留一法预测调整（加上一个与当前噪声强度相关的修正项），得到对应的标准去噪预测，再用它来计算交叉熵。

从大量实验中可以看到，这种训练方式在几乎所有测试场景下都优于直接训练标准去噪模型，尤其是在低熵（也就是模型非常"确定"自己输出什么）的生成区间，差距最为明显。用训练曲线来看，留一法参数化方式收敛更快，最终的验证困惑度（一种衡量语言模型好坏的指标，数值越低越好）也更低。

---

六、推理时的免费升级：预测-校正采样

转换公式的第二个重要应用发生在推理（也就是生成文字）阶段。

普通的扩散模型采样过程，就像把一段乱码逐步还原：每一步都做一次"反向扩散"，把乱文稍微还原一点，然后重复这个过程直到得到清晰的句子。这种方式叫做"预测步"。

但有一种更高级的策略叫做"预测-校正采样"，它在每次预测步之后额外加入一个"校正步"。校正步的作用是在当前噪声水平下对文字进行局部调整，修正那些预测步可能引入的错误，而不推进时间轴。这就好像你在修复一幅画时，每完成一道工序之后，不是立刻进行下一道，而是先拿着放大镜仔细检查刚刚修复的区域，把明显不对的地方再修一修，确认满意后再继续。

这种校正步需要用到一个特殊的信息：每个位置在当前噪声环境下的"真实条件概率"——也就是，在知道所有其他位置内容的情况下，这个位置最可能是什么。而研究团队证明，这个条件概率恰好可以由留一法预测来计算。

更妙的是，由于均匀扩散模型的留一法预测可以从标准去噪预测通过转换公式得到，这意味着：如果你已经有了一个训练好的标准去噪模型，你可以直接用转换公式把它的输出转换成留一法预测，然后就可以免费使用预测-校正采样策略，完全不需要重新训练任何额外模型。

在实验中，加入这种基于留一法的校正步之后，生成质量（用GPT-2大型模型评估的"生成困惑度"来衡量）显著提升，而且这种提升在计算成本上几乎是免费的——校正步的计算时间和预测步相当，不增加任何额外的开销。

研究团队还在校正步中引入了一个"置信度优先"策略：在每次校正时，优先更新那些模型最不确定的位置（也就是"留一法预测给出的概率分布最扁平"的位置），而不是随机或按顺序更新。这进一步提升了校正效果。

---

七、温度采样的正确打开方式

模型在生成文字时，可以通过调整一个叫做"温度"的参数来控制输出的随机性：温度高时输出更多样、更有创意但可能不够连贯；温度低时输出更保守、更一致但可能显得刻板。类似的还有一种叫做"核采样"（top-p采样）的方法，它只保留累积概率超过某个阈值的词汇，去掉那些概率极低的选项。

一个过去没有被认真讨论过的问题是：在均匀扩散模型中，温度或核采样应该应用到哪个预测结果上——是标准去噪预测，还是留一法预测？

研究团队通过实验发现，把这些采样策略应用到留一法预测上，效果明显优于应用到标准去噪预测上。这背后的直觉是：留一法预测更准确地反映了"基于语境的不确定性"，而标准去噪预测中混入了"参考自身位置"带来的系统性偏差，温度调整作用在一个有偏差的分布上效果自然打折扣。

同样地，如果你已经有了一个训练好的标准去噪模型，你可以先把它的输出转换成留一法预测，然后再做核采样，效果也会比直接对去噪预测做核采样更好。这同样是一种完全免费的推理升级。

---

八、一次彻底的"亲戚认亲"：均匀扩散和遮挡扩散的深层联系

以上几节都是围绕均匀扩散模型本身的改进。但研究团队还有一个更宏大的目标：彻底弄清楚均匀扩散和遮挡扩散之间的关系，看看能不能把遮挡扩散的一些优良特性"移植"到均匀扩散上。

为了做到这一点，研究团队提出了一种巧妙的理论构建方式，叫做"吸收态均匀扩散模型"（AUDM）。其核心思路是：把均匀扩散过程重新解读为"在一个隐藏随机变量条件下的吸收态扩散过程"。

具体来说，均匀扩散的前向过程可以被理解成这样：先为每个位置秘密抽取一个"吸收态"（从词汇表中随机选一个字），然后在这个固定吸收态的条件下，这个位置就像遮挡扩散一样工作——随着时间推移，这个位置越来越可能变成那个秘密抽取的"吸收字"，而不是保持原来的内容。从外部观察者的角度来看，这和普通的均匀扩散完全一样；但从内部机制来看，它其实是在一堆"私人遮挡扩散"的混合。

这个重新解读带来了几个立竿见影的好处。第一，条件后验（给定吸收态后的去噪问题）具有非常简单的结构：如果一个位置当前的值和秘密吸收态不同，那么这个位置的原始内容肯定就等于当前值（因为只有原始内容才会和吸收态不同，噪声只会往吸收态方向走）；只有当前值等于吸收态的那些位置才是真正需要预测的。这和遮挡扩散中"已知位置直接保留、遮挡位置需要预测"的结构几乎一模一样。

第二，这种结构天然支持一种叫做"重采样"的机制，可以在每一步生成之后刷新那个隐藏的吸收态，从而逐步把均匀扩散的整体行为精确恢复出来。研究团队证明了用这种重采样方式运行模型，生成轨迹的概率分布和标准均匀扩散模型完全一致——不是近似，是精确一致。

---

九、彻底打通两个世界：用遮挡模型的"大脑"驱动均匀扩散的"身体"

吸收态重构还衍生出了一个更令人惊喜的结果：可以用一个遮挡扩散模型的去噪器来驱动一个保留均匀扩散联合分布的生成过程。

研究团队通过引入"转移时间"这个概念，将均匀扩散的前向过程解读为：每个位置有一个随机的"转变时刻"，在这个时刻之前它保持原始内容，在这个时刻之后它变成随机噪声。如果把"转变时刻之前"类比成遮挡模型中的"未被遮挡"，把"转变时刻之后"类比成"被遮挡"，那么整个均匀扩散的条件去噪问题，就等价于一个遮挡扩散的去噪问题——只是遮挡的位置不是固定的，而是由这些隐藏的"转变时刻"来决定。

这意味着：一个已经训练好的遮挡扩散去噪器，可以直接被用来驱动一个均匀扩散的生成过程，而且生成轨迹的概率分布和标准均匀扩散一模一样（通过添加转移时间的重采样步骤来保证这一点）。

这个结果从理论上斩断了"遮挡扩散之所以好是因为遮挡本身更好"这个流行假说的根基——因为既然可以用遮挡去噪器来实现均匀扩散的联合分布，那么两者之间的差异就不可能来自噪声形式本身。

---

十、实验室里的大考：从语言建模到数独游戏

理论上的分析再精彩，也需要实验来证明它的实用价值。研究团队在两类任务上进行了大规模测试。

在语言建模任务上，研究团队使用了两个常见的基准数据集：一个是"十亿词语"（LM1B），每段文字128个词；另一个是"开放网络文本"（OpenWebText，简称OWT），每段文字1024个词。所有模型都使用相同的基础架构（一种叫做DiT的Transformer变体），从头训练100万步，批次大小512。

在困惑度（越低越好）方面，使用留一法参数化的均匀扩散模型在几乎所有测试数据集上都优于使用标准去噪参数化的版本。更重要的是，使用留一法的OWT模型在多个零样本迁移测试数据集（包括AG News、Lambada、WikiText等）上也展现了更强的泛化能力。

在生成质量方面，研究团队使用"生成困惑度"（Gen-PPL，用GPT-2大型模型来评估生成文字的质量，数值越低说明生成的文字越自然）和"一元语法熵"（衡量输出多样性）来共同评估。通过绘制"生成质量-多样性权衡曲线"（也叫"生成前沿"），可以直观看到不同方法的综合表现。

实验结果显示，留一法参数化在低熵（高置信度生成）区间的优势尤为突出。当与校正采样结合时，其生成质量曲线几乎在所有点上都优于单纯的温度采样。把温度或核采样应用到留一法预测（而非标准去噪预测）上，也能带来可观的改善，而且不需要任何额外的计算开销。

在吸收态均匀扩散模型（AUDM）方面，它以仅4.1%的额外参数开销（约700万参数，用于处理隐藏的吸收态变量），在整个均匀扩散家族中达到了最佳的困惑度表现，甚至在多个零样本迁移数据集上超越了遮挡扩散模型，尽管在OWT验证集困惑度上仍略低于遮挡模型。在生成质量曲线上，AUDM与遮挡扩散模型相当甚至略胜一筹。

在数独完成任务上（这是一个9×9数独谜题，模型需要填写缺失的数字，同时满足数独的所有规则），使用留一法训练的均匀扩散模型达到了接近完美的解题准确率，而且在这个结构性推理任务上也胜过了遮挡扩散模型，进一步验证了留一法的优越性不局限于语言任务。

---

十一、把两个世界的距离说清楚

在整个研究过程中，研究团队一直在追问一个更深层的问题：均匀扩散和遮挡扩散之间的性能差距，到底是来自两种噪声机制的本质区别，还是来自它们通常搭配的参数化和采样策略的差异？

通过AUDM这个桥梁构建，以及一系列对比实验，这项研究给出了一个清晰的答案：差距主要来自参数化和采样策略，而非噪声机制本身。

具体证据有三点。第一，当均匀扩散模型使用了正确的留一法参数化之后，它的性能相比使用标准去噪参数化的版本有显著提升，缩小了和遮挡模型之间的大部分差距。第二，AUDM在保持均匀扩散联合分布（也就是噪声机制完全是均匀替换）的同时，达到了和遮挡模型相当的性能，说明"均匀替换的噪声本身"并不是性能瓶颈。第三，通过吸收态重构，遮挡模型的特有优势（如"已知位置直接保留"的结构）可以被精确复现在均匀扩散框架中，而不改变联合分布。

这个结论对整个领域有重要的指导意义：人们不应该因为某一类模型在某种常见配置下表现不好，就轻易放弃它，而应该先检查这种不好的表现是不是由于设计上的系统性错误造成的。

---

归根结底，这项研究干了一件听起来简单但实际上非常精细的事情：它找到了一个被所有人忽略了很久的设计漏洞，证明了这个漏洞的存在，给出了修复方案，并通过大量实验验证了修复后的效果。

说到底，让AI"不看自己写的字"来猜自己写了什么，这个要求在日常生活中听起来有点奇怪，但在均匀替换的噪声世界里，这却是最合理的策略。现有的很多模型之所以没做到这一点，不是因为不可能，而是因为大家以前没意识到这是个问题。而一旦有人指出问题所在，解决方案其实并不复杂——用一个转换公式，把"看了自己"的预测调整成"没看自己"的预测，效果就能立竿见影地提升。

这项研究还有一个开放性的遗留问题：为什么留一法参数化在生成质量上有优势，目前还只有经验证据，缺乏理论解释。同时，AUDM虽然在困惑度上达到了最佳，但生成前沿的最优表现仍然来自留一法均匀扩散模型，说明两个方向还有进一步融合的空间。对于这些问题感兴趣的读者，可以通过arXiv编号2605.22765查阅完整论文，获取所有数学推导和实验细节。

---

Q&A

Q1：留一法后验和标准去噪后验在均匀扩散模型里有什么具体区别？

A：标准去噪后验预测某个位置的原始内容时，会参考该位置当前的噪声值；而留一法后验则完全忽略该位置自身的噪声，只依靠其他位置的信息来做预测。在均匀替换噪声下，当前位置的噪声可能是原始内容本身，也可能是随机字符，参考它会引入偏差；留一法通过不参考自身来消除这种偏差，因此在桥接插入参数化下它才是真正的最优解。

Q2：AUDM和普通均匀扩散模型在结构上有什么不同？

A：普通均匀扩散对每个位置做无条件的随机替换；AUDM引入了一个隐藏的"吸收态"变量，每个位置有一个秘密的随机目标字，扩散过程在这个目标字的条件下进行。从外部看两者的边际分布完全一样，但AUDM的条件结构更简单，类似于遮挡扩散，使得去噪更容易且更结构化。通过在每步生成后重采样吸收态，AUDM可以精确复现标准均匀扩散的联合分布。

Q3：把温度采样应用到留一法预测上为什么比应用到标准去噪预测上效果更好？

A：标准去噪预测因为"看了自己"而存在系统性偏差，高置信度预测里混入了来自自身噪声位置的虚假确定性。在这个有偏的分布上做温度或核采样，调整的是一个不准确的基础。留一法预测排除了自身噪声的影响，更纯粹地反映了语境带来的不确定性，在这个更干净的分布上做采样调整，效果自然更准确，生成质量提升也更显著。

离散扩散模型均匀扩散模型优化留一法后验预测

分享至