微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

麻省理工学院用"液态思维"破解语言生成难题：让AI写文章像调鸡尾酒一样流畅

扩散语言模型流匹配连续文本生成

麻省理工学院用"液态思维"破解语言生成难题：让AI写文章像调鸡尾酒一样流畅

作者：科技行者

2026-05-18 10:16

分享至：

MIT提出ELF（嵌入式语言流），让语言生成全程在连续嵌入空间中进行，仅最后一步离散化为词语，用十分之一的训练数据超越主流扩散语言模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-18 10:16 • 科技行者

这项由麻省理工学院（MIT）研究团队完成的工作以预印本形式发布于2026年5月，论文编号为arXiv:2605.10938，有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。

语言，是人类最复杂的发明之一。当我们让计算机学会"说话"，这件事就变得格外有挑战性。过去几年，AI生成图片、视频的技术突飞猛进，背后靠的是一类叫做"扩散模型"的技术——你可以把它理解为一种"从噪声中雕刻出作品"的方法，就像米开朗基罗说"雕塑就在大理石里，我只是把多余的部分去掉"。然而，把这套方法搬到语言上，却遭遇了一道奇怪的屏障：语言是离散的，是一个个汉字、一个个单词，而不是连续变化的像素点。这就像你试图用调色盘的思路去雕刻积木——两者根本不在同一个世界。

正是这个矛盾，让MIT的研究团队决定从源头重新思考：语言AI真的必须在"积木世界"里操作吗？他们的答案是否定的。这篇论文提出了一个叫做**ELF（Embedded Language Flows，嵌入式语言流）**的新框架，核心思路是：在绝大多数时候，把语言"溶解"进一个连续的、流动的空间里进行处理，只在最后一刻才把它"凝固"回一个个具体的词。这就像调制一杯鸡尾酒：全程都在液体里混合、调味、精炼，只有在端给客人的那一秒，才决定要呈现什么样的口感。

实验结果显示，ELF以更少的训练数据（仅需对手的十分之一）、更少的生成步骤，取得了比当前主流语言扩散模型更好的表现。下面，我们就沿着这杯"鸡尾酒"的调制全程，看看MIT团队到底做了什么。

---

一、扩散模型与语言的"相性问题"

任何关于ELF的讨论，都得从理解它的"前辈们"开始。

扩散模型，简单来说，是一种先把原始数据"污染"成噪声，然后训练模型一步步把噪声"还原"成干净数据的技术。在图片领域，这个过程非常直观：给一张猫的照片逐渐加入噪点，直到变成一堆雪花；然后训练AI学会逆向操作，从雪花里一点点"洗"出一只猫。因为图片的每个像素都是一个连续的数值，这种"从模糊到清晰"的过程天然流畅。

语言却不是这样。"猫"这个字，你无法说它"有点猫"或者"猫了七成"。每个词要么是这个词，要么不是。这就是语言的"离散性"——没有中间状态，没有渐变。如果你强行给"猫"加噪声，它会变成什么？"猫→??→随机词"，整个过程逻辑上就说不通。

面对这个困境，研究者们走上了两条路。一条路是"顺水推舟"，承认语言的离散性，直接在词语空间里定义扩散过程，比如让词语随机"变成[MASK]"或"变成另一个随机词"，这就是所谓的"离散扩散语言模型"，近年来出现了MDLM、Duo等代表性工作。另一条路是"削足适履"，把每个词先翻译成一串连续的数字（即"词嵌入"，embedding），然后在这个数字空间里做扩散，这就是"连续扩散语言模型"，早期的Diffusion-LM、DiffuSeq等都走的这条路。

然而，过去几年的主流趋势是第一条路占了上风，因为离散扩散模型在实验中表现更稳定。这让很多人开始怀疑：也许语言天生就该用离散方式处理，连续方法本质上就是错的？

MIT的研究团队不这么认为。他们的判断是：连续扩散语言模型之所以表现欠佳，不是因为连续方法本身有缺陷，而是因为过去的设计在"离散"和"连续"两个世界之间来回摇摆，没有把连续方法的潜力真正发挥出来。

这个洞察，就是ELF诞生的起点。

---

二、调酒师的秘诀：全程在液体里工作

回到调鸡尾酒的比喻。调酒师在整个调制过程中，所有操作都在液体状态下进行：倒入基酒、加入糖浆、挤入柠檬汁、加冰摇匀。只有在最后，才把成品倒入杯中，呈现给客人。调酒师不会在中途把材料变回固体，检查一下是不是真的柠檬，然后再重新榨汁。那样做既低效，又会破坏整个混合的过程。

ELF的核心哲学就是这样：**在整个生成过程中，始终在连续的"嵌入空间"里操作，只在最后一步才把连续的表示映射回离散的词语。**

具体怎么做呢？

第一步，是把词语"溶解"进嵌入空间。研究团队使用了一个预训练好的T5编码器（一种专门理解文本的AI模型），把每个词变成一段512维的连续数字向量。你可以把每个词想象成一种液体原料，T5编码器的作用就是把所有原料都溶解成统一的液体形式，以便后续混合。值得注意的是，这里用的是"上下文嵌入"——也就是说，同一个词在不同语境下会被溶解成不同的液体配方，因为T5编码器会考虑整个句子的语义关系。

第二步，是在液体里"加噪-去噪"。研究团队采用了"流匹配"（Flow Matching）技术，这是比传统扩散模型更现代的一种框架。流匹配的思路很简单：定义一条从"纯噪声"到"干净数据"的直线路径，然后训练模型学会沿着这条路径"前进"的速度（即速度场）。训练时，模型看到的是被噪声污染的嵌入向量，任务是预测出对应的干净嵌入向量。噪声的加入方式是：取干净嵌入$x$和随机高斯噪声$\epsilon$，在时间步$t$时，构造$z_t = tx + (1-t)\epsilon$。当$t=0$时完全是噪声，当$t=1$时完全是干净的嵌入。整个过程就像你看着一杯浑浊的液体，逐渐澄清变成清澈饮料的过程。

第三步，也是最关键的一步，是最后的"出杯"时刻。当生成过程走到最后一步（$t=1$），ELF需要把连续的嵌入向量"凝固"回离散的词语。这个过程通过一个"反嵌入矩阵"实现，模型计算当前嵌入向量与词汇表中每个词的相似度，选最相似的那个词作为输出。关键在于，这个"出杯"操作和整个调制过程共享同一个网络的权重——就像同一个调酒师既负责全程调制，也负责最后的装杯出品，而非另请一人。

这个设计回避了前辈方法的一个大问题：之前的连续扩散模型，在每一个中间步骤都需要把连续嵌入"翻译"成词语，计算交叉熵损失，相当于调酒师每加一种原料都要先把液体冻成固体检查一下。这种强制中途离散化的做法，限制了模型在连续空间里自由探索的能力。ELF彻底去掉了这些中途检查点，让整个调制过程真正自由。

---

三、让鸡尾酒调得更准：x预测与权重共享的奥秘

ELF有两个技术细节特别值得深入讲解，因为它们直接决定了整个系统能不能真正运转起来。

第一个是"x预测"，即模型直接预测干净的嵌入，而非预测速度或噪声。

在流匹配框架里，存在三个可以互相转换的量：干净嵌入$x$、噪声$\epsilon$、流速$v$，它们之间的关系是$v = x - \epsilon$。理论上，训练模型预测任何一个都行，因为知道其中一个就能推出其他两个。然而实验发现，当嵌入维度很高（比如512维甚至768维）时，直接预测速度$v$或噪声$\epsilon$会导致模型崩溃——生成的文本要么毫无意义，要么极度重复。只有预测干净嵌入$x$，模型才能保持稳定。

为什么会这样？直觉上，高维空间里的"干净数据"倾向于分布在某些低维的流形上——类比到调酒，就是说所有好喝的饮料配方，其实都集中在配方空间的某个"美味区域"里，而不是均匀散布在所有可能的配方里。直接预测$x$让模型学会了"飞向美味区域"，而预测速度或噪声则相当于学会了"沿某个方向运动"，在高维空间里这很容易走偏。

第二个细节是共享权重的解码器设计。

前面说到，ELF在最后一步需要把连续嵌入变回词语，这个过程叫做"解码"。在之前的"潜在扩散"方法里，通常需要一个额外的、单独训练的解码器来完成这个工作，这等于是在调酒师之外，又专门雇了一个"出杯专员"。ELF的洞察是：流匹配本身在$t=1$时的"最终预测"，天然就是一个"还原干净数据"的操作，和解码器的功能完全重叠。于是，研究团队巧妙地让同一个网络在最后一步切换到"解码模式"，通过一个共享的反嵌入矩阵输出词语的概率分布。

这个共享权重的设计带来了两个好处：模型参数更少，推理时不需要额外的模块，整个系统更加简洁；同时，解码目标（预测正确的词语）和去噪目标（还原干净嵌入）通过共享权重相互促进，让模型学会的嵌入表示既有利于去噪，也有利于最终输出正确的词。

实际训练时，ELF会把每个批次的样本按照80%/20%的比例分配：80%的样本用于去噪训练，计算均方误差（MSE）损失；20%的样本用于解码训练，计算交叉熵（CE）损失。两种训练在同一个批次里并行进行，并不增加训练时间。

---

四、给调酒过程加上"导航仪"：自我条件化与无分类器引导

调出一杯好的鸡尾酒不难，但如果客人指定"要偏甜一点"或"希望酒精度低一些"，调酒师就需要一个方向感——需要一边调制，一边根据目标口味校正。ELF在这方面引入了两个配套机制：自我条件化（self-conditioning）和无分类器引导（CFG）。

自我条件化的思路非常巧妙。正常的去噪过程，模型在每个时间步只看当前的噪声嵌入和时间戳，然后预测干净嵌入。但这样做，模型没有"记忆"——它不知道上一步自己预测出了什么。自我条件化的改进是：在训练时，有50%的概率，模型会先做一次不带历史信息的预测，得到一个"初稿"$\hat{x}'$；然后把这个初稿和当前的噪声嵌入拼接在一起，再做一次更精细的预测$\hat{x}$。这就像调酒师在加入最后一种原料前，先浅尝一口，评估一下当前的口感，再决定接下来怎么调整。

在推理时，自我条件化的实现更简洁：模型在每一步都以上一步的预测结果作为"历史参考"，不需要额外的前向传播。这几乎不增加任何计算量，却让模型的预测更加连贯和一致。

无分类器引导（CFG）则是一种在图像生成领域已经非常成熟的技术，简单来说就是：同时计算"有引导信号的预测"和"无引导信号的预测"，然后用一定比例放大两者之间的差异。这就像调酒师同时调了一杯"普通版"和一杯"目标风味版"，通过放大两者的差距，最终得到一杯"超级强调目标风味"的饮料。调整"引导强度"（CFG scale）这个参数，就能在"口味浓郁"和"变化多样"之间找到平衡。

因为ELF从始至终都在连续空间里操作，而CFG在数学上就是连续向量的线性组合，这种技术可以无缝移植。相比之下，离散扩散模型很难直接套用CFG，因为离散的词语无法做线性插值——"猫"和"狗"之间没有"猫了60%狗了40%"这种中间状态。这是ELF相比离散对手的一个天然优势。

在实际实现中，ELF采用了"训练时CFG"技术，即模型在训练阶段就学会输出最终引导后的预测，而非在推理时分别计算两次。这进一步减少了推理时的计算开销。训练时，模型会随机接收一个CFG引导强度$\omega$，范围在0.5到5之间，从而学会在不同引导强度下的生成行为。推理时，只需调整这个参数即可控制生成风格，完全不需要额外的前向传播。

---

五、从实验室到实际结果：ELF的表现如何？

研究团队在两个层面上检验了ELF的表现：一是无条件文本生成（给模型一个空间，让它自由创作），二是条件生成（给模型一个输入，让它完成翻译或摘要任务）。

在无条件生成上，研究团队使用了一个标准基准：在OpenWebText数据集（约90亿词的英文网页文本）上训练，然后用一个预训练的GPT-2 Large模型来"打分"——分数越低说明生成的文本越自然流畅，这个指标叫做"生成困惑度"（Gen. PPL）。同时还测量"熵"来评估多样性，熵越高说明生成的文本越丰富多变，而不是来回重复。

ELF的主力模型ELF-B只有1.05亿参数，而对比的基准模型（MDLM、Duo、FLM、LangFlow）普遍有1.7亿参数。尽管参数更少，ELF-B仍然以显著优势胜出。在仅使用32个采样步骤时，ELF达到了约24的生成困惑度；而对手们即便使用1024个步骤，也很难达到同等水平。换句话说，ELF不仅结果更好，还更快——就像同样调一杯上品鸡尾酒，别人需要折腾一个小时，ELF只要两分钟。

更惊人的是训练数据的差距。MDLM、Duo、FLM等模型的训练用了约5000亿词的数据，而ELF只用了约450亿词，不到前者的十分之一，却取得了更好的成绩。这说明ELF的学习效率极高——也许是因为在连续空间里操作，信息的利用率本身就更高。

此外，研究还做了一项有趣的对比：很多竞争对手为了在少步骤下表现良好，需要做额外的"蒸馏"训练（即用一个已经训练好的大模型去教一个小模型，让小模型在少步骤下也能模仿大模型的效果）。ELF完全没有做蒸馏，但在少步骤生成上仍然超过了那些经过蒸馏的对手。

在条件生成任务上，ELF同样表现亮眼。在德语-英语翻译（WMT14数据集）任务上，ELF的BLEU分数（一种衡量翻译质量的指标，满分100）达到26.4，超越了规模相近的自回归模型（25.2）和MDLM（18.4）等。在新闻摘要（XSum数据集）任务上，ELF在ROUGE-1、ROUGE-2、ROUGE-L三个指标上全面领先所有对比方法。

---

六、每个调制细节都经过了反复验证

研究团队进行了大量消融实验（即"如果去掉某个设计，结果会怎样"的对比），把每一个关键设计决策都逐一验证，确保ELF的成功不是某个偶然因素导致的。

在嵌入方式的选择上，团队对比了多种方案。用预训练的T5编码器生成上下文嵌入，效果最好；从零开始在OpenWebText上训练一个编码器，效果次之但差距不大；使用固定不变的T5词嵌入矩阵（不考虑上下文），效果再次一点；用随机高斯初始化的固定嵌入，效果更差；而让嵌入矩阵和去噪器一起训练（可学习嵌入），效果反而最差。这说明，预训练的上下文嵌入为语言表示带来了丰富的语义信息，是ELF发挥作用的基础。

在解码策略上，团队也比较了"共享权重解码"和"分离训练解码器"两种方案。结果是两者在大多数情况下相近，但共享权重方案在高质量生成区间（低困惑度区间）表现更好，且不需要额外的训练阶段，流程更简洁。

采样器的选择也经过了深入测试。ELF支持两种推理方式：确定性的ODE采样（每次生成结果固定），以及带随机性的SDE采样（每次生成略有不同）。实验表明，在步骤数较少的情况下，SDE采样的生成困惑度要比ODE低得多。这是因为SDE采样在每一步都注入少量随机噪声，能在一定程度上纠正早期去噪过程中积累的误差，而ODE采样则会把早期的误差一直"确定性地"放大。这个效果很像GPS导航：ODE相当于严格按原定路线走，一旦偏了就越偏越远；SDE相当于偶尔重新定位，及时纠偏。

在嵌入的"瓶颈维度"上，团队测试了32维、128维和512维三个选项。过小的瓶颈（32维）虽然能生成低困惑度的文本，但多样性严重下降；过大的瓶颈（512维）多样性好，但质量明显下降；128维在两者之间取得了最佳平衡，成为默认设置。

训练时间和去噪步骤分配的比例同样被仔细测试。将80%的训练时间用于去噪（MSE损失）、20%用于解码（CE损失），被证明是最优配比。如果解码训练比例过高，模型的连续去噪能力会退化；如果解码训练比例过低，则最终的词语输出质量变差。

优化器的选择也被专门研究。团队对比了Muon优化器和AdamW优化器（后者是目前训练大语言模型最常用的方法）。结果发现，Muon在同样的训练步数内收敛更快，最终生成质量也更高，尤其在SDE采样下优势明显。

---

七、模型越大，酒越香：规模扩展的表现

研究团队还测试了三种规模的ELF：ELF-B（1.05亿参数，12层，768维），ELF-M（3.42亿参数，24层，1056维），ELF-L（6.52亿参数，32层，1280维）。

结果非常规律：模型越大，生成质量越好。在相同的熵水平下，更大的模型能达到更低的生成困惑度；在相同的生成困惑度下，更大的模型能保持更高的熵（即更多样性）。这说明ELF的框架具备良好的可扩展性，随着模型和算力的增加，性能还有很大的提升空间。

不同规模的模型都从SDE采样中获益，这说明SDE采样的优势不依赖于特定的模型大小，而是ELF框架本身的固有特性。

---

八、从蓝图到实物：ELF的技术架构全貌

在架构层面，ELF的底层是一个标准的扩散变换器（Diffusion Transformer），并融入了若干现代改进：SwiGLU激活函数（提升非线性表达能力）、RMSNorm归一化层（训练更稳定）、RoPE旋转位置编码（更好地处理不同长度的序列），以及QK归一化（防止注意力机制的数值不稳定）。

在条件化机制上，ELF放弃了传统扩散模型常用的adaLN-Zero方案（通过乘法和加法将条件信号注入模型），改用"上下文条件化"——直接把时间步、CFG引导强度、模型模式（去噪还是解码）等信息以控制词元的形式拼接在输入序列的前面，让模型通过自注意力机制自然地处理这些条件信息。这个改变看似小，但带来了1.05亿对比1.48亿参数的大幅缩减，效果还更好。

在推理时间调度上，ELF使用对数正态时间调度，而非均匀时间调度。对数正态调度会在接近$t=0$的噪声较大区域分配更多的推理步骤，在接近$t=1$的干净区域分配较少的步骤。这与直觉相符：从混沌噪声中提取初步结构需要更多细心操作，而在已经接近干净时做最后精修则相对容易。实验证实，对数正态调度尤其在少步骤推理时效果显著更好。

---

归根结底，ELF做的事情并不神秘。它发现了一个被前人忽视的事实：连续扩散方法在语言上之所以表现不好，不是因为连续方法本身错了，而是因为大家总忍不住在中途把连续表示打断，强行换回离散的词语空间。ELF选择了彻底的坚持——除了最后一步，全程都在连续的液态嵌入空间里操作，从不中途打断，从不离散化。这个看似简单的坚持，加上现代流匹配框架、x预测、共享权重解码、自我条件化CFG等一系列配套设计，最终让连续扩散语言模型第一次真正超越了离散方法。

这意味着，语言AI的未来可能并不只属于"在词语之间跳来跳去"的离散路线，也可能属于"在意义的液态空间里流动"的连续路线。哪条路最终会走得更远，还需要更多时间来回答。但ELF至少证明了：连续方法还有很多潜力未被挖掘，这扇门值得继续推开。

有兴趣深入了解ELF的读者，可以通过arXiv编号2605.10938查询原论文，代码已在GitHub公开发布（github.com/lillian039/ELF）。

---

Q&A

Q1：ELF与以前的扩散语言模型相比，最大的区别是什么？

A：最核心的区别在于ELF不会在生成过程的中间步骤把连续表示强制转换回离散词语。之前的连续扩散语言模型（如Diffusion-LM）在每一个去噪步骤都要计算词语预测损失，相当于每走一步都要"出戏"检查一次；而ELF全程保持在连续嵌入空间里，只在最后一步才输出具体词语。这种设计让模型的生成轨迹拥有更大的自由度，避免了中途离散化带来的信息损失和轨迹约束。

Q2：无分类器引导（CFG）在文字生成中是怎么起作用的？

A：CFG在ELF里通过"自我条件化"实现。模型会同时生成一个"有引导信号的预测"和一个"没有引导信号的预测"，然后按照一定比例放大两者之间的差距。CFG强度越高，生成的文本质量越高（困惑度越低），但多样性也会下降。这种机制在图像生成领域已被广泛验证，ELF能直接使用CFG正是连续方法相比离散方法的一个天然优势，因为离散词语之间无法做线性插值运算。

Q3：ELF生成的文本质量在翻译和摘要任务上具体有多好？

A：在德语-英语翻译任务（WMT14数据集）上，ELF-B的BLEU得分为26.4，超过了同等规模的自回归模型（25.2）、MDLM（18.4）、Duo（21.3）等。在新闻摘要任务（XSum数据集）上，ELF-B的ROUGE-1达到36.0，ROUGE-2达到12.2，ROUGE-L达到27.8，全面超越所有对比方法，包括SeqDiffuSeq和CDCD等连续扩散模型，以及AR、MDLM、Duo等离散方法。

扩散语言模型流匹配连续文本生成

分享至