
这项由麻省理工学院(MIT)研究团队完成的工作以预印本形式发布于2026年5月,论文编号为arXiv:2605.10938,有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。
语言,是人类最复杂的发明之一。当我们让计算机学会"说话",这件事就变得格外有挑战性。过去几年,AI生成图片、视频的技术突飞猛进,背后靠的是一类叫做"扩散模型"的技术——你可以把它理解为一种"从噪声中雕刻出作品"的方法,就像米开朗基罗说"雕塑就在大理石里,我只是把多余的部分去掉"。然而,把这套方法搬到语言上,却遭遇了一道奇怪的屏障:语言是离散的,是一个个汉字、一个个单词,而不是连续变化的像素点。这就像你试图用调色盘的思路去雕刻积木——两者根本不在同一个世界。
正是这个矛盾,让MIT的研究团队决定从源头重新思考:语言AI真的必须在"积木世界"里操作吗?他们的答案是否定的。这篇论文提出了一个叫做**ELF(Embedded Language Flows,嵌入式语言流)**的新框架,核心思路是:在绝大多数时候,把语言"溶解"进一个连续的、流动的空间里进行处理,只在最后一刻才把它"凝固"回一个个具体的词。这就像调制一杯鸡尾酒:全程都在液体里混合、调味、精炼,只有在端给客人的那一秒,才决定要呈现什么样的口感。
实验结果显示,ELF以更少的训练数据(仅需对手的十分之一)、更少的生成步骤,取得了比当前主流语言扩散模型更好的表现。下面,我们就沿着这杯"鸡尾酒"的调制全程,看看MIT团队到底做了什么。
---
一、扩散模型与语言的"相性问题"
任何关于ELF的讨论,都得从理解它的"前辈们"开始。
扩散模型,简单来说,是一种先把原始数据"污染"成噪声,然后训练模型一步步把噪声"还原"成干净数据的技术。在图片领域,这个过程非常直观:给一张猫的照片逐渐加入噪点,直到变成一堆雪花;然后训练AI学会逆向操作,从雪花里一点点"洗"出一只猫。因为图片的每个像素都是一个连续的数值,这种"从模糊到清晰"的过程天然流畅。
语言却不是这样。"猫"这个字,你无法说它"有点猫"或者"猫了七成"。每个词要么是这个词,要么不是。这就是语言的"离散性"——没有中间状态,没有渐变。如果你强行给"猫"加噪声,它会变成什么?"猫→??→随机词",整个过程逻辑上就说不通。
面对这个困境,研究者们走上了两条路。一条路是"顺水推舟",承认语言的离散性,直接在词语空间里定义扩散过程,比如让词语随机"变成[MASK]"或"变成另一个随机词",这就是所谓的"离散扩散语言模型",近年来出现了MDLM、Duo等代表性工作。另一条路是"削足适履",把每个词先翻译成一串连续的数字(即"词嵌入",embedding),然后在这个数字空间里做扩散,这就是"连续扩散语言模型",早期的Diffusion-LM、DiffuSeq等都走的这条路。
然而,过去几年的主流趋势是第一条路占了上风,因为离散扩散模型在实验中表现更稳定。这让很多人开始怀疑:也许语言天生就该用离散方式处理,连续方法本质上就是错的?
MIT的研究团队不这么认为。他们的判断是:连续扩散语言模型之所以表现欠佳,不是因为连续方法本身有缺陷,而是因为过去的设计在"离散"和"连续"两个世界之间来回摇摆,没有把连续方法的潜力真正发挥出来。
这个洞察,就是ELF诞生的起点。
---
二、调酒师的秘诀:全程在液体里工作
回到调鸡尾酒的比喻。调酒师在整个调制过程中,所有操作都在液体状态下进行:倒入基酒、加入糖浆、挤入柠檬汁、加冰摇匀。只有在最后,才把成品倒入杯中,呈现给客人。调酒师不会在中途把材料变回固体,检查一下是不是真的柠檬,然后再重新榨汁。那样做既低效,又会破坏整个混合的过程。
ELF的核心哲学就是这样:**在整个生成过程中,始终在连续的"嵌入空间"里操作,只在最后一步才把连续的表示映射回离散的词语。**
具体怎么做呢?
第一步,是把词语"溶解"进嵌入空间。研究团队使用了一个预训练好的T5编码器(一种专门理解文本的AI模型),把每个词变成一段512维的连续数字向量。你可以把每个词想象成一种液体原料,T5编码器的作用就是把所有原料都溶解成统一的液体形式,以便后续混合。值得注意的是,这里用的是"上下文嵌入"——也就是说,同一个词在不同语境下会被溶解成不同的液体配方,因为T5编码器会考虑整个句子的语义关系。
第二步,是在液体里"加噪-去噪"。研究团队采用了"流匹配"(Flow Matching)技术,这是比传统扩散模型更现代的一种框架。流匹配的思路很简单:定义一条从"纯噪声"到"干净数据"的直线路径,然后训练模型学会沿着这条路径"前进"的速度(即速度场)。训练时,模型看到的是被噪声污染的嵌入向量,任务是预测出对应的干净嵌入向量。噪声的加入方式是:取干净嵌入$x$和随机高斯噪声$\epsilon$,在时间步$t$时,构造$z_t = tx + (1-t)\epsilon$。当$t=0$时完全是噪声,当$t=1$时完全是干净的嵌入。整个过程就像你看着一杯浑浊的液体,逐渐澄清变成清澈饮料的过程。
第三步,也是最关键的一步,是最后的"出杯"时刻。当生成过程走到最后一步($t=1$),ELF需要把连续的嵌入向量"凝固"回离散的词语。这个过程通过一个"反嵌入矩阵"实现,模型计算当前嵌入向量与词汇表中每个词的相似度,选最相似的那个词作为输出。关键在于,这个"出杯"操作和整个调制过程共享同一个网络的权重——就像同一个调酒师既负责全程调制,也负责最后的装杯出品,而非另请一人。
这个设计回避了前辈方法的一个大问题:之前的连续扩散模型,在每一个中间步骤都需要把连续嵌入"翻译"成词语,计算交叉熵损失,相当于调酒师每加一种原料都要先把液体冻成固体检查一下。这种强制中途离散化的做法,限制了模型在连续空间里自由探索的能力。ELF彻底去掉了这些中途检查点,让整个调制过程真正自由。
---
三、让鸡尾酒调得更准:x预测与权重共享的奥秘
ELF有两个技术细节特别值得深入讲解,因为它们直接决定了整个系统能不能真正运转起来。
第一个是"x预测",即模型直接预测干净的嵌入,而非预测速度或噪声。
在流匹配框架里,存在三个可以互相转换的量:干净嵌入$x$、噪声$\epsilon$、流速$v$,它们之间的关系是$v = x - \epsilon$。理论上,训练模型预测任何一个都行,因为知道其中一个就能推出其他两个。然而实验发现,当嵌入维度很高(比如512维甚至768维)时,直接预测速度$v$或噪声$\epsilon$会导致模型崩溃——生成的文本要么毫无意义,要么极度重复。只有预测干净嵌入$x$,模型才能保持稳定。
为什么会这样?直觉上,高维空间里的"干净数据"倾向于分布在某些低维的流形上——类比到调酒,就是说所有好喝的饮料配方,其实都集中在配方空间的某个"美味区域"里,而不是均匀散布在所有可能的配方里。直接预测$x$让模型学会了"飞向美味区域",而预测速度或噪声则相当于学会了"沿某个方向运动",在高维空间里这很容易走偏。
第二个细节是共享权重的解码器设计。
前面说到,ELF在最后一步需要把连续嵌入变回词语,这个过程叫做"解码"。在之前的"潜在扩散"方法里,通常需要一个额外的、单独训练的解码器来完成这个工作,这等于是在调酒师之外,又专门雇了一个"出杯专员"。ELF的洞察是:流匹配本身在$t=1$时的"最终预测",天然就是一个"还原干净数据"的操作,和解码器的功能完全重叠。于是,研究团队巧妙地让同一个网络在最后一步切换到"解码模式",通过一个共享的反嵌入矩阵输出词语的概率分布。
这个共享权重的设计带来了两个好处:模型参数更少,推理时不需要额外的模块,整个系统更加简洁;同时,解码目标(预测正确的词语)和去噪目标(还原干净嵌入)通过共享权重相互促进,让模型学会的嵌入表示既有利于去噪,也有利于最终输出正确的词。
实际训练时,ELF会把每个批次的样本按照80%/20%的比例分配:80%的样本用于去噪训练,计算均方误差(MSE)损失;20%的样本用于解码训练,计算交叉熵(CE)损失。两种训练在同一个批次里并行进行,并不增加训练时间。
---
四、给调酒过程加上"导航仪":自我条件化与无分类器引导
调出一杯好的鸡尾酒不难,但如果客人指定"要偏甜一点"或"希望酒精度低一些",调酒师就需要一个方向感——需要一边调制,一边根据目标口味校正。ELF在这方面引入了两个配套机制:自我条件化(self-conditioning)和无分类器引导(CFG)。
自我条件化的思路非常巧妙。正常的去噪过程,模型在每个时间步只看当前的噪声嵌入和时间戳,然后预测干净嵌入。但这样做,模型没有"记忆"——它不知道上一步自己预测出了什么。自我条件化的改进是:在训练时,有50%的概率,模型会先做一次不带历史信息的预测,得到一个"初稿"$\hat{x}'$;然后把这个初稿和当前的噪声嵌入拼接在一起,再做一次更精细的预测$\hat{x}$。这就像调酒师在加入最后一种原料前,先浅尝一口,评估一下当前的口感,再决定接下来怎么调整。
在推理时,自我条件化的实现更简洁:模型在每一步都以上一步的预测结果作为"历史参考",不需要额外的前向传播。这几乎不增加任何计算量,却让模型的预测更加连贯和一致。
无分类器引导(CFG)则是一种在图像生成领域已经非常成熟的技术,简单来说就是:同时计算"有引导信号的预测"和"无引导信号的预测",然后用一定比例放大两者之间的差异。这就像调酒师同时调了一杯"普通版"和一杯"目标风味版",通过放大两者的差距,最终得到一杯"超级强调目标风味"的饮料。调整"引导强度"(CFG scale)这个参数,就能在"口味浓郁"和"变化多样"之间找到平衡。
因为ELF从始至终都在连续空间里操作,而CFG在数学上就是连续向量的线性组合,这种技术可以无缝移植。相比之下,离散扩散模型很难直接套用CFG,因为离散的词语无法做线性插值——"猫"和"狗"之间没有"猫了60%狗了40%"这种中间状态。这是ELF相比离散对手的一个天然优势。
在实际实现中,ELF采用了"训练时CFG"技术,即模型在训练阶段就学会输出最终引导后的预测,而非在推理时分别计算两次。这进一步减少了推理时的计算开销。训练时,模型会随机接收一个CFG引导强度$\omega$,范围在0.5到5之间,从而学会在不同引导强度下的生成行为。推理时,只需调整这个参数即可控制生成风格,完全不需要额外的前向传播。
---
五、从实验室到实际结果:ELF的表现如何?
研究团队在两个层面上检验了ELF的表现:一是无条件文本生成(给模型一个空间,让它自由创作),二是条件生成(给模型一个输入,让它完成翻译或摘要任务)。
在无条件生成上,研究团队使用了一个标准基准:在OpenWebText数据集(约90亿词的英文网页文本)上训练,然后用一个预训练的GPT-2 Large模型来"打分"——分数越低说明生成的文本越自然流畅,这个指标叫做"生成困惑度"(Gen. PPL)。同时还测量"熵"来评估多样性,熵越高说明生成的文本越丰富多变,而不是来回重复。
ELF的主力模型ELF-B只有1.05亿参数,而对比的基准模型(MDLM、Duo、FLM、LangFlow)普遍有1.7亿参数。尽管参数更少,ELF-B仍然以显著优势胜出。在仅使用32个采样步骤时,ELF达到了约24的生成困惑度;而对手们即便使用1024个步骤,也很难达到同等水平。换句话说,ELF不仅结果更好,还更快——就像同样调一杯上品鸡尾酒,别人需要折腾一个小时,ELF只要两分钟。
更惊人的是训练数据的差距。MDLM、Duo、FLM等模型的训练用了约5000亿词的数据,而ELF只用了约450亿词,不到前者的十分之一,却取得了更好的成绩。这说明ELF的学习效率极高——也许是因为在连续空间里操作,信息的利用率本身就更高。
此外,研究还做了一项有趣的对比:很多竞争对手为了在少步骤下表现良好,需要做额外的"蒸馏"训练(即用一个已经训练好的大模型去教一个小模型,让小模型在少步骤下也能模仿大模型的效果)。ELF完全没有做蒸馏,但在少步骤生成上仍然超过了那些经过蒸馏的对手。
在条件生成任务上,ELF同样表现亮眼。在德语-英语翻译(WMT14数据集)任务上,ELF的BLEU分数(一种衡量翻译质量的指标,满分100)达到26.4,超越了规模相近的自回归模型(25.2)和MDLM(18.4)等。在新闻摘要(XSum数据集)任务上,ELF在ROUGE-1、ROUGE-2、ROUGE-L三个指标上全面领先所有对比方法。
---
六、每个调制细节都经过了反复验证
研究团队进行了大量消融实验(即"如果去掉某个设计,结果会怎样"的对比),把每一个关键设计决策都逐一验证,确保ELF的成功不是某个偶然因素导致的。
在嵌入方式的选择上,团队对比了多种方案。用预训练的T5编码器生成上下文嵌入,效果最好;从零开始在OpenWebText上训练一个编码器,效果次之但差距不大;使用固定不变的T5词嵌入矩阵(不考虑上下文),效果再次一点;用随机高斯初始化的固定嵌入,效果更差;而让嵌入矩阵和去噪器一起训练(可学习嵌入),效果反而最差。这说明,预训练的上下文嵌入为语言表示带来了丰富的语义信息,是ELF发挥作用的基础。
在解码策略上,团队也比较了"共享权重解码"和"分离训练解码器"两种方案。结果是两者在大多数情况下相近,但共享权重方案在高质量生成区间(低困惑度区间)表现更好,且不需要额外的训练阶段,流程更简洁。
采样器的选择也经过了深入测试。ELF支持两种推理方式:确定性的ODE采样(每次生成结果固定),以及带随机性的SDE采样(每次生成略有不同)。实验表明,在步骤数较少的情况下,SDE采样的生成困惑度要比ODE低得多。这是因为SDE采样在每一步都注入少量随机噪声,能在一定程度上纠正早期去噪过程中积累的误差,而ODE采样则会把早期的误差一直"确定性地"放大。这个效果很像GPS导航:ODE相当于严格按原定路线走,一旦偏了就越偏越远;SDE相当于偶尔重新定位,及时纠偏。
在嵌入的"瓶颈维度"上,团队测试了32维、128维和512维三个选项。过小的瓶颈(32维)虽然能生成低困惑度的文本,但多样性严重下降;过大的瓶颈(512维)多样性好,但质量明显下降;128维在两者之间取得了最佳平衡,成为默认设置。
训练时间和去噪步骤分配的比例同样被仔细测试。将80%的训练时间用于去噪(MSE损失)、20%用于解码(CE损失),被证明是最优配比。如果解码训练比例过高,模型的连续去噪能力会退化;如果解码训练比例过低,则最终的词语输出质量变差。
优化器的选择也被专门研究。团队对比了Muon优化器和AdamW优化器(后者是目前训练大语言模型最常用的方法)。结果发现,Muon在同样的训练步数内收敛更快,最终生成质量也更高,尤其在SDE采样下优势明显。
---
七、模型越大,酒越香:规模扩展的表现
研究团队还测试了三种规模的ELF:ELF-B(1.05亿参数,12层,768维),ELF-M(3.42亿参数,24层,1056维),ELF-L(6.52亿参数,32层,1280维)。
结果非常规律:模型越大,生成质量越好。在相同的熵水平下,更大的模型能达到更低的生成困惑度;在相同的生成困惑度下,更大的模型能保持更高的熵(即更多样性)。这说明ELF的框架具备良好的可扩展性,随着模型和算力的增加,性能还有很大的提升空间。
不同规模的模型都从SDE采样中获益,这说明SDE采样的优势不依赖于特定的模型大小,而是ELF框架本身的固有特性。
---
八、从蓝图到实物:ELF的技术架构全貌
在架构层面,ELF的底层是一个标准的扩散变换器(Diffusion Transformer),并融入了若干现代改进:SwiGLU激活函数(提升非线性表达能力)、RMSNorm归一化层(训练更稳定)、RoPE旋转位置编码(更好地处理不同长度的序列),以及QK归一化(防止注意力机制的数值不稳定)。
在条件化机制上,ELF放弃了传统扩散模型常用的adaLN-Zero方案(通过乘法和加法将条件信号注入模型),改用"上下文条件化"——直接把时间步、CFG引导强度、模型模式(去噪还是解码)等信息以控制词元的形式拼接在输入序列的前面,让模型通过自注意力机制自然地处理这些条件信息。这个改变看似小,但带来了1.05亿对比1.48亿参数的大幅缩减,效果还更好。
在推理时间调度上,ELF使用对数正态时间调度,而非均匀时间调度。对数正态调度会在接近$t=0$的噪声较大区域分配更多的推理步骤,在接近$t=1$的干净区域分配较少的步骤。这与直觉相符:从混沌噪声中提取初步结构需要更多细心操作,而在已经接近干净时做最后精修则相对容易。实验证实,对数正态调度尤其在少步骤推理时效果显著更好。
---
归根结底,ELF做的事情并不神秘。它发现了一个被前人忽视的事实:连续扩散方法在语言上之所以表现不好,不是因为连续方法本身错了,而是因为大家总忍不住在中途把连续表示打断,强行换回离散的词语空间。ELF选择了彻底的坚持——除了最后一步,全程都在连续的液态嵌入空间里操作,从不中途打断,从不离散化。这个看似简单的坚持,加上现代流匹配框架、x预测、共享权重解码、自我条件化CFG等一系列配套设计,最终让连续扩散语言模型第一次真正超越了离散方法。
这意味着,语言AI的未来可能并不只属于"在词语之间跳来跳去"的离散路线,也可能属于"在意义的液态空间里流动"的连续路线。哪条路最终会走得更远,还需要更多时间来回答。但ELF至少证明了:连续方法还有很多潜力未被挖掘,这扇门值得继续推开。
有兴趣深入了解ELF的读者,可以通过arXiv编号2605.10938查询原论文,代码已在GitHub公开发布(github.com/lillian039/ELF)。
---
Q&A
Q1:ELF与以前的扩散语言模型相比,最大的区别是什么?
A:最核心的区别在于ELF不会在生成过程的中间步骤把连续表示强制转换回离散词语。之前的连续扩散语言模型(如Diffusion-LM)在每一个去噪步骤都要计算词语预测损失,相当于每走一步都要"出戏"检查一次;而ELF全程保持在连续嵌入空间里,只在最后一步才输出具体词语。这种设计让模型的生成轨迹拥有更大的自由度,避免了中途离散化带来的信息损失和轨迹约束。
Q2:无分类器引导(CFG)在文字生成中是怎么起作用的?
A:CFG在ELF里通过"自我条件化"实现。模型会同时生成一个"有引导信号的预测"和一个"没有引导信号的预测",然后按照一定比例放大两者之间的差距。CFG强度越高,生成的文本质量越高(困惑度越低),但多样性也会下降。这种机制在图像生成领域已被广泛验证,ELF能直接使用CFG正是连续方法相比离散方法的一个天然优势,因为离散词语之间无法做线性插值运算。
Q3:ELF生成的文本质量在翻译和摘要任务上具体有多好?
A:在德语-英语翻译任务(WMT14数据集)上,ELF-B的BLEU得分为26.4,超过了同等规模的自回归模型(25.2)、MDLM(18.4)、Duo(21.3)等。在新闻摘要任务(XSum数据集)上,ELF-B的ROUGE-1达到36.0,ROUGE-2达到12.2,ROUGE-L达到27.8,全面超越所有对比方法,包括SeqDiffuSeq和CDCD等连续扩散模型,以及AR、MDLM、Duo等离散方法。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。