当我们使用大语言模型(LLM)时,是否曾因生成速度太慢而感到不耐烦?加利福尼亚大学洛杉矶分校(UCLA)的研究团队正面临着这一挑战。2025年5月31日,由Daniel Israel、Guy Van den Broeck和Aditya Grover组成的UCLA计算机科学系研究团队在arXiv上发表了题为《Accelerating Diffusion LLMs via Adaptive Parallel Decoding》的研究论文(arXiv:2506.00413v1),提出了一种名为"自适应并行解码"(APD)的新方法,旨在大幅提升扩散大语言模型的生成速度。
现今的大语言模型面临着一个根本性的瓶颈:生成速度。主流的自回归模型采用一次生成一个词的顺序解码方式,这种方法虽然质量高,但速度慢。想象一下你在写一封信,但每次只能写一个字,然后等待几秒钟才能写下一个——这基本上就是自回归模型的工作方式。而扩散大语言模型(dLLM)理论上允许同时生成多个词,就像你可以一次性写下整句话那样,应该能显著提高速度。
然而,实际情况却不尽人意。研究团队发现,开源的扩散模型如Dream和Llada在没有额外改进的情况下,无法同时兼顾速度和质量。如果尝试一次性生成多个词(并行生成),生成质量就会大幅下降;如果坚持高质量生成,则不得不降低并行度,一次只生成一个词,速度优势荡然无存。这就像是拥有了一辆跑车,却只能以自行车的速度行驶,否则就会偏离道路。
为什么会出现这种情况呢?简单来说,当并行生成多个词时,模型只能获取每个位置的"孤立"概率分布,而无法考虑词与词之间的关联性。这就像是几个人各自单独创作一个句子,然后强行把它们拼在一起——结果通常不会连贯。
针对这一问题,UCLA团队提出了自适应并行解码(APD)方法。这种方法不是固定一次生成多少个词,而是动态调整并行生成的词数。它的核心思想是:当模型有信心能正确预测连续多个词时,就一次性生成这些词;当预测不确定时,就退回到逐个生成的方式。这就像是一个老练的作家,在写熟悉的内容时可以一气呵成写下整段文字,而遇到需要深思熟虑的部分时,则会放慢速度,字斟句酌。
研究团队的创新不仅体现在理论上,还包括一系列实用的技术改进,如引入键值缓存(KV caching)和限制掩码输入大小。这些优化大大提高了模型的计算效率。他们还引入了三个可调参数,让用户能够根据需求灵活地在速度和质量之间找到平衡点。
实验结果令人振奋。在GSM8K等基准测试中,使用APD的扩散模型能够以接近原质量的表现,将生成速度提高近6倍。更令人惊讶的是,优化后的Dream 7B模型甚至比自回归的Qwen 7B和Qwen 0.5B模型更快,同时保持了较高的准确率。这就像是一辆既能高速行驶又能保持稳定的新型汽车,彻底改变了我们对扩散模型速度与质量不可兼得的认知。
这项研究不仅对扩散大语言模型的实用性有重大意义,也为未来的模型设计提供了新的思路。随着这些技术的应用,我们可能很快就能享受到更快、更流畅的AI文本生成体验。
一、扩散大语言模型的速度困境
当今的大语言模型世界中,自回归模型如同一个一丝不苟的书法家,一笔一画地完成作品。虽然结果精美,但过程缓慢。这种逐词生成的方式成为了实时应用的主要障碍,特别是随着模型规模不断扩大,这个问题变得更加突出。
扩散大语言模型(dLLM)本应像一个能同时控制多支画笔的魔术师,理论上可以并行生成多个词,大幅提升速度。这些模型受到图像生成领域成功经验的启发,应该能够打破顺序生成的限制。然而,UCLA研究团队通过实验发现,现实与理论存在显著差距。
他们对两个开源扩散模型Dream和Llada进行了详细测试。结果显示,这些模型要达到最佳质量,必须采用"一次一词"的生成方式(每个时间步生成一个词)。任何尝试利用并行能力的努力都会导致质量下降。具体来说,在GSM8K数学推理任务上,当使用从左到右的顺序生成时,Dream 7B模型能达到83.2%的准确率,但吞吐量只有每秒10.1个词。相比之下,自回归的Qwen2.5 7B模型不仅准确率达到85.4%,吞吐量还高达每秒38.6个词。
这种状况就像拥有一台设计时速200公里的跑车,但实际上只能以50公里的速度行驶,否则就会偏离道路或引擎过热。问题的核心在于,当并行预测多个词时,模型只能获取每个位置的边缘概率分布,而忽略了词与词之间的依赖关系。这就像几个厨师各自准备一道菜而不知道其他人在做什么,最终拼凑成的菜单可能毫无协调性。
为了量化这种质量与速度的权衡关系,研究团队进行了一系列实验,固定每次迭代并行生成的词数(K)。实验表明,随着K值的增加,生成速度确实提高了,但准确率呈现断崖式下降。例如,当K=7时,Dream 7B的GSM8K准确率从约80%降至不足20%,这种牺牲显然是不可接受的。
这一困境引发了一个关键问题:是否存在一种方法,能够智能地决定何时并行生成多个词,何时退回到逐个生成,从而在保持质量的同时提高速度?这正是UCLA团队提出的自适应并行解码(APD)方法要解决的核心问题。
二、自适应并行解码:突破速度与质量的平衡点
自适应并行解码(APD)的核心思想可以用一个熟练钢琴家的例子来理解。当演奏简单、熟悉的曲目时,钢琴家能够流畅快速地弹奏;而遇到复杂段落时,则会放慢速度,确保每个音符的精准。APD就是让语言模型像这样"知道"何时可以加速,何时需要谨慎。
具体来说,APD首先将扩散模型的生成顺序固定为从左到右,这看似是退回到自回归模型的做法,但研究者发现这种方式不仅能保持生成质量,有时甚至能提高质量。这就像是让一个本可以四处张望的人专注于向前看,反而让他避免了分心,能更好地预测前方的路况。
接下来,APD引入了一个小型的辅助自回归模型。这个小模型就像是主模型的"参谋",帮助判断哪些并行生成的词可以被接受。研究团队设计了一个巧妙的机制:将扩散模型的边缘概率与小型自回归模型的联合概率进行乘法混合,形成一个目标分布。这种混合使用了一个可调参数R,当R值较高时,系统更信任扩散模型;当R值较低时,则更依赖辅助自回归模型的判断。
为什么要使用小型辅助模型呢?因为小模型虽然精确度不如大模型,但能够快速并行计算序列的联合概率,帮助大模型做出更好的决策。这有点像登山时,经验丰富的向导(小模型)虽然力气不如年轻的登山者(大模型),但能够更快地判断哪条路径安全可行。
值得注意的是,APD与目前流行的推测解码(speculative decoding)方法有着本质区别。推测解码是用小模型生成初步内容,再由大模型验证;而APD则是用大模型生成内容,小模型帮助判断质量。这就像是推测解码中,学徒(小模型)先画草图,大师(大模型)再修改完善;而在APD中,大师直接作画,学徒只是在旁边提供建议,帮助大师决定何时可以一气呵成画完某个部分。
UCLA团队还对算法实现进行了多项优化。例如,他们引入了键值缓存(KV caching)技术,这一技术通常用于自回归模型,能够避免重复计算,大大提高效率。想象一下,如果你在解一道复杂的数学题,已经计算过的中间结果可以记录下来,下次用到时直接查表,而不是重新计算,这就是KV缓存的作用。
另一个重要优化是限制掩码输入的大小。由于扩散模型是从左到右自回归生成,输入中会包含大块连续的[MASK]标记作为后缀。研究者设置了一个最大长度M参数,限制这个后缀的大小。这一简单改变能显著提高计算速度,因为注意力计算的复杂度与序列长度的平方成正比。减小输入大小就像是减少了厨师需要关注的食材数量,自然能加快烹饪速度。
最终,APD提供了三个可调参数:乘法混合权重R、重新计算KV窗口大小W和最大掩码前瞻长度M。这些参数给用户提供了在速度和质量之间进行灵活权衡的能力,就像是一辆汽车的不同驾驶模式,可以根据需要在经济模式和运动模式之间切换。
三、实验验证:速度与质量的最佳平衡
为了验证自适应并行解码的效果,UCLA研究团队进行了一系列详细实验。他们选择了Dream 7B Instruct作为扩散模型,Qwen2.5 0.5B作为辅助自回归模型。这两个模型都在数学、科学和推理基准测试上表现出色,而且它们共享相同的分词器,这使得它们能够更好地协同工作。
研究团队首先分析了混合权重参数R对性能的影响。在GSM8K数学推理任务上,当R值较小时(如0.1-0.5),模型每次迭代接受的词数较少,但维持了较高的准确率。随着R值增加,并行生成的词数显著提升,但准确率开始下降。有趣的是,当R=0.6时,模型平均每次迭代能接受约5.75个词,同时保持接近80%的GSM8K准确率。这意味着模型速度提升了近6倍,而质量只有微小降低。
相比之下,如果简单地固定每次迭代生成K个词,当K=5时,GSM8K准确率会降至约40%,这一差距充分说明了自适应方法的优势。APD就像是一个懂得何时加速、何时放慢的老练司机,能够在弯道前适当减速,直道上全速前进,整体行程既快速又安全。
研究者还探索了重新计算KV窗口大小W的影响。他们发现,即使将W值从无限(即每次都重新计算所有键值)降至16,准确率也只有很小的下降,但吞吐量能提高约50%。这表明扩散模型在自回归生成时,远距离的词对当前生成的影响较小,可以通过缓存来提高效率。
最大掩码前瞻长度M的实验也显示了明显的速度-质量权衡。当M值从无限减小到16时,吞吐量显著提升,但准确率开始下降。有趣的是,这种下降不仅是因为计算质量降低,还因为生成长度缩短。研究表明,较长的"思考时间"(即生成更多词)通常能提高推理能力,因此过度限制M值可能会伤害模型在复杂推理任务上的表现。
将这三个参数组合在一起,研究团队绘制了一个"帕累托前沿"图,展示了不同配置下的速度-质量权衡。令人惊讶的是,使用APD的Dream 7B在某些配置下,不仅比其基线版本(K=1)快得多,甚至超过了自回归的Qwen 7B和Qwen 0.5B的速度。在保持相当质量的同时,APD配置的Dream能够达到每秒59个词的吞吐量,而Qwen 7B只有每秒38个词。
这一成果令人振奋,因为它表明经过优化的扩散模型可以在速度和质量的"帕累托前沿"上占据有利位置——也就是说,没有其他模型能在两个维度上同时超越它。这就像是发现了一种既经济又性能出色的新型发动机,可能彻底改变人们对扩散模型的认知。
除了标准基准测试,研究团队还在开放式任务上进行了测试。例如,在生成有说服力的论证时,使用R=0.7的APD配置,Dream 7B能够平均每次迭代并行生成约3个词,大大提高了生成速度,同时保持了输出质量。
四、技术创新与实用意义
自适应并行解码的核心创新在于它解决了一个看似矛盾的问题:如何在不牺牲质量的前提下提高扩散模型的速度。这个问题在技术上相当棘手,因为传统的并行加速方法往往会导致质量大幅下降。
研究团队的第一个关键创新是将问题重新定义为动态确定最优并行长度。不同于固定每次迭代生成K个词,APD让模型自己"决定"何时可以并行生成多个词,何时应该谨慎地一个一个生成。这就像是熟练的音乐家能够根据乐曲的难度自动调整演奏速度,而不是机械地按照固定节拍演奏。
第二个创新是引入了一个乘法混合目标分布,结合了扩散模型的边缘概率和辅助自回归模型的联合概率。这种混合方式满足了两个重要特性:当扩散模型对某个词有100%的确定性时,该词应该被接受;当辅助模型认为某个序列有100%的可能性时,也应该被接受。这种设计使得系统能够在保持高质量的同时最大化并行度。
第三个创新是使用通用耦合(universal coupling)技术进行采样。这种技术使用相同的随机源从两个不同的分布中采样,并比较结果来决定接受多少个词。这一方法避免了传统拒绝采样需要重新计算条件分布的问题,使得并行采样变得可行。
从实用角度看,APD为扩散大语言模型的应用打开了新的可能性。以前,尽管扩散模型在理论上具有并行生成的潜力,但由于速度限制,它们在实际应用中难以与自回归模型竞争。现在,通过APD,扩散模型不仅能保持高质量,还能达到甚至超过自回归模型的速度。
这种突破特别适用于对实时性有要求的应用场景,如即时通讯助手、实时翻译系统或交互式教育工具。例如,在客服聊天机器人中,快速响应对用户体验至关重要;在实时翻译中,延迟越低,对话越自然流畅;在教育应用中,快速的反馈能保持学生的注意力和参与度。
此外,APD的三个可调参数(R、W和M)为不同应用场景提供了灵活的配置选项。对于需要高准确性的任务(如医疗诊断辅助),可以选择较低的R值和较大的M值;对于对速度要求较高的任务(如社交媒体内容生成),则可以增加R值,减小M值,以获得更高的吞吐量。
值得一提的是,APD方法不需要重新训练模型,可以直接应用于现有的扩散模型。这意味着现有的Dream和Llada等模型可以立即受益于这一技术,无需额外的计算资源投入。这就像是通过软件更新就能提升汽车性能,而不需要更换发动机。
五、未来展望与局限性
尽管自适应并行解码取得了显著成果,研究团队也坦诚地指出了它的局限性。首先,APD提供的是一种权衡,而非免费的午餐。提高吞吐量仍然会导致一定程度的质量下降,尽管这种下降远小于简单并行方法。其次,APD并不能提高基础扩散模型本身的能力——如果Dream 7B在某个领域表现不佳,使用APD也无法改变这一点。
未来的研究方向可能包括进一步优化混合分布的设计、探索更复杂的动态调整策略,以及将APD与其他加速技术(如量化)结合。特别是量化技术已被证明能提供强大的速度-质量权衡,将其与APD结合可能带来更显著的性能提升。
另一个有趣的方向是探索APD在不同类型任务上的表现差异。研究已经表明,在数学推理等高度结构化的任务上,APD能获得高并行度;而在开放式生成任务上,并行度较低。理解这种差异的原因,可能有助于设计针对特定任务优化的解码策略。
此外,将APD的思想扩展到其他模型架构也是一个潜在方向。虽然当前研究聚焦于扩散模型,但类似的自适应并行思想可能适用于其他非自回归模型,甚至是混合架构模型。
最后,随着模型规模不断增长,生成速度将成为更加关键的瓶颈。研究表明,通过增加推理时计算资源(所谓的"test-time scaling")和强化推理能力,可以进一步提高大语言模型的性能。这些趋势使得APD这类加速技术的重要性将进一步提升。
总的来说,UCLA研究团队的这项工作代表了一个重要的技术突破,为解决大语言模型生成速度的瓶颈问题提供了新的思路。通过智能地调整并行生成的词数,APD成功地在速度和质量之间找到了更优的平衡点,为扩散大语言模型的实际应用铺平了道路。
研究团队表示,这项工作部分受到了美国国防高级研究计划局(DARPA)的ANSR、CODORD和SAFRON项目以及美国国家科学基金会(NSF)的资助,同时也得到了Adobe Research、Cisco Research和Amazon的支持。对于有兴趣了解更多技术细节的读者,可以通过arXiv访问完整论文(arXiv:2506.00413v1)。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。