微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Fast-dLLM：NVIDIA研究团队通过KV缓存和并行解码实现扩散大语言模型的无训练加速

大语言模型扩散模型推理加速

Fast-dLLM：NVIDIA研究团队通过KV缓存和并行解码实现扩散大语言模型的无训练加速

作者：科技行者

2025-06-03 16:59

分享至：

NVIDIA联合麻省理工学院和香港大学的研究团队提出Fast-dLLM，一种无需重新训练即可显著加速扩散大语言模型的新方法。该技术通过两大创新解决了扩散模型的主要性能瓶颈：首先设计了适用于双向注意力机制的块式近似KV缓存，使模型能重用计算结果；其次提出基于置信度的并行解码策略，只解码超过阈值的高置信度词元。实验证明，Fast-dLLM在保持准确率的同时，能将LLaDA和Dream模型的推理速度提升高达27.6倍，彻底缩小了扩散模型与自回归模型之间的性能差距。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-03 16:59 • 科技行者

在2025年5月发布于arXiv的最新研究中，来自NVIDIA、麻省理工学院(MIT)和香港大学的研究团队带来了一项令人振奋的技术突破。由Chengyue Wu、Hao Zhang（共同第一作者）、Shuchen Xue、Zhijian Liu、Shizhe Diao、Ligeng Zhu、Ping Luo、Song Han和Enze Xie共同完成的这项研究，为扩散型大语言模型(Diffusion LLM)的实际应用扫清了一个关键障碍。有兴趣深入了解的读者可以通过arXiv:2505.22618v1查阅完整论文。

为什么扩散大语言模型需要提速？

想象一下，你拥有一辆理论上能达到超高速的跑车，但在实际道路上却总是被限速，无法发挥其真正潜力。这正是当前开源扩散大语言模型面临的窘境。虽然这类模型在理论上具有并行生成文本的能力（就像多车道同时通行），但实际表现却往往不尽如人意，甚至比传统的自回归模型还慢。

为什么会这样呢？研究团队发现了两个主要障碍：首先，扩散大语言模型不支持键值(KV)缓存，这是自回归模型中加速推理的关键组件；其次，当模型尝试同时生成多个词时，文本质量会明显下降。就像十字路口的交通信号灯失灵，虽然所有车道都可以同时通行，但车辆之间会相互干扰，最终导致拥堵甚至事故。

NVIDIA和合作伙伴的研究团队提出的Fast-dLLM正是为解决这些问题而生，它可以让扩散大语言模型真正释放其潜力，在保持文本质量的同时大幅提升生成速度。

核心创新：适合扩散模型的KV缓存

传统的自回归语言模型之所以能高效运行，很大程度上依赖于一种称为"键值缓存"(KV Cache)的技术。想象一下，这就像是在写一封长信时，你不必每写一个字就重新阅读之前写过的所有内容，而是可以记住上下文并直接继续写作。

然而，扩散大语言模型的工作方式与自回归模型完全不同。在自回归模型中，文本是从左到右一个词一个词生成的，就像在一条单行道上驾驶；而扩散模型则可以同时关注文本的所有部分，就像在一个开放空间中自由移动。这种双向注意力机制使得传统的KV缓存技术无法直接应用。

研究团队巧妙地解决了这个问题。他们提出了一种"分块近似KV缓存"机制，专为扩散模型的双向特性设计。具体来说，他们将文本生成过程分成多个块：

1. 在生成一个新块之前，计算并存储其他块的KV缓存以便重用。 2. 生成完一个块后，重新计算所有块的KV缓存。

这有点像在一个大型拼图游戏中，你可以先完成某些区域，然后在这些已完成区域的基础上继续拼其他部分，而不必每次都从零开始审视整个拼图。

研究团队通过可视化证明，在相邻推理步骤中，KV激活值之间具有很高的相似性，这意味着缓存的近似值足够精确，不会影响模型性能。他们还提出了一个增强版本——DualCache，它不仅缓存前缀令牌，还缓存后缀令牌，进一步提高了效率。

解决并行解码的质量下降问题

提高扩散大语言模型速度的另一个关键是能够同时生成多个词。然而，之前的研究发现，当尝试同时生成多个词时，文本质量往往会下降。

想象一下，你正在玩一个填词游戏："扑克牌中由两个英文单词组成的牌型有：___ ___"。这里的两个空可能是"high card"（高牌）、"two pair"（两对）等。关键在于，这两个词之间存在明显的关联性，第一个词会影响第二个词的选择。

但在扩散模型的多词预测中，模型会为每个位置生成概率分布，然后独立地从这些分布中采样。这种独立采样可能导致不协调的组合，比如"high house"这样的无意义搭配。这就像是两个人各自选择一个词，但没有相互沟通，最终可能拼凑出不通顺的短语。

为解决这个问题，研究团队提出了一种基于置信度的并行解码策略。不同于之前简单地选择固定数量的词同时生成，他们的方法会计算每个词的置信度分数（基本上是模型对该预测的确信程度），只有那些超过特定阈值的词才会在当前步骤中生成。

研究团队通过理论分析和实验证明，当模型对某些词的预测具有高置信度时，这些词可以安全地并行生成而不会破坏它们之间的依赖关系。这就像是在填字游戏中，有些词组合非常明显，即使独立思考也会得出一致的结果，而有些则需要更谨慎的推理。

实验结果：速度与质量的双赢

研究团队在两个主流扩散大语言模型（LLaDA和Dream）上进行了广泛测试，评估包括GSM8K、MATH、HumanEval和MBPP四个基准测试，涵盖了数学推理和代码生成等不同任务。

结果令人印象深刻：Fast-dLLM实现了高达27.6倍的吞吐量提升，同时准确率几乎不变。具体来说：

在LLaDA模型上，结合KV缓存和并行解码的方法使GSM8K任务（长度512）的吞吐量提高了11倍，MBPP任务的吞吐量提高了9.2倍。在Dream模型上，MBPP任务的吞吐量提高了7.8倍，GSM8K任务的吞吐量提高了5.6倍。

更令人惊喜的是，这些加速几乎不影响模型性能。在所有基准测试中，加速后的模型准确率与原始模型相差不超过1-2个百分点，有些情况下甚至略有提升。

研究还发现，前缀长度（提示词的长度）和生成长度对加速效果有显著影响。当生成更长的序列时，缓存和并行技术的优势更为明显。例如，在8-shot设置下，使用DualCache的加速比从生成长度256时的9.4倍增加到生成长度1024时的27.6倍。

这项技术为何如此重要？

Fast-dLLM的意义远不止于技术细节。它代表了扩散大语言模型从理论优势到实际应用的关键一步。

想象一下未来的AI助手，它能几乎瞬间回应你的问题，提供高质量的文本、代码或解决方案。Fast-dLLM使这种未来更近了一步。通过显著提高扩散大语言模型的速度，它使这类模型成为自回归模型的真正竞争对手。

更广泛地说，这项工作展示了如何通过算法创新而非硬件升级来提高AI系统的效率。在当前计算资源日益紧张的背景下，这种"软"优化方法尤为宝贵。

未来展望

Fast-dLLM为扩散大语言模型开辟了广阔的应用前景，但研究团队的工作并未止步于此。未来的研究方向可能包括：

1. 进一步完善置信度阈值的动态调整机制，在不同语境中自动找到最佳平衡点。 2. 将这些技术扩展到更大规模的模型和更复杂的任务。 3. 探索如何将Fast-dLLM的思想应用到其他类型的生成模型中。

归根结底，Fast-dLLM代表了AI研究中一个常见但重要的主题：理论突破只有转化为实际可用的技术，才能真正改变世界。通过解决扩散大语言模型的速度瓶颈，NVIDIA和合作伙伴的研究团队不仅推进了学术前沿，也为下一代更快、更高效的AI系统铺平了道路。

如果你对这项技术感兴趣，可以访问研究团队的GitHub代码库和项目页面，或通过arXiv:2505.22618v1阅读完整论文，深入了解这项创新技术的细节。

大语言模型扩散模型推理加速

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

Fast-dLLM：NVIDIA研究团队通过KV缓存和并行解码实现扩散大语言模型的无训练加速

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接