微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Meta FAIR实验室重大突破：让AI语言模型推理速度提升5倍的神奇技术

人工智能语言模型推理加速集合块解码技术

Meta FAIR实验室重大突破：让AI语言模型推理速度提升5倍的神奇技术

作者：科技行者

2025-09-23 13:38

分享至：

Meta FAIR实验室提出的集合块解码技术通过融合传统下一词预测和遮蔽词预测，让语言模型能以任意顺序同时生成多个词汇，无需修改模型架构即可将推理速度提升3-5倍。该技术在Llama-3.1和Qwen-3模型上验证有效，为大型语言模型的实际应用提供了重要的效率突破，有望显著改善用户体验并降低部署成本。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-23 13:38 • 科技行者

这项由Meta FAIR实验室的Itai Gat、Heli Ben-Hamu等多位研究人员共同完成的突破性研究，于2025年9月发表在arXiv平台上。研究团队提出了一种名为"集合块解码"(Set Block Decoding, SBD)的创新技术，成功让大型语言模型的推理速度提升了3到5倍。有兴趣深入了解这项研究的读者可以通过论文编号arXiv:2509.04185v1访问完整技术报告。

当前大型语言模型虽然功能强大，但在实际应用中面临着一个关键瓶颈——推理速度太慢。就像一个博学的教授回答问题时必须一个字一个字地慢慢说出来，现有的语言模型也只能逐个生成词汇，无法同时产出多个词语。这种限制不仅影响了用户体验，也大大增加了计算成本，让许多实际应用变得不切实际。

研究团队巧妙地设计出一种全新的解码方法，让模型能够像熟练的打字员一样同时处理多个位置的文字生成。这种方法的关键创新在于，它不仅能让模型预测下一个词，还能同时预测未来多个位置的词汇，而且这些词汇不需要是连续的。这就像在填字游戏中，你可以同时填入第3格、第7格和第12格的字母，而不必按顺序逐格填写。

更令人惊喜的是，这种技术不需要重新设计模型架构，也不需要从头开始训练。研究团队通过对现有的Llama-3.1 8B和Qwen-3 8B模型进行微调，就实现了显著的加速效果。在代码生成基准测试LiveCodeBench-V6上，该技术将模型推理速度提升了3.6到4.7倍，同时保持了与原始模型相同的准确性。

一、传统语言模型的困境：一字一句的慢节奏

要理解这项技术的革命性意义，首先需要了解传统语言模型是如何工作的。现有的大型语言模型采用一种叫做"下一个词预测"的方法，这种方法就像一个谨慎的作家，必须写完一个词后才能思考下一个词该写什么。

这种逐词生成的过程包含两个主要阶段：预填充阶段和解码阶段。预填充阶段就像读者快速浏览整篇文章的背景信息，模型能够并行处理成千上万个词汇，效率相当高。然而，解码阶段就像是一个人在黑暗中摸索前进，每次只能迈出一步，看清楚脚下的路后才能决定下一步怎么走。

在解码阶段，虽然每个词的计算量相对较少，但模型必须反复读取整个模型的权重参数和之前生成的所有信息。这就像一个学生每写一个字都要重新翻阅整本教科书，效率自然很低。更糟糕的是，随着生成文本的增长，需要存储和读取的信息也越来越多，就像书包越背越重，行走速度也越来越慢。

这种限制在实际应用中造成了严重的问题。当用户向ChatGPT或其他AI助手提问时，往往需要等待数秒甚至更长时间才能看到完整回答。对于需要大量文本生成的应用场景，比如自动写作、代码生成或文档翻译，这种慢速度不仅影响用户体验，也大大增加了运营成本。

二、并行解码的早期探索：多线程思考的尝试

面对传统方法的速度瓶颈，研究界早就开始探索让模型同时生成多个词汇的可能性。这种方法被称为"并行块解码"，就像让一个人同时用多支笔写字，理论上应该能大幅提升效率。

早期的并行解码方法采用了一种相对简单的策略：让模型同时预测接下来的k个词汇。这就像让一个作家同时构思句子中的下一个词、下下个词，以此类推。然而，这种方法面临着一个根本性的数学难题——随着需要同时预测的词汇数量增加，可能的组合数量呈指数级增长。

为了解决这个问题，研究人员采用了一种妥协方案：假设这些需要同时生成的词汇之间是相互独立的。这就像假设一个句子中的每个词都不会影响其他词的选择，显然这是一个过于简化的假设。在实际语言中，词汇之间往往存在密切的依赖关系，比如形容词通常要与后面的名词保持一致。

由于这种独立假设过于粗糙，早期的并行解码方法需要一个额外的验证步骤。这个过程就像让一个编辑检查作家同时写出的多个词是否真的能组成一个合理的句子。验证过程只能接受从第一个词开始的连续词序列，如果中间某个词不合适，后面的词也必须全部丢弃重写。

这种方法虽然在理论上提供了一些加速，但实际效果往往不够理想。验证步骤本身就需要消耗计算资源，而且由于独立性假设的限制，很多时候生成的词序列无法通过验证，需要反复重试。这就像一个不太熟练的打字员，虽然试图同时按多个键，但经常出错，最终还是需要逐个重新输入。

三、投机解码的智慧：快慢结合的策略

为了克服早期并行方法的局限性，研究界又发展出了一种更加精巧的策略——投机解码。这种方法的核心思想是建立一个"快慢搭配"的工作模式，就像让一个反应敏捷但不够精确的助手先提出建议，然后由一个更加谨慎准确的专家来审核确认。

投机解码使用两个模型协同工作：一个小而快的"草案模型"负责快速生成候选词汇，另一个大而准确的"目标模型"负责验证这些候选词汇是否合适。这种分工就像一个创意团队，先由头脑风暴产生大量想法，再由资深专家筛选出最优方案。

草案模型通常是一个参数量较少的轻量级模型，能够快速生成多个候选词汇。由于它的"思考"过程相对简单，生成速度很快，但准确性可能不够高。目标模型则是我们真正想要使用的高质量大型模型，它负责对草案模型的建议进行严格评估，只接受那些真正符合要求的词汇。

这种方法的优势在于，当草案模型的建议质量较高时，系统可以一次性接受多个连续的词汇，从而大大减少目标模型需要运行的次数。这就像一个资深编辑遇到了一个优秀的初级写手，很多时候可以大段大段地接受对方的文字，只需要偶尔进行修改。

然而，投机解码也有其固有的复杂性。首先，它需要维护两个不同的模型，增加了系统的复杂度和内存占用。其次，草案模型的质量直接影响整体效率——如果草案模型经常提出不合适的建议，反而会拖累整体性能。最后，这种方法只能接受连续的词汇序列，限制了并行处理的灵活性。

四、集合块解码的创新突破：任意顺序的并行魔法

Meta FAIR团队提出的集合块解码技术代表了并行解码领域的一次重大突破。这项技术的核心创新在于突破了传统方法对连续性的严格要求，允许模型以任意顺序同时生成多个词汇。这就像一个熟练的拼图专家，可以同时在拼图的不同区域工作，而不需要严格按照从左到右、从上到下的顺序。

集合块解码的工作原理建立在一个精妙的组合策略上：它将传统的"下一词预测"和"遮蔽词预测"融合到同一个模型架构中。遮蔽词预测就像填空题，模型需要根据上下文信息猜出被遮住的词汇。通过巧妙地结合这两种预测方式，模型获得了前所未有的灵活性。

在具体实现中，集合块解码允许模型同时看到未来某个文本块中的部分词汇，然后预测其中被遮蔽的词汇。这种方法的巧妙之处在于，模型可以利用未来已知词汇的信息来更准确地预测未知词汇。这就像在做填空题时，你不仅可以看到空格前面的文字，还能看到空格后面的一些提示信息。

更重要的是，集合块解码可以灵活选择在每一步中揭示哪些词汇。系统可以优先选择那些相对容易预测的词汇，然后利用这些已知信息来预测更困难的词汇。这种策略就像解决数学题时，先解决简单的部分，然后利用已知结果来攻克更复杂的问题。

这种灵活性为使用先进的采样策略打开了大门。研究团队采用了来自离散扩散文献的"熵界采样器"，这是一种能够智能决定每步应该同时预测多少个词汇的算法。该算法通过分析不同位置词汇预测的不确定性，选择那些相对独立且容易预测的词汇进行同时生成。

五、训练过程的巧妙设计：无缝融合两种能力

集合块解码技术的一个重要优势是它可以通过微调现有的语言模型来实现，而不需要从头开始训练。这种方法就像给一个已经熟练掌握写作的人教授速记技能，在保持原有能力的基础上增加新的技能。

训练过程采用了一个精心设计的混合损失函数，同时训练模型的两种核心能力。第一种能力是传统的下一词预测，确保模型保持原有的语言生成质量。第二种能力是遮蔽词预测，让模型学会根据部分上下文信息预测缺失的词汇。

在训练数据的准备过程中，研究团队使用了一种随机遮蔽策略。对于每个训练样本，系统会随机决定遮蔽哪些词汇，遮蔽的比例也是随机变化的。这种方法确保模型能够适应各种不同的预测场景，就像让一个学生练习各种难度的填空题。

训练过程中的注意力机制设计也颇为精妙。对于过去的词汇，模型使用传统的因果注意力，确保信息只能从前往后传递。对于未来的词汇块，模型使用双向注意力，允许块内词汇相互参考。这种设计既保持了语言模型的基本特性，又增加了并行处理的能力。

更重要的是，这种训练方法不需要修改模型的基础架构，也不需要引入额外的超参数。研究团队成功地对Llama-3.1 8B和Qwen-3 8B等主流模型进行了微调，证明了这种方法的广泛适用性。微调过程使用了70亿个tokens的高质量数据，包括推理和指令数据，确保模型在获得加速能力的同时不会损失原有的性能。

六、推理过程的智能策略：熵界采样的艺术

集合块解码在推理阶段的工作方式堪称艺术品般精妙。系统不是盲目地同时预测尽可能多的词汇，而是采用了一种叫做"熵界采样器"的智能策略，动态决定每一步应该同时生成多少个词汇。

熵界采样器的工作原理类似于一个经验丰富的象棋大师在复盘时的思考过程。面对棋盘上的复杂局面，大师不会尝试同时分析所有可能的走法，而是先识别出那些相对简单、风险较低的步骤，然后逐步扩展到更复杂的变化。

具体来说，采样器会计算每个遮蔽位置的预测不确定性，这个不确定性用信息熵来衡量。信息熵就像一个"困难度指标"——数值越高，说明模型对这个位置的词汇越不确定，预测风险越大。采样器会按照不确定性从低到高的顺序对遮蔽位置进行排序，然后选择那些总体风险不超过预设阈值的位置进行同时预测。

这种策略的精妙之处在于它能够自适应地平衡速度和准确性。当模型对大部分位置都很有把握时，系统可以同时预测较多词汇，实现更高的加速比。当遇到困难的语境时，系统会自动减少同时预测的词汇数量，确保生成质量不受影响。

采样过程是迭代进行的，就像逐层剥洋葱一样。每一轮迭代中，系统选择一部分相对简单的位置进行预测，然后将预测结果作为已知信息，为下一轮预测提供更多的上下文支持。这种逐步揭示的过程往往只需要几轮迭代就能完成整个块的生成，相比传统方法需要逐词生成k次，效率提升非常显著。

七、性能评估的全面验证：多维度的成功证明

Meta FAIR团队对集合块解码技术进行了极其全面的性能评估，涵盖了从推理任务到聊天应用的各种场景。评估结果显示，这项技术在保持原有性能的同时，实现了令人印象深刻的加速效果。

在推理类任务的测试中，研究团队选择了三个具有代表性的基准测试：AIME25数学竞赛题目、LiveCodeBench代码生成挑战以及Math500数学问题集。这些测试就像给AI学生安排了不同科目的期末考试，全面检验其解决复杂问题的能力。结果显示，使用集合块解码的模型在这些任务上的表现与传统方法几乎完全相同，同时将推理速度提升了3.2到5.4倍。

特别值得关注的是LiveCodeBench测试的结果。在这个代码生成基准测试中，Llama-3.1模型使用集合块解码技术后，Pass@1准确率从31.5%提升到31.3%，基本保持不变，但推理速度却提升了4.6倍。这个结果对于实际的代码生成应用具有重要意义，意味着程序员可以更快地获得AI助手的代码建议，大大提升开发效率。

在聊天类任务的测试中，团队选择了GSM8K数学问题、HumanEval+编程题以及MBPP基础编程问题。这些测试模拟了日常使用AI助手时的典型场景，从解数学题到写程序代码。结果同样令人振奋：在保持准确性的前提下，系统实现了2.2到3.0倍的加速效果。

研究团队还特别设计了两种不同的配置来满足不同的应用需求。"低γ配置"优先保证准确性，适合对结果质量要求较高的场景，通常能实现3倍左右的加速。"高γ配置"追求更高的速度提升，可以实现4到5倍的加速，但可能会有轻微的准确性损失。这种灵活的配置选项就像汽车的经济模式和运动模式，用户可以根据具体需求选择合适的平衡点。

八、技术深度剖析：架构创新的精妙细节

集合块解码技术的成功不仅仅来自于概念上的突破，更得益于一系列精心设计的技术细节。这些细节就像一台精密机器中的每个齿轮，看似微小但缺一不可。

在模型架构层面，集合块解码采用了一种混合注意力机制。对于输入序列的前半部分（已经生成的文本），模型使用传统的因果注意力，确保信息只能从前往后流动，保持了语言模型的基本特性。对于后半部分（正在生成的文本块），模型使用双向注意力，允许块内的词汇相互参考和影响。

这种设计的巧妙之处在于它完美保持了与现有KV缓存技术的兼容性。KV缓存是现代语言模型推理优化的核心技术，它通过缓存注意力机制中的键值对来避免重复计算。集合块解码不仅保持了这种兼容性，还充分利用了缓存机制来进一步提升效率。

在位置编码的处理上，研究团队采用了一种创新的复用策略。传统方法中，每个位置都有独特的位置编码，但在集合块解码中，同一位置的词汇无论是在自回归部分还是在并行部分，都使用相同的位置编码。这种设计确保了模型能够正确理解词汇在序列中的相对位置关系。

损失函数的设计也体现了研究团队的深思熟虑。系统同时计算下一词预测损失和遮蔽词预测损失，并将它们巧妙地结合在一起。下一词预测损失确保模型保持传统的生成能力，遮蔽词预测损失则训练模型的并行预测能力。这种双重训练策略就像让一个运动员同时练习不同的技能，最终形成更全面的能力。

九、规模化训练的实践智慧：从小模型到大模型的成功迁移

为了验证集合块解码技术的普遍适用性，研究团队不仅在大型模型上进行了测试，还深入研究了该技术在不同规模模型上的表现特征。这种多尺度的研究方法就像科学家在不同倍数的显微镜下观察同一个样本，确保发现的规律具有普遍性。

在3B参数规模的小型模型实验中，团队发现了一些有趣的训练规律。首先，集合块解码模型需要比传统模型稍长的训练时间才能达到相同的性能水平。这种现象类似于学习一门新技能——刚开始可能会比原来的方法慢一些，但熟练之后效率会大大提升。

更重要的是，研究团队发现传统下一词预测损失在训练过程中起着关键作用。当他们尝试去除这个损失分量时，模型的传统生成能力出现了明显下降，在MMLU、GPQA等标准测试中的表现大幅降低。这个发现证实了混合训练策略的重要性——新能力的获得不能以牺牲原有能力为代价。

在训练步数的研究中，团队发现集合块解码模型大约需要34,000步训练才能完全发挥其潜力，这比传统模型需要更多的训练时间。但考虑到获得的显著加速效果，这种额外的训练成本是完全值得的。这就像投资更多时间学习高效的工作方法，短期内可能需要额外付出，但长期收益巨大。

在8B参数的大型模型实验中，研究团队使用了更加丰富的训练数据，包括70B tokens的高质量推理和指令数据。训练过程采用了AdamW优化器，学习率设置为3e-4，批处理大小为2M tokens。这些精心调优的参数确保了大型模型能够充分利用集合块解码的优势。

十、理论分析的深度洞察：屋顶线模型的速度预测

为了深入理解集合块解码技术的加速原理，研究团队建立了一个详细的理论分析框架，被称为"屋顶线模型"。这个模型就像建筑师在设计大楼时使用的结构分析工具，能够准确预测系统在不同条件下的性能表现。

屋顶线模型的核心思想是分析计算系统的两个关键瓶颈：计算能力和内存带宽。在现代GPU上，任何操作的执行时间都会受到这两个因素中较严格的那一个限制。这就像一个生产流水线，最终产能总是受到最慢环节的制约。

对于H100 GPU和8B参数的transformer模型，研究团队建立了详细的性能模型。他们考虑了FP8精度下的峰值计算性能、内存带宽限制、以及注意力机制的特殊需求。通过这个模型，他们能够预测不同块大小和批处理大小下的理论加速比。

理论分析的结果非常令人鼓舞。对于16大小的块，理论模型预测集合块解码的开销相比传统方法只增加不到5%，这意味着3-5倍的前向传递减少几乎能够直接转化为相应的墙钟时间加速。这个预测与实际实验结果高度吻合，证明了技术方案的理论基础是扎实的。

更进一步的分析显示，随着KV缓存长度的增加，集合块解码的相对优势会变得更加明显。这是因为在长序列生成过程中，内存访问成本会逐渐占据主导地位，而集合块解码能够更有效地分摊这些固定成本。

十一、与现有方法的对比：站在巨人肩膀上的创新

集合块解码技术的出现并非孤立的创新，而是建立在大量前期研究基础上的突破性进展。通过与现有技术的详细对比，我们可以更好地理解这项技术的独特价值。

在与传统投机解码方法的对比中，集合块解码展现出显著的优势。传统投机解码需要维护两个独立的模型，这不仅增加了系统复杂性，还带来了额外的内存开销。相比之下，集合块解码只需要一个统一的模型，简化了部署和维护过程。更重要的是，集合块解码不受连续性约束的限制，可以以任意顺序生成词汇，提供了更高的灵活性。

与Medusa、Eagle等多头预测方法相比，集合块解码避免了架构修改的复杂性。这些方法需要在原有模型基础上增加额外的预测头，不仅改变了模型结构，还引入了大量需要调优的超参数。集合块解码则保持了原有架构的简洁性，只需要通过微调就能获得新能力。

在与最近的混合语言模型研究对比中，集合块解码显示出独特的平衡性。Block Diffusion、CtrlDiff等方法虽然也尝试结合自回归和并行生成，但往往在保持原始性能方面存在挑战。集合块解码通过精心设计的训练策略，成功实现了性能保持和速度提升的双重目标。

特别值得注意的是与纯扩散语言模型的对比。虽然Dream、LLaDa、Mercury等扩散模型在某些任务上表现出色，但它们通常需要从头训练，计算成本巨大。集合块解码则可以充分利用现有的预训练模型，大大降低了实际部署的门槛。

十二、实际应用的广阔前景：改变AI交互的游戏规则

集合块解码技术的成功不仅仅是学术研究的胜利，更重要的是它为实际应用开辟了广阔的前景。这项技术有望在多个领域产生深远影响，从根本上改变人们与AI系统的交互方式。

在代码生成领域，集合块解码的影响尤为显著。程序员在使用AI编程助手时经常遇到的一个问题就是等待时间过长，特别是在生成复杂函数或长段代码时。3-5倍的加速意味着原本需要等待10秒的代码生成任务现在只需要2-3秒，这种改善足以显著提升开发体验和工作效率。

在文档写作和内容创作方面，加速效果同样具有重要意义。无论是撰写技术文档、新闻报道还是创意写作，作者都希望能够获得流畅的AI协助体验。集合块解码技术使得AI能够更快地生成高质量文本，减少了创作过程中的等待时间，让人机协作变得更加自然顺畅。

在教育应用场景中，这项技术的价值同样不容忽视。AI tutoring系统需要能够快速响应学生的问题，提供及时的解答和解释。更快的推理速度意味着AI可以支持更多的并发用户，降低教育AI系统的部署成本，让更多学生受益于个性化的AI辅导。

对于企业级应用，集合块解码技术的经济价值尤为突出。在云服务环境中，推理速度的提升直接转化为计算成本的降低。3-5倍的加速意味着相同的硬件资源可以服务更多的用户请求，或者完成相同任务所需的计算资源减少到原来的1/3到1/5。这种成本优势对于大规模AI服务提供商具有重要意义。

十三、技术挑战与未来发展：前行路上的机遇与挑战

尽管集合块解码技术取得了令人瞩目的成功，但研究团队也诚实地指出了当前面临的挑战和未来的发展方向。这种科学严谨的态度体现了优秀研究的特质。

当前最主要的挑战之一是将理论上的加速优势转化为实际的墙钟时间改善。虽然屋顶线模型的分析很有希望，但实际的GPU实现还需要大量的工程优化工作。这就像设计出了一个理论上很优秀的发动机，但要让它在实际车辆中发挥最佳性能，还需要精细的调校和优化。

硬件感知的推理实现是另一个重要的发展方向。不同的GPU架构、内存配置和互连方式都会影响集合块解码的实际性能表现。研究团队正在探索如何针对不同的硬件平台优化实现策略，确保技术优势能够在各种实际部署环境中得到充分发挥。

从算法角度来看，来自离散扩散文献的更多先进采样器有望进一步提升集合块解码的效果。当前使用的熵界采样器已经表现出色，但研究人员相信还有更大的改进空间。这些新的采样策略可能会带来更精确的速度-准确性权衡控制，让用户能够更灵活地调整系统行为。

模型规模化是另一个重要的研究方向。虽然当前的实验主要集中在8B参数规模，但更大规模模型（如70B、175B甚至更大）的表现还有待进一步验证。研究团队计划扩大实验规模，探索集合块解码在超大型模型上的表现特征。

最后，多模态扩展也是一个充满潜力的方向。当前的集合块解码主要针对文本生成，但其核心思想也有可能扩展到图像生成、音频合成等其他模态。这种跨模态的应用可能会为AI系统的整体效率带来更广泛的提升。

说到底，Meta FAIR团队的这项研究不仅仅是一个技术突破，更是对整个AI推理效率问题的一次深度思考和创新解答。通过巧妙地结合传统自回归生成和并行预测能力，集合块解码技术为大型语言模型的实际应用开辟了新的可能性。3-5倍的速度提升意味着用户可以获得更流畅的AI交互体验，企业可以以更低的成本提供AI服务，研究人员可以更高效地进行大规模实验。

更重要的是，这项技术的成功证明了"渐进式创新"的价值——不是推翻现有系统重来，而是在现有基础上寻找突破点，通过精巧的设计实现显著的改进。这种研究思路不仅降低了技术应用的门槛，也为其他研究方向提供了宝贵的启示。随着相关工程优化的不断推进和新采样策略的持续发展，我们有理由期待集合块解码技术将在AI应用的普及和发展中发挥更加重要的作用。

Q&A

Q1：集合块解码(SBD)技术是什么？它与传统语言模型有什么不同？

A：集合块解码是Meta FAIR实验室开发的一种新型语言模型推理加速技术。传统语言模型必须逐个生成词汇，就像一个人一个字一个字地写文章。而集合块解码让模型能够同时预测多个位置的词汇，这些词汇不需要是连续的，就像在填字游戏中可以同时填写不同位置的字母。这种技术将推理速度提升了3-5倍，同时保持了原有的准确性。

Q2：集合块解码技术需要重新训练模型吗？成本高不高？

A：不需要从头重新训练，只需要对现有模型进行微调即可。研究团队通过对Llama-3.1 8B和Qwen-3 8B等现有模型进行微调，就成功实现了加速效果。这种方法不需要修改模型架构，也不需要增加额外的超参数，大大降低了实际部署的成本和复杂度。相比完全重新训练一个新模型，微调的成本要低得多。

Q3：这项技术在实际应用中能带来什么好处？普通用户能感受到吗？

A：普通用户能明显感受到改善。在代码生成、文档写作、问答对话等场景中，原本需要等待10秒的AI响应现在只需要2-3秒。对企业来说，3-5倍的加速意味着相同的硬件可以服务更多用户，或者大幅降低计算成本。这项技术特别适用于需要生成长文本的场景，比如AI编程助手、智能写作工具和在线教育平台。

人工智能语言模型推理加速集合块解码技术

分享至