微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Nebius团队：让AI更快回答的新招数——像教练一样训练"小助手"

投机解码训练优化推理加速

Nebius团队：让AI更快回答的新招数——像教练一样训练"小助手"

作者：科技行者

2026-03-05 15:14

分享至：

这项由Nebius公司进行的研究提出了LK损失训练方法，用于优化AI推理加速中的"投机解码"技术。传统方法让小助手模型模仿大模型行为，但LK方法直接优化猜测成功率。实验显示该方法在多种模型架构上都能提升0.5%-8.2%的性能，特别是对能力有限的小模型效果更佳。该技术可直接替代现有训练方法，无需额外计算开销。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-05 15:14 • 科技行者

这项由Nebius公司在荷兰阿姆斯特丹进行的研究发表于2026年3月，论文编号为arXiv:2602.23881v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们和ChatGPT或其他AI聊天时，有没有发现它们回答问题时总是一个字一个字地"思考"，就像一个人在慢慢组织语言一样？这种现象背后其实有着复杂的技术原理。大型AI语言模型在生成文本时，必须按顺序逐个生成每个词汇，这就像一个作家必须一个字一个字地写作，无法同时写出整个句子。这种工作方式虽然保证了语言的连贯性，但速度确实比较慢。

为了解决这个问题，科技界想出了一个巧妙的办法，就像给AI配一个"小助手"。这个小助手的工作是提前猜测AI接下来可能会说什么话，然后把这些猜测交给大AI进行验证。如果猜对了，就能一次性确认好几个词，大大提高了回答速度。这种方法被称为"投机解码"，就像让一个学生先做题，然后老师批改验证一样。

然而，这里有个关键问题：这个"小助手"到底应该怎么训练，才能让它的猜测更准确呢？传统的方法就像让学生通过模仿老师的思维方式来学习，但研究团队发现，对于能力有限的"小助手"来说，直接训练它提高猜中率可能会更有效。

一、传统训练方式的局限性——为什么模仿未必是最好的学习方法

在人工智能领域，训练一个"小助手"来预测大模型的行为，就像训练一个新手厨师来模仿米其林星级大厨的烹饪风格。传统的做法是让新手厨师尽可能地模仿大厨的每一个动作、每一种调味比例，希望通过这种全面模仿来达到相似的效果。

在技术上，这种模仿通过一种叫做"KL散度"的数学工具来实现。可以把KL散度想象成一个严格的评分标准，它会仔细比较新手厨师和大厨在每个烹饪细节上的差异，然后给出一个综合评分。理论上说，如果新手厨师能在每个方面都完美模仿大厨，那么最终的菜品质量也会达到相同水平。

但现实往往更加复杂。就像一个只有基础厨艺的新手永远无法在短时间内掌握大厨所有的精妙技巧一样，计算能力有限的"小助手"模型也无法完全复制大型AI的复杂思维过程。这些小助手的参数量通常只有大模型的1%到5%，就像用一个小厨房的设备去复制需要专业厨房才能制作的复杂菜品。

当小助手无法完美模仿时，传统的训练方法就会遇到问题。继续用厨师的比喻来说，如果评分标准要求新手厨师在调味、火候、刀工、摆盘等每个方面都要接近大厨水平，那么新手可能会在试图平衡所有这些要求时，反而忽略了最重要的目标——让菜品好吃。

研究团队通过一个简单而生动的数学例子展示了这个问题。他们用一个高斯分布来模拟这种情况：假设大厨的烹饪风格可以用一个复杂的多峰分布来描述（就像大厨会根据不同情况使用不同的烹饪技巧），而新手厨师只能掌握一种相对简单的烹饪方式（用单一的高斯分布表示）。

当使用传统的KL散度进行训练时，新手厨师会试图在所有可能的烹饪场景中都表现得还不错，结果导致在任何一个具体场景中都无法达到最佳效果。这就像一个试图什么菜都会做一点的厨师，最终可能什么菜都做不精。相比之下，如果直接训练新手厨师专注于让菜品尽可能好吃（对应于直接优化接受率），结果会显著更好。

在实验中，研究人员发现当使用传统方法时，模型的接受率只能达到50.2%，而使用新方法可以达到60.2%。这个差异听起来可能不大，但在实际应用中，这意味着AI回答问题的速度可以提升显著。

更重要的是，研究团队发现这种问题在现实中普遍存在。特别是当"小助手"的能力相对较弱时，传统的模仿学习方法往往会让它们陷入一种"样样通但样样松"的状态，而直接优化目标效果的方法能让它们在有限的能力范围内发挥出最大潜力。

这个发现对于整个AI加速领域都具有重要意义，因为它揭示了一个基本原理：当学生的能力有限时，与其让他们模仿老师的每一个细节，不如直接教他们如何在最终考试中取得好成绩。

二、新训练方法的核心思想——直接教会"小助手"提高成功率

既然传统的模仿学习方法存在问题，研究团队就开始思考：能否直接训练"小助手"提高它的猜测成功率，而不是让它模仿大模型的每一个细节？这就像改变训练策略，不再要求新手厨师模仿大厨的每个动作，而是直接以最终的菜品质量为目标进行训练。

研究团队提出了两种创新的训练方法，他们称之为"LK损失"。这个名字很有意思，它是"KL"的反写，象征着对传统方法的颠覆性改进。

第一种方法相当直接，可以叫做"似然法"。这种方法的核心思想是把猜测成功的概率看作一个需要最大化的目标。就像训练一个射箭运动员时，与其让他模仿奥运冠军的每一个动作细节，不如直接以命中靶心的次数为目标进行训练。在数学上，这相当于最小化"负对数接受率"，听起来很复杂，但本质就是让成功率越来越高。

这种方法的巧妙之处在于它的梯度特性。梯度可以理解为学习的方向和强度，就像指南针告诉我们该往哪个方向走，以及步子应该迈多大。传统方法的梯度在训练初期往往很微弱，就像在黑暗中摸索方向的指南针指针摆动很小，难以指引正确的方向。而新方法的梯度在训练初期就很强，能够提供清晰的学习方向。

更重要的是，似然法解决了传统方法中存在的"梯度消失"问题。在传统方法中，当小助手的初始能力与目标相差很远时，学习信号会变得极其微弱，就像在嘈杂环境中听一个很小的声音一样困难。而似然法通过一个巧妙的数学技巧，能够在任何时候都提供足够强的学习信号。

第二种方法更加精妙，被称为"混合法"。这种方法认识到传统方法和新方法各有优势，就像认识到模仿学习和结果导向学习都有其价值。混合法的策略是在训练的不同阶段使用不同的方法：在训练初期，当小助手的能力还很弱时，主要使用传统的模仿学习方法来建立基础；随着训练的进行和能力的提升，逐渐转向直接优化成功率的方法。

这就像培训一个新员工的过程：刚开始时，让新员工观摩和模仿有经验的同事是有必要的，这能帮助新员工快速掌握基本的工作方法和公司文化；但随着新员工能力的提升，就应该更多地以最终的工作成果为导向进行培训和考核。

混合法使用了一个自适应的调节机制，这个机制能够根据当前的训练效果自动调整两种方法的比重。当小助手的猜测准确率较低时，系统会更多地依赖传统的模仿学习方法；当准确率提高后，就会逐渐增加直接优化成功率方法的权重。这个转换过程是平滑的，就像汽车的自动变速箱能够根据速度和路况自动切换档位一样。

从理论角度来看，这种混合方法可以被理解为一种"信任区域"策略。这个概念来自于优化理论，其基本思想是在一个可信的范围内进行激进的优化，而在这个范围之外则采用更保守的策略。对于小助手的训练来说，当它的预测能力还不稳定时，信任区域较小，主要依靠传统方法的稳定性；当能力提升后，信任区域扩大，就可以更大胆地追求最优结果。

这两种新方法的共同特点是它们都直接以最终目标为导向，而不是以过程的相似性为目标。这种转变看似简单，但在实践中却能带来显著的效果提升。就像从"学会大师的所有技巧"转变为"把事情做得最好"这样的思维转换，往往能释放出更大的潜力。

三、解决实际应用中的技术挑战——让理论变为现实的关键细节

将这些新的训练方法从理论变为实际可用的技术，研究团队还需要解决许多实际应用中的技术挑战。这就像设计出了新的烹饪理论，还需要开发出相应的厨具和操作流程才能真正应用到餐厅中。

其中一个重要的技术挑战涉及词汇处理。现代AI模型通常拥有数万甚至数十万的词汇量，就像一个拥有巨大菜单的餐厅。但"小助手"为了提高效率，往往只能处理其中的一小部分词汇，就像快餐店只提供有限的菜品选择。这种词汇限制在传统的训练方法中会造成严重问题。

传统方法在遇到词汇限制时会产生数学上的"无穷大"问题。这就像一个评分系统在遇到不认识的菜品时就给出极低的分数，这种极端的惩罚会严重干扰整个训练过程。为了解决这个问题，传统方法必须对目标进行修正，但这种修正本身又引入了新的误差。

而新提出的LK方法天然地解决了这个问题。由于这些方法直接关注最终的成功率，对于不在词汇范围内的词汇，它们的贡献自然为零，不会产生任何数学上的问题。这就像一个只关心最终菜品质量的评价体系，对于不存在的菜品自然不会给出任何评分，也就不会干扰整体的评价过程。

另一个重要的技术创新涉及训练调度策略。研究团队发现，混合方法中两种训练策略的切换时机和方式对最终效果有巨大影响。他们设计了一个基于当前性能的自适应调度机制，这个机制能够实时监测"小助手"的表现，并据此调整训练策略的比重。

这个调度机制的数学表达看起来很复杂，但其核心思想很简单：当小助手表现不佳时，主要使用稳定的传统方法；当表现改善时，逐渐增加新方法的比重。这种切换是平滑的，避免了突然改变训练策略可能带来的不稳定性。

研究团队还解决了一个被称为"梯度缩放"的技术问题。在新的似然方法中，学习信号的强度会根据当前性能自动调整。当"小助手"表现较差时，学习信号会自动放大，就像在学生成绩不好时增加辅导强度一样；当性能改善后，学习信号会相应减弱，避免过度训练。

这种自适应的梯度缩放机制解决了传统方法中的一个重要问题：在训练初期，当"小助手"能力很弱时，传统方法的学习信号往往很微弱，导致学习进度缓慢。而新方法通过动态调整学习信号强度，确保在任何阶段都能维持有效的学习。

为了验证这些技术创新的有效性，研究团队进行了大量的消融实验。他们分别测试了不同调度策略的效果，比较了固定混合比例和自适应混合比例的表现，验证了梯度缩放机制的必要性。结果显示，每一个技术细节都对最终效果有显著影响，证明了这些看似复杂的技术处理的必要性。

此外，研究团队还考虑了实际部署中的计算效率问题。他们确保新的训练方法不会增加额外的计算开销，这对于实际应用来说至关重要。新方法的计算复杂度与传统方法相当，但效果明显更好，这使得它们具有很高的实用价值。

四、全面的实验验证——在各种情况下测试新方法的有效性

为了充分验证新训练方法的有效性，研究团队进行了一系列全面而严格的实验。这些实验就像对新开发的教学方法进行全面测试，需要在不同的学校、不同的学生群体、不同的学科上都验证其效果。

实验涵盖了四种不同的"小助手"架构和六种不同规模的大型AI模型。这种多样化的测试环境确保了结果的普适性。四种小助手架构包括了当前最先进的EAGLE-3、多阶段MLP、MEDUSA以及原生的多令牌预测模块，它们分别代表了不同的技术路径。六种大型模型的参数量从80亿到6850亿不等，覆盖了从中等规模到超大规模的完整范围。

在测试数据的选择上，研究团队使用了三个不同领域的基准数据集：MT-bench用于测试多轮对话能力，HumanEval用于测试代码生成能力，GSM8K用于测试数学问题解决能力。这种多领域的测试确保了新方法不仅在特定任务上有效，而且具有广泛的适用性。

实验结果令人印象深刻。在所有测试配置中，新的LK方法都显示出了优于传统KL方法的性能。具体来说，平均接受长度的提升幅度在0.5%到8.2%之间，这在AI加速技术中是相当显著的改进。

特别值得注意的是，新方法在不同规模模型上的表现呈现出有趣的规律。对于较小规模的"小助手"模型，改进效果更加明显。例如，MEDUSA架构在随机采样情况下平均提升了7.8%，MLP架构提升了8.3%，而更复杂的EAGLE-3架构提升了3.8%。这个结果验证了研究团队的理论预测：能力有限的模型更能从直接优化目标的方法中受益。

在不同的目标模型规模测试中，研究团队发现了另一个有趣的现象：当"小助手"与大模型的能力差距越大时，新方法的优势越明显。对于参数量达到千亿级别的混合专家模型，改进效果特别显著，最高可达8.2%的提升。

研究团队还对比了不同的采样温度设置。在贪婪采样（温度为0）和随机采样（温度为1）两种情况下，新方法都表现出了一致的优势，但在随机采样情况下的改进更为显著。这是因为新方法直接针对概率分布进行优化，在需要处理概率不确定性的随机采样中更能发挥优势。

为了确保评估的公平性，研究团队还实现了正确的拒绝采样算法。他们发现现有的一些评估框架在处理非零温度采样时存在技术缺陷，这可能会影响结果的准确性。通过修正这些技术问题，他们确保了评估结果的可靠性。

在训练效率方面，新方法也表现出了良好的特性。训练时间与传统方法相当，但收敛速度更快，特别是在训练初期就能显示出明显的性能改进。这对于实际应用来说非常重要，因为它意味着可以用相同的计算资源获得更好的效果。

研究团队还进行了详细的消融研究，分别测试了混合方法中不同组件的贡献。结果显示，自适应调度机制是性能提升的关键因素，而固定比例的混合方法效果相对有限。这证实了动态调整训练策略的重要性。

此外，他们还测试了不同的超参数设置对结果的影响。例如，在混合方法中调节因子η的选择对最终性能有显著影响，但在合理的范围内，新方法都能保持其优势。这种鲁棒性对于实际应用来说是一个重要优点。

五、对比现有技术和未来展望——新方法的独特优势和发展前景

将新提出的LK方法与现有技术进行全面对比，可以更清楚地看出这项研究的独特价值和创新之处。这就像比较不同教学方法的效果，需要从多个维度来评估其优劣。

与市面上已有的开源模型相比，研究团队训练的模型显示出了显著优势。例如，他们训练的LLaMA-3.1-8B模型在各项测试中都超过了HuggingFace平台上的同类开源模型。这种优势不仅体现在数值上，更重要的是证明了新方法的实用价值。

在与传统的知识蒸馏方法比较时，LK方法展现出了独特的优势。传统的知识蒸馏就像让学生完全模仿老师的思维过程，而新方法更像是直接教学生如何在考试中取得好成绩。这种差异在实际效果上体现得很明显：传统方法可能会让小模型学到很多"知识"，但这些知识不一定能转化为实际的性能提升。

特别值得注意的是新方法在处理混合专家模型时的表现。当目标模型是具有数千亿参数的混合专家架构，而"小助手"只是一个简单的密集型网络时，传统的模仿学习方法往往效果有限，因为两者的架构差异太大。而LK方法通过直接优化最终目标，能够更好地跨越这种架构差异，实现更有效的知识转移。

研究团队还发现，新方法在微调预训练模型时也表现出色。以DeepSeek-V3的多令牌预测模块为例，这个模块原本只是为预测第一个令牌而训练的，但在实际使用时需要预测多个令牌。传统的微调方法在这种不匹配情况下效果有限，而LK方法能够显著改善后续令牌位置的预测准确率，在随机采样情况下实现了5.6%的性能提升。

从计算效率角度来看，新方法的另一个重要优势是它不增加推理时的计算开销。这一点在实际部署中至关重要，因为推理阶段的效率直接影响用户体验和运营成本。LK方法只是改变了训练过程，而不改变模型的结构或推理流程，这使得它可以作为现有系统的直接替换方案。

在可扩展性方面，研究结果表明LK方法的优势随着模型规模差异的增大而增强。这意味着随着大型模型变得越来越大，小助手模型相对能力越来越有限时，新方法的价值会更加凸显。这为未来AI模型的发展提供了重要的技术储备。

研究团队也诚实地指出了当前方法的一些局限性和未来的改进方向。首先，当前的方法主要关注平均接受率，但实际应用中，系统效率还取决于其他因素，比如总的计算时间比例。未来的研究可以将这些因素也纳入优化目标。

另一个有趣的扩展方向是可学习的损失聚合机制。当前方法使用固定的指数衰减权重来聚合不同位置的损失，但理论上说，这些权重也可以根据实际的累积接受率来自适应调整，可能会带来进一步的性能提升。

研究团队还提出了将top-k和top-p采样参数纳入训练过程的可能性。在实际部署中，这些采样参数经常被使用，如果训练时就考虑这些参数，可能会让"小助手"的预测更加精准。

从更广阔的技术发展角度来看，这项研究代表了AI训练方法学的一个重要转向：从模仿学习转向目标导向学习。这种思路转变不仅适用于投机解码，也可能在其他需要小模型辅助大模型的场景中找到应用。

展望未来，随着大型语言模型继续增长，对高效推理技术的需求只会越来越强烈。LK方法提供了一个可行的解决方案，不仅能够提升现有系统的性能，还为未来更复杂的AI加速技术奠定了理论基础。这项研究的意义不仅在于解决了一个具体的技术问题，更在于为AI系统的优化提供了新的思路和方法。

总的来说，这项研究通过深入的理论分析和全面的实验验证，为AI推理加速技术贡献了重要的进展。它不仅提供了立即可用的技术改进，也为未来的研究方向指明了道路。正如研究团队在论文中所强调的，这些方法可以直接集成到现有的训练框架中，作为标准方法的简单替代，这大大降低了技术采用的门槛，有望推动整个领域的快速发展。

Q&A

Q1：LK损失是什么，跟传统的KL散度训练有什么区别？

A：LK损失是一种新的AI训练方法，专门用来训练"小助手"模型帮助大AI更快回答问题。传统的KL散度训练让小助手模仿大模型的所有行为细节，而LK损失直接训练小助手提高猜测成功率。就像传统方法是让学生模仿老师的每个动作，新方法是直接教学生如何考出好成绩。

Q2：为什么能力有限的小模型更适合用LK损失训练？

A：因为能力有限的小模型无法完美模仿大模型的复杂行为，传统训练会让它们"样样通但样样松"。LK损失让小模型专注于做好最重要的事情——提高猜测准确率，而不是分散精力去模仿所有细节。研究显示，越简单的模型用LK损失训练效果提升越明显。

Q3：LK损失训练的模型在实际应用中能带来多大的速度提升？

A：根据实验结果，LK损失能让AI回答速度提升0.5%到8.2%不等，具体提升幅度取决于模型架构和任务类型。对于大规模混合专家模型，提升效果可达8%以上。虽然听起来不多，但在大规模AI应用中，这种提升能显著改善用户体验和降低运营成本。

投机解码训练优化推理加速

分享至