
这项由浙江大学与阿里巴巴通义千问应用事业部、中国科学技术大学联合完成的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.20104,感兴趣的读者可通过该编号查阅完整原文。
每当你打开手机上的AI助手,输入一个问题,然后眼睁睁地盯着屏幕等待它一个字一个字地蹦出来——这种"蜗牛爬行"的感觉,其实并不是因为AI不聪明,而是它的工作方式天生就是串行的:写第一个字,然后写第二个字,然后写第三个字……就像一个打字员必须等上一个字敲完才能敲下一个字,永远无法并行操作。这个问题在AI规模越来越大、回答越来越长的今天,变得格外突出。
为了解决这个瓶颈,研究人员发明了"推测解码"(Speculative Decoding)这一技术。它的思路很像公司里的"助理+主管"分工模式:先由一个动作快、能力相对弱一些的"小助理模型"快速拟出一段草稿,再交给能力强的"主管模型"一次性审核整段内容——如果草稿写得准,主管直接通过,效率大幅提升;如果草稿写错了,主管纠正并重新出发。这样,原本一个字一个字的串行工作,就在很大程度上变成了批量并行处理。
然而,这套机制发展到今天又遇到了新的矛盾。为了让主管每次审核时能通过更多草稿内容,研究者们开始让小助理不只写一条草稿链,而是同时写出一棵"候选词树"——树上每个分叉都代表一种可能的续写方向,主管一次性审核整棵树,从中挑出走得最远的那条路。代表性方法EAGLE-3就是这种思路的集大成者,效果确实出色。但问题随之而来:树越画越大,小助理的工作量越来越重,GPU显存带宽被大量占用,审核负担也急剧增加——最后,树虽然大了,实际的端到端加速效果却因为这些开销而打了折扣。
面对这个困境,有人想到了"动态剪枝"的办法:当小助理对某个分支没把握时,就不要继续往深处画了,直接砍掉这条枝丫,节省算力。DDD、SVIP、ECHO等方法走的就是这条路,它们确实跑得更快了——但代价是,被砍掉的那些枝丫里,可能恰好有一些是主管会认可的好答案。剪枝越激进,遗漏的好答案就越多,整体通过率(即"平均接受长度",MAT)就越低。速度提升了,质量却掉下来了,这就形成了一道难以逾越的"速度-质量"权衡墙。
正是在这道墙面前,这项研究的团队提出了一个别出心裁的问题:剪掉的枝丫释放出来的"空位",就这么白白浪费掉了吗?
**一、从"废弃槽位"到"宝贵资源":一个视角的转变**
把推测解码的候选词树想象成一份餐厅的候选菜单。主管(大模型)每次能审核的菜品数量是固定的,比如最多60道。以前的做法是:让小助理拼命写满60道菜的候选方案,树越大越好;动态剪枝的做法是:如果小助理对某几道菜没把握,就不写了,结果菜单可能只有40道候选,主管审核的负担减轻了,但有些可能受欢迎的菜就永远没机会上桌。
这项研究的团队意识到,剪枝之后空出来的那20个菜品槽位,其实是宝贵的机会。与其让它们空着,为什么不从别的地方找来20道"备选菜"填进去呢?而且这些备选菜的来源不需要动用小助理重新创作,而是直接从"历史记录"里翻:过去这位顾客常点什么、这道菜后面通常跟着点什么——这些模式都可以快速检索出来,填进空槽。这就是"检索补偿"的核心思路。
研究团队将这个框架命名为**Graft**(嫁接),取的正是园艺中"嫁接"的意象:在剪掉了不健壮的枝丫之后,把来自别处的优质枝条嫁接到空出来的位置上,让整棵树依然枝繁叶茂。"剪枝"为"检索"提供空间,"检索"弥补"剪枝"造成的遗漏,两者相辅相成,共同突破了纯剪枝方法无法逾越的那道权衡墙。
从图1展示的对比数据中可以直观看到这一突破:DDD、SVIP、ECHO等纯剪枝方法确实速度更快,但它们的平均接受长度(相当于主管每次能批准多少道菜)都低于密集型EAGLE3的上限;而Graft在速度超过所有纯剪枝方法的同时,平均接受长度也超过了密集型EAGLE3——这意味着它真正打破了原有的约束边界,实现了"鱼与熊掌兼得"。
**二、Graft的工作原理:三个紧密咬合的齿轮**
Graft的运转由三个紧密协作的环节组成,就像一台精密机械里三个相互咬合的齿轮,缺一不可。
第一个齿轮是"校准剪枝",负责决定什么时候踩刹车。Graft不会在每一个细小的节点上都做剪枝判断,因为判断太频繁反而会因为误判积累而剪掉太多好枝丫。研究团队借鉴了ECHO的思路,只在少数几个"关键检查点"上做判断——具体来说,是在小助理展开候选词树的第0层(根部)、第1层(浅层)和第5层(较深层)这三个位置进行评估。评估的方式是计算当前最优路径的"累积置信度":如果这个置信度低于预先校准好的阈值,就触发剪枝,停止在这个深度继续展开,释放出相应数量的候选槽位。
置信度阈值的校准依托于"热身"阶段完成。在实际推理开始之前,系统会用来自ShareGPT对话语料库的少量样本(默认5轮)预先运行一遍,从中学习每个检查点上置信度的分布规律,然后设定合理的阈值。研究结果显示(见表11),这些阈值在不同任务之间的差异很小,通常在0.05范围以内,这意味着在某个任务上校准好的阈值,换到另一个任务上基本也能用,只有1%到3%的性能损失。
第二个齿轮是"检索嫁接",负责把空出来的槽位填满。Graft维护着一个存储在GPU显存里的"邻接矩阵",可以把它理解为一张"词语接龙概率表":表里的每一行对应词汇表中的某个词,每一行存储着"这个词后面最有可能跟着哪些词(按概率排名的前k个)"。这张表完全存在GPU上,不需要任何CPU参与,查询一个词的后续候选只需要做一次矩阵行列取值操作,极其轻量。
具体的检索流程是"以当前词为根,按模板展开"。当小助理在某个深度触发了剪枝,系统就知道有多少槽位空了出来,随即从邻接矩阵中以当前生成到的词为起点,按照预先设计好的"阶段自适应模板"(stage-adaptive template)展开一棵检索树,把检索到的候选词填入空槽。这个检索过程与小助理的草稿生成并行进行,不在关键路径上增加延迟。
模板的设计也很有讲究。研究团队将其设计为不对称结构:排名靠前(概率较高)的后继词会获得更多子节点,并延伸到更深的层次,形成一条强有力的"贪心续写链";排名靠后的后继词则只保留较少的子节点,用来保留一定的候选宽度。这个思路与"Token Recycling"方法一脉相承:在固定的验证预算内,把更多资源投向高收益的候选路径。
在实际的60个候选槽位预算下,三个剪枝阶段对应的资源分配如下:在根部触发剪枝时(最不确定的情况),保留8个小助理生成的草稿节点,用52个槽位放检索候选;在浅层(第1层)触发剪枝时,保留24个草稿节点,36个槽位放检索;在较深层(第5层)触发剪枝时,保留40个草稿节点,20个槽位放检索;如果完全没有触发剪枝,则不做任何检索,完全沿用原来的小助理草稿树。
第三个齿轮是"混合验证与在线更新",负责让整套系统越用越准。最终组装好的混合候选树(保留草稿节点+检索节点)被展平成一个序列,重新构建树状位置编码和掩码,然后送入大模型进行一次并行验证。关键在于,无论一个候选词来自小助理的草稿,还是来自邻接矩阵的检索,它在大模型面前都接受同样严格的验证规则——只有大模型认为概率合适的词才会被接受输出。这确保了Graft是完全无损的:它的输出分布与直接用大模型逐字生成完全一致,不存在任何近似或妥协。
验证完成后,大模型在验证过程中产生的"下一个词概率分布"(不仅包括被接受的词,也包括被拒绝的候选词对应的分布)被用来实时更新邻接矩阵——每个被验证过的词位置,都会更新其对应行,记录大模型认为最可能的后续词是什么。这样,邻接矩阵就在每一步推理中不断向当前对话的具体语境对齐,越用越精准。
**三、数学上的保证:为什么Graft一定不比纯剪枝差**
研究团队在附录中给出了严格的理论推导,这些推导用不太正式的语言来说,核心逻辑很清晰。
首先,树形验证有一个单调性:候选词树越大(包含越多候选路径),大模型能接受的最长前缀就越长。因为更多的候选路径意味着更多的机会,而增加候选路径不会使已经有效的路径失效。由此可知,纯剪枝之后的树因为候选路径变少,平均接受长度一定不高于原始密集树,这就是"剪枝遗憾"(pruning regret)的来源。
接着,Graft做的事情是:在保持总候选槽位不变的前提下,用检索候选替换掉被剪枝释放的空位。因为替换后的树仍然包含原本保留下来的所有草稿节点(是原剪枝树的超集),所以根据同样的单调性,Graft的平均接受长度不会低于纯剪枝的结果。
更进一步,检索来的候选词如果恰好是大模型认可的词,那就是额外的"覆盖增益"。研究团队将这个增益定义为"在剪枝边界处,新增候选词集合能覆盖的大模型概率质量之和"。只要检索候选中有哪怕一个词具有非零概率,覆盖增益就大于零,Graft的效果就严格优于纯剪枝。
**四、实验结果:在短文本、长文本、大规模模型三条战线全面胜出**
研究团队在三个截然不同的应用场景下对Graft进行了评测,覆盖了实际部署中最典型的几种情况。
在短文本生成方面,实验涉及Vicuna-13B、LLaMA3.1-8B、Qwen3-8B、Qwen3-32B、Qwen3-235B五个不同规模的模型,以及HumanEval(代码生成)、GSM8K(数学推理)、CNN/DM(摘要)、Alpaca(指令跟随)、MT-Bench(多轮对话)五个不同类型的任务。结果显示,Graft在所有组合上都能超过EAGLE3这一强基线:在Vicuna-13B上平均加速比达到4.20倍,最高单任务加速比达到5.41倍;在LLaMA3.1-8B上平均3.97倍;在Qwen3-8B上平均2.43倍,相对EAGLE3提升15.3%;在Qwen3-32B上平均2.49倍,提升17.4%;而在最大规模的Qwen3-235B上,平均2.09倍,相对EAGLE3提升21.8%。
值得关注的是,模型越大,Graft相对EAGLE3的优势反而越显著。这背后的逻辑在于:模型越大,每一步草稿展开的计算代价越高,剪枝节省下来的算力越多,给检索补偿提供的空间也越大;同时,大模型往往对候选词更挑剔,平均接受长度本来就偏低,检索带来的额外覆盖对最终接受率的改善更明显。
与纯剪枝方法ECHO相比,Graft在各模型上的平均加速比提升了3%到9%,平均接受长度提升了4%到8%——速度和质量同时改善,验证了"嫁接"弥补"剪枝"损失的核心逻辑确实成立。与单纯的检索方法(PLD提示词查找、Token Recycling)相比,Graft则有压倒性的优势:那些方法的平均加速比通常只有1.7倍到2.0倍,而Graft能达到3倍到4倍以上。孤立的检索方法与孤立的剪枝方法都有各自的天花板,只有两者结合才能突破。
在长文本生成方面,实验使用LLaMA3.1-8B以及Qwen3-4B/8B/14B,配合YaRN适配的64K上下文EAGLE3草稿模块,在QMSum(会议摘要)、GovReport(报告摘要)、MultiNews(多文档摘要)、LCC(长代码补全)、RepoBench-P(仓库级代码补全)五个任务上进行测试。
长文本场景对Graft格外友好,原因有两个。第一,文本越长,草稿模型每一步需要处理的KV缓存(可以理解为AI的"工作记忆")就越庞大,展开草稿树的代价越高,剪枝释放的算力就越可观。第二,文本越长,历史上生成过或提示词中出现过的词语模式就越丰富,邻接矩阵里积累的转移信息就越充足,检索命中率自然就越高。这两个因素叠加,使得Graft在长文本上相对EAGLE3-64K的提升幅度达到10.3%(LLaMA3.1-8B)到20.2%(Qwen3-8B)。
代码补全任务上的提升尤为突出:Qwen3-8B在LCC任务上提升32.4%,在RepoBench-P上提升38.6%;Qwen3-14B在这两个任务上也分别提升16.0%和19.5%。这是因为代码有大量重复的局部结构(变量名、函数调用模式、常用语法结构),邻接矩阵非常擅长捕捉和复用这类重复模式。
研究团队还专门做了一组上下文长度从4K到32K渐进变化的对照实验,结果显示Graft相对EAGLE3-64K的加速优势随上下文增长而单调增大:在Qwen3-14B上,4K时提升13.0%,32K时提升17.8%——这与理论预期完全吻合。
此外,在高并发批量服务场景下(通过SGLang框架实现,批量大小从1到16),Graft的实现策略有所调整——因为批量推理场景下改变每个请求的树深度会破坏CUDA图的固定计算图结构,带来调度复杂性,所以Graft在这种场景下保持每个请求的验证槽位数不变,仅在静态树内部将低置信度的草稿节点替换为检索节点。即便如此,Graft仍然在所有批量大小和所有任务上都超过EAGLE3,吞吐量提升4%到5.5%,平均接受长度也同步提升。
**五、消融实验:缺掉任何一块都不行**
为了验证Graft的两个核心组件各自的贡献,研究团队做了精细的拆解对比,前提是所有变体保持相同的总候选槽位预算,差异只在于预算如何分配。
"去掉检索"的变体保留了置信度剪枝,但不做任何检索填充,让空槽直接空着。结果是,在LLaMA3.1-8B上平均加速比从3.97倍降至3.74倍,在Qwen3-8B上从2.43倍降至2.20倍——速度和接受长度都下降,说明仅靠剪枝节省成本而不补偿损失的覆盖率,整体效果打折扣。
"去掉自适应剪枝"的变体保留了检索,但按照固定比例分配草稿和检索预算(不根据置信度动态调整)。结果是,在LLaMA3.1-8B上从3.97倍降至3.62倍,在Qwen3-8B上从2.43倍降至1.95倍——下降幅度更大。这是因为固定比例无法追踪每个具体请求的难易程度:在草稿模型已经很有把握时白白浪费检索预算,在草稿模型最不确定时又没有足够的检索槽位来补偿。动态的自适应分配是Graft能取得优异效果的关键机制。
对于检索模板的深度和宽度,研究团队也做了系统性测试。在Qwen3-32B上,当检索深度只有2层时加速比2.34倍,提升深度到8层达到2.86倍的峰值,继续加深到10层、12层则性能下滑——因为太深的检索链在靠近末端的位置命中率很低,浪费了本可用于广度覆盖的预算。宽度的测试结论类似:太窄覆盖面不足,太宽则大量预算花在低概率候选上,最优宽度同样在8左右。这两个参数的最优点都自然指向与原始基础树相近的形状,验证了默认配置的合理性。
**六、热身初始化:解决"冷启动"问题**
任何依赖历史记录的系统都面临一个共同挑战:刚开始的时候没有历史记录可用。Graft通过两级初始化来解决这个问题。
第一级是"热身"阶段:在正式推理前,用ShareGPT语料库(一个广泛使用的对话训练语料,与评测数据集不重叠,不存在数据污染问题)跑几轮推理,把产生的目标模型概率分布写入邻接矩阵,给矩阵建立一套"通用先验知识"。实验表明,5轮热身就能带来显著改善(相比0轮热身,HumanEval上从2.37倍提升到2.51倍),而且只需要0.37MB的存储开销。即便增加到50轮热身(存储2.32MB),性能还能继续提升,但考虑到实时服务的启动时间成本,5轮是一个很好的默认值。
第二级是正式推理过程中的"在线更新":每一步验证结束后,立即用大模型的输出分布更新邻接矩阵。被接受的词和被拒绝的词都参与更新,因为被拒绝的词虽然没有出现在最终输出里,但大模型在处理它们时已经计算出了对应位置的概率分布,这个信息同样有价值,完全不需要额外的计算就能获取。随着推理的进行,邻接矩阵会越来越贴合当前对话的具体语境和主题,检索命中率持续提高。
**七、初步探索:能否把"嫁接"的思路推广到块式草稿方法?**
研究团队还做了一个具有前瞻性的探索实验:把Graft的基本思路应用到DFlash这种"块式草稿"方法上。DFlash不同于自回归树形草稿,它使用扩散模型一次性并行生成16个词的候选块,速度极快,但有时会因为扩散模型的双向建模方式与目标模型的单向自回归验证方式不一致,导致部分词被拒绝。
研究团队观察到,DFlash输出的草稿置信度与目标模型的实际接受率之间存在正相关——也就是说,置信度低的草稿词更容易被拒绝,可以用它作为剪枝信号。于是他们采用了一种简化的"尾部嫁接"(Graft-TAIL)策略:保留DFlash草稿中置信度高的前缀部分,把低置信度的尾部替换为来自邻接矩阵的检索候选,同样保持总验证预算不变。
在Qwen3-8B的五个基准任务上,这种做法把DFlash的平均加速比从3.40倍提升到3.71倍,相对改善9.1%。其中在CNN/DM(2.23倍→2.68倍)和Alpaca(2.05倍→2.33倍)任务上提升最为明显。研究团队明确指出,这只是初步探索,块式草稿方法与树形草稿在拓扑结构和置信度校准上有本质差异,更系统化的设计留待未来研究。但这个初步结果表明,"剪枝释放预算、检索补偿损失"的基本思路具有一定的普适性,不局限于自回归树形草稿这一特定框架。
**八、局限性与未来方向**
研究团队在论文中坦诚地指出了Graft当前的几个局限。检索最有效的场景是当前输入或历史生成中存在丰富的重复局部模式——对于高温度采样、高度创意性输出或罕见话题,邻接矩阵的命中率会下降,收益相应减小。在高并发服务方面,当前的SGLang实现还没有针对检索内核和调度策略做专项优化,高并发场景下的潜力尚未完全释放。在块式草稿方向,初步实验仅提供了概念验证,块级置信度校准和检索位置设计的系统化方法还需要更多研究。
此外,研究团队还提出了两个有趣的延伸方向。一是将Graft应用于大规模强化学习的群采样(GRPO等方法),在多个并行采样轨迹之间共享局部n-gram检索模式,与多头预测(MTP)形成互补;二是将Graft的思路扩展到多模态大模型,把检索候选视为额外的文本提案,同时保持目标模型的验证机制不变。
说到底,这项研究揭示了一个朴素而有效的工程洞见:在推测解码的固定验证预算里,"剪掉"和"填入"是可以协同设计的两个操作,而不是互相独立的两件事。剪掉不确定的枝丫释放出来的空位,并不代表着计算资源的浪费,而恰恰是引入廉价高质量候选的绝好机会。Graft将这个洞见落地为一套完整的、无需训练、无损输出的工程实现,并在从小模型到235B超大规模模型、从短文本到32K长文本的广泛场景下验证了它的有效性。对于真实生产环境中大量部署AI推理服务的工程团队而言,这项研究提供了一条无需改动模型权重、无需额外训练开销就能显著提升吞吐量和响应速度的实用路径。感兴趣的读者可以通过arXiv编号2605.20104查阅完整论文,探索更多技术细节。
Q&A
Q1:推测解码(Speculative Decoding)技术是什么,为什么需要它?
A:推测解码是一种加速大语言模型推理的技术。普通的AI推理必须一个字一个字依次生成,速度受限。推测解码让一个轻量级"小助理模型"先快速草拟一段候选内容,再让大模型一次性批量审核——如果草稿质量高,就能同时接受多个词,大幅提升实际速度,而且输出结果与直接用大模型生成完全一致,不损失质量。
Q2:Graft方法需要对大模型进行额外训练吗?
A:不需要。Graft是完全无需训练的方法。它不修改任何模型权重,只改变候选词树的构建方式——通过置信度剪枝释放验证预算,再用GPU上的邻接矩阵检索填充空位。邻接矩阵在正式推理前通过少量热身数据初始化,在推理过程中通过大模型的验证输出在线更新,整个过程无需梯度计算或参数更新。
Q3:Graft对哪类任务提升最明显?
A:在代码补全类任务(如LCC和RepoBench-P)和文档摘要类任务上提升最显著,因为这类内容有大量重复的局部词语模式(变量名、常用语法、固定短语),邻接矩阵能高效捕捉并复用这些模式。在模型规模维度上,Qwen3-235B这类超大规模模型上的相对提升(约21.8%)反而高于小模型,因为大模型每步草稿代价更高,剪枝释放的算力空间更大。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。