微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

阿尔伯塔大学出品：AI说话，居然能更快、更准——解密让大模型"加速思考"的全新方法

大语言模型推测采样新型算法

阿尔伯塔大学出品：AI说话，居然能更快、更准——解密让大模型"加速思考"的全新方法

作者：科技行者

2026-04-21 10:34

分享至：

这项来自阿尔伯塔大学的研究发表于ICLR 2026，论文编号arXiv:2604.04987。研究提出了Cactus方法，将推测采样问题重构为有约束的优化问题，通过KL散度控制输出分布与大模型之间的偏差，在提高草稿词接受率的同时严格保证生成质量。相比现有方法，Cactus仅需一个平方根计算即可完成每步决策，计算开销极低，在多个基准测试中实现了接近1.9倍的推理加速，且无需任何模型训练。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-21 10:34 • 科技行者

这项由加拿大阿尔伯塔大学计算科学系及阿尔伯塔机器智能研究所（Amii）的研究团队完成的工作，发表于2026年国际学习表征会议（ICLR 2026），论文编号为arXiv:2604.04987，感兴趣的读者可通过该编号检索完整原文。

每一次和AI对话，它在屏幕上一个字一个字地"打"出回答时，你有没有想过：这背后究竟发生了什么？为什么有时候感觉AI反应很快，有时候又好像在慢慢思考？这篇研究正是针对这个问题——它不改变AI的"智力"，只是让AI"说话"的过程变得更快、更聪明。

当前的大型语言模型（就是ChatGPT、Qwen这类AI）每生成一个字，都需要把整个庞大的模型从内存里"搬"一遍，这就好比你每次要查一个词，都得把整本词典从书架搬下来，翻完再放回去。显然，这既耗时又耗力。于是，研究者们早就想出了一个"小助手"策略：先让一个小而快的AI打草稿，猜出接下来可能要说的几个词，然后再让大模型快速检验这些词对不对。如果猜对了，直接用；猜错了，才由大模型亲自生成正确答案。这个策略叫做"推测采样"（Speculative Sampling），就像你写报告时先让实习生写初稿，你只需要审核而不用从头写。

然而，阿尔伯塔大学的研究团队发现，现有的这套机制存在一个根本性的"过于谨慎"问题，而他们提出的新方法——Cactus（受约束接受推测采样）——正是为了打破这种不必要的保守，同时又不让AI"胡说八道"。

一、小助手的草稿，为何总被挑剔？

现有的推测采样有一条铁律：大模型审核草稿时，只有当小助手猜的词在概率上与大模型完全一致时，才会接受。换句话说，大模型的标准是"你必须和我想的一模一样"。这听起来很严格，但在实际生活中，这种严格是没必要的。

以餐厅点菜为例。假设你告诉服务员"我想要一杯果汁"，服务员理解成"橙汁"并直接端来，你大概不会拒绝——因为橙汁也是果汁，符合你的意图。但现有的推测采样机制相当于：只要服务员猜的不是你脑海中那一刻具体想到的那种果汁，就必须重新问一遍。这样做当然准确，但实在太慢。

研究人员进一步指出，现实中用大模型生成文字时，用户本身就会使用各种调节手段——比如"top-k采样"（只从最可能的几个词里选）、"温度采样"（让回答更随机一些）——这些手段本身就已经允许了与原始概率分布之间存在一定偏差。既然用户自己都不要求百分之百精确，那审核草稿时的标准为何还要如此苛刻？

正是基于这个洞察，研究团队着手设计一种"有弹性的审核标准"，让更多合理的草稿词得以通过，同时又确保最终结果不会偏离大模型的"意图"太远。

二、另一种"宽松"方案的陷阱

在Cactus之前，已经有人尝试过"宽松审核"的路子，这就是"典型接受采样"（Typical Acceptance Sampling，简称TAS）。TAS的核心思路是：根据大模型对这个词的"信心程度"（用信息论里的"熵"来衡量），决定是否接受草稿词。如果大模型对这个位置本来就没什么把握，那接受小助手的猜测也无妨。

这个想法有一定道理，却暗藏风险。阿尔伯塔大学的研究团队通过严格的数学分析发现，TAS实质上是在用一种叫做"交叉熵"的指标做约束。交叉熵可以被分解为两个部分：一部分叫KL散度（衡量两个概率分布之间的距离），另一部分叫熵（衡量概率分布本身的"混乱程度"）。问题在于，交叉熵允许这两个部分相互"抵消"——也就是说，即便最终输出的分布和大模型的原始分布相差甚远，只要输出的词足够"确定"（熵为零），约束依然满足。

用更形象的方式来理解：TAS就好像一个质检员，他的标准是"产品要轻"，但他忘记了重量只是综合品质的一部分。于是制造商为了通过检测，把所有配件都换成最轻的廉价材料，重量达标了，质量却一塌糊涂。TAS在遇到大模型"本来就很有把握"的那些词时——也就是大模型原始分布信息量很大的时候——会出现严重偏差，把AI引向质量较低的输出。

研究团队在实验中也验证了这一点：在需要精确科学知识的GPQA基准测试（一套由领域专家设计的研究生级别科学题）上，TAS的正确率有时候反而比什么都不做的标准推测采样还低。

三、把"审核标准"变成一道数学题

阿尔伯塔大学研究团队的核心贡献，是把"如何制定审核标准"这个问题，重新表述成了一个"有约束的优化问题"。

这是什么意思？用烤蛋糕来类比：你想让蛋糕尽可能蓬松（对应"接受率尽可能高"），但蛋糕的口味不能和食谱偏差太多（对应"与大模型分布的距离不能超过某个阈值δ"）。在这个框架下，每次小助手猜出一个词，系统会自动计算：在不超出"口味偏差上限"的前提下，这个词最多能被接受的概率是多少？

数学上，这被表述为一个关于h（目标分布）的最大化问题：最大化草稿词n被接受的概率，同时要求h必须是合法的概率分布，且h与大模型真实分布q之间的f散度（一种衡量两个概率分布距离的通用指标）不超过δ。这里δ是一个可以手动调节的参数，δ越大，允许的偏差越大，接受率越高，但输出质量可能下降；δ越小，输出越接近原始大模型，但速度提升有限。

研究团队严格证明了这个优化问题的最优解（定理2）。解的形式非常简洁：对于被草稿选中的那个词n，将它的概率提升到γ*；对于其他所有词，将它们的概率按比例等比缩小，使总概率之和仍为1。γ*是一个方程的根，这个方程恰好描述了"分布偏差恰好等于δ时"的临界状态。

更进一步，研究团队还证明了整个算法的整体输出分布（定理3）：虽然每次针对不同的草稿词n，都会解出一个不同的h，但从全局来看，算法整体输出的分布与大模型之间的距离是可以被严格控制的。具体来说，整体偏差不会超过Γ(δ)，而Γ是一个连续、单调递增且在δ=0时取值为0的函数——这意味着当δ设为0时，整个算法退化回标准的无损推测采样，没有任何偏差；而随着δ增大，偏差也受到良好控制，不会突然失控。

四、Cactus：一个优雅的近似解

理论上的最优解虽然美好，但有一个小麻烦：当用KL散度（信息论中最常用的分布距离衡量方式）作为约束时，γ*满足的方程是一个"超越方程"，包含形如x·log(x)这样的项，无法直接解出解析解，需要数值求解，计算量较大。

阿尔伯塔大学的研究团队采用了一个精妙的近似策略：对方程的左侧函数Φ(γ)在γ=q(n)处做二阶泰勒展开。泰勒展开是数学中一种常用的"局部线性化"技术，就像用一段平滑的抛物线去近似一个弯弯曲曲的曲线，在曲线的某个特定点附近，两者非常接近。

当δ比较小、γ*接近q(n)时，这个近似非常准确。经过这个近似，γ*有了极其简洁的闭合形式：

γ* = min{ q(n) + √(2δ·q(n)·(1-q(n))), 1 }

其中q(n)是大模型对草稿词n给出的概率，δ是超参数，√是平方根符号。整个计算只需要读取n这一个词的概率，做一次乘法、一次开方，就完成了。不需要访问整个词表，不需要数值迭代，计算开销极低。

这个公式的含义也非常直观：给草稿词n的概率加上一个"奖励加成"，奖励的大小由两个因素共同决定——一是δ，δ越大，奖励越多；二是q(n)·(1-q(n))，这个值在q(n)=0.5时取得最大值，也就是说当大模型对这个词的把握度处于"中等"时，奖励最大。这非常合理：大模型非常确定的词（q(n)接近1）早就会被接受，不需要奖励；大模型几乎排除的词（q(n)接近0）加再多奖励也意义不大；只有大模型"有些把握但不完全肯定"的词，才最值得加奖励来提升接受率。

研究团队还进一步证明（推论6）：当大模型对草稿词的概率q(n)不超过0.5时，这个近似解不会超过真实的γ*，也就是说近似解在这种情况下是"保守"的，严格满足KL散度约束。这给了整个方法一个有力的理论保证。

五、实验：在三个考场上的成绩单

为了全面检验Cactus的效果，研究团队选择了三类风格迥异的测试题目，相当于让AI同时参加三场性质完全不同的考试。

第一场考试是GSM8K，一套小学数学应用题集，包含约1300道题，考察AI解决实际数学问题的能力。第二场是IFEval，一套指令遵循测试，包含500道"可验证指令"，比如"写一篇超过400字的博客文章"——考官可以直接数字数来检验AI有没有照做。第三场是GPQA钻石级测试，约200道由领域专家设计的研究生级科学难题，比如关于黑洞熵的计算，难到连搜索引擎都帮不上太多忙。

研究团队使用了阿里云的Qwen 3系列模型作为测试平台，原因是这个系列提供了从0.6B到32B参数规模的多种型号，方便配对使用（小的当草稿员，大的当审核员），而且这些模型都有内置的"思维链推理"能力，会生成较长的回答，非常适合检验推测采样的加速效果。所有实验都采用推荐的生成参数：top-p为0.95，top-k为20，温度为0.6。

以Qwen 3 8B作为审核大模型、Qwen 3 0.6B作为草稿小模型为例，在每次草稿长度为20个词的设置下，标准推测采样（SpS）平均每次能接受5.44个草稿词，TAS能接受7.23个，而Cactus（δ=0.75）能接受7.50个，Cactus（δ=1.0）能接受7.61个——Cactus在接受率上全面领先。

在正确率方面，这种差距更加明显。在GSM8K上，Cactus（δ=0.75）得分86.66，高于SpS的84.46，也高于TAS的85.51，同时大模型独立运行的得分是84.31——也就是说Cactus不仅比SpS快，还比大模型单独运行更准确。在GPQA这道最难的考场上，TAS的表现出现了明显下滑（38.89，低于SpS的42.93），而Cactus（δ=0.75）得分40.01，保持稳定。

换用更大的Qwen 3 14B作为审核模型时，结果更加突出。在GPQA上，Cactus（δ=0.75）达到45.46分，不仅大幅超越SpS（39.39）和TAS（38.89），甚至超越了大模型独立运行的40.07分。这个现象在研究团队的多组实验中反复出现，他们在论文末尾提出了一个假说：Cactus实际上产生了一种"健康的集成效应"，通过聪明地融合小模型和大模型的预测，有时能得到比单独使用大模型更好的结果。

六、被拒绝的词减少了多少？

除了接受率和准确率，研究团队还统计了整个生成过程中被"浪费"掉的词的数量——也就是草稿词被拒绝、需要大模型重新生成的次数。这个指标既反映了接受率，也反映了生成文字的总长度（因为接受低质量草稿词可能导致AI绕弯子、说更多废话，最终生成的文字更长但效率反而下降）。

以大模型14B配小模型0.6B、草稿长度20为例：SpS的拒绝次数作为基准（100%），TAS将拒绝次数降低了32%，而Cactus（δ=1.0）将拒绝次数降低了34%至50%（不同任务有所不同）。Cactus在几乎所有任务上都比TAS减少了更多的"无用功"，尤其在GPQA上，Cactus（δ=1.0）将拒绝次数降低了50%，而TAS只降低了46%。

七、在真实计算机上跑起来有多快？

理论指标固然重要，但最终用户关心的是实际速度。研究团队在配备A100 40GB显卡的服务器上，使用工业级推理框架vLLM进行了实际速度测试。

以8B大模型为例，在草稿长度m=20的设置下，Cactus（δ=0.75）的实际速度比TAS略快，比SpS明显更快。在14B大模型、草稿长度m=10的设置下，Cactus（δ=1.0）实现了接近1.9倍的速度提升（相对于完全不使用推测采样的标准生成方式）。

研究团队还在Spec-Bench这个专门评测推测采样方法的综合基准上进行了测试，涵盖多轮对话、翻译、摘要、问答、数学和检索增强生成六种不同场景。Cactus（δ=1，完全不针对性调参）在所有六个场景上都超越了标准推测采样，整体加速比达到1.88倍，而SpS是1.81倍。

八、换了其他AI家族，还管用吗？

一个方法在一家公司的模型上效果好，不代表它是通用的。研究团队专门测试了三个完全不同来源的模型系列：谷歌的Gemma（2B+9B配对）、深度求索的DeepSeek R1（1.5B+7B配对）、Meta的LLaMA（1B+8B配对）。

在DeepSeek R1和Gemma上，Cactus的表现明显优于TAS。在LLaMA上，Cactus与SpS和TAS相当，保持了稳健性。研究团队还额外测试了一个朴素的"top-k解码"基线方法——只要草稿词落在大模型概率最高的前5个词里就接受——结果发现这种方法的正确率在所有测试中都明显低于大模型独立运行。这再次证明，简单粗暴地"放宽标准"是行不通的，需要像Cactus这样有原则的约束机制。

九、当δ调得很大，会发生什么？

研究团队做了一个有趣的实验：把δ从接近0（等同于标准推测采样）一直调大到极大值（几乎完全接受所有草稿词），观察正确率如何变化，并与"直接混合两个模型概率"的方法做对比。

结果发现，在相同的接受率水平下，Cactus的正确率始终高于简单混合。例如，当接受率约为90%时，Cactus（δ=1e4）在GSM8K上的得分仍超过86分，而混合方法（混合比例α=0.9）的得分已经降到72分以下。即使接受率高达96.3%，Cactus还能保持80分以上的得分。

研究团队还附上了一个具体案例（见论文附录表6）：对同一道数学题，δ=1时AI给出了清晰、简洁、正确（$18）的推理过程；而δ=10^6时，AI生成了一段冗长且混乱的推理，最终因为错误理解"每个松饼用4个鸡蛋"这一信息，得出了错误答案（$26）。这个案例生动地说明：过大的δ会让AI接受低质量的草稿词，进而产生误导性的推理链，最终酿成错误。

十、与其他同类方法相比

研究团队在附录中还额外对比了两种更接近Cactus思路的方法。

第一种是"指导解码"（Mentored Decoding），由一篇博客文章提出，其思路是通过二分搜索找到满足KL散度约束的目标分布。理论上这和Cactus非常相似，但关键区别在于：指导解码每次都需要进行数值优化迭代，而Cactus只需计算一个平方根。实验结果显示，在GSM8K上，使用指导解码的总运行时间比标准SpS还要慢20%——优化的计算开销把速度提升完全抵消了。更糟糕的是，指导解码在IFEval上的正确率大幅下降，研究团队认为这与它使用了"反向KL散度"有关（KL散度在两个参数位置互换时有不同的行为特性）。

第二种是"推测级联"（SpecCas），它的思路是动态决定某个草稿词是否需要经过大模型审核，实质上相当于在不同步骤中以不同比例混合两个模型。这种方法在接受率上非常激进，但正确率下降也很明显——即使研究团队特意选用了对生成质量更友好的超参数，SpecCas在GPQA上的得分仍然大幅低于Cactus和TAS，说明缺乏明确的散度控制会导致不可控的质量损失。

这里有一个整体上的规律值得关注：提高接受率的方法很多，但能在提高接受率的同时严格控制质量偏差的方法，只有Cactus。这正是其理论框架的独特价值所在。

说到底，Cactus做的事情并不神秘，但背后的思考非常严谨。它相当于给AI的"草稿审核员"制定了一套更科学的工作守则：不再要求草稿员猜的每个词都必须和自己一模一样，而是允许合理的偏差，只要这个偏差不超过一个明确的上限。这个上限由KL散度来衡量，由超参数δ来控制，由一个简洁的平方根公式来计算，整个过程几乎不增加任何额外的计算负担。

对普通用户来说，这意味着：未来使用AI写文章、做题、回答问题时，相同的大模型可以跑得更快，同时质量不打折扣，甚至在某些情况下还会更好。对AI开发者来说，Cactus提供了一个即插即用、无需重新训练模型的加速方案，可以直接应用到现有的推测采样框架中。

当然，研究团队也坦诚地指出了一些尚未探索的方向：目前的实验最大只覆盖到32B参数规模的模型，更大的模型是否有不同的行为规律还需要进一步研究；如果专门针对Cactus来微调草稿模型，效果是否会更好，也是值得探索的方向；此外，Cactus有时候表现得比大模型单独运行还要好这一现象，背后的"集成效应"机制也很值得深挖。

如果你对这套方法的数学细节感兴趣，可以通过arXiv编号2604.04987找到完整论文，其中包含全部定理的严格证明和更多实验数据。

Q&A

Q1：推测采样（Speculative Sampling）为什么能加快大模型的生成速度？

A：大模型每生成一个词都需要把整个模型参数从内存搬运一遍，非常耗时。推测采样让一个小模型先快速猜出接下来几个词，然后大模型一次性批量验证这些猜测。如果猜对了，相当于大模型一次"搬运"就生成了多个词，大幅减少了搬运次数，从而加速生成。

Q2：Cactus里的参数δ应该怎么设置？

A：δ控制允许输出分布偏离大模型的最大程度。δ越小，越接近标准推测采样，质量保障更强但速度提升有限；δ越大，接受率越高，速度越快，但质量可能下降。研究论文中在多数任务上δ=0.75或δ=1.0表现良好，可以作为初始值，再根据具体任务的质量要求微调。

Q3：Cactus和TAS（典型接受采样）的根本区别是什么？

A：两者都允许草稿词有一定偏差，但衡量偏差的方式不同。TAS用交叉熵约束，这会让输出变成极度确定的分布，丢失大模型原始的丰富信息。Cactus用KL散度约束，严格控制新分布与大模型分布之间的距离，既提高了接受率，又保留了大模型输出的多样性和精确性，在高难度任务上表现尤为突出。

大语言模型推测采样新型算法

分享至