微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 卡内基梅隆大学研究者找到了让AI"聪明省钱"的方法:根据模型自身的信心决定记忆用量

卡内基梅隆大学研究者找到了让AI"聪明省钱"的方法:根据模型自身的信心决定记忆用量

2026-06-04 11:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-04 11:05 科技行者

这项由卡内基梅隆大学研究团队完成的研究以预印本形式发布于2026年5月,论文编号为arXiv:2605.24786,感兴趣的读者可通过该编号在arXiv平台检索完整论文。

当我们和AI聊一个很长的话题,或者让它帮忙分析一篇几万字的文章时,AI背后的计算机需要记住大量的"对话历史"。这些记录被称为KV缓存,可以把它理解为AI在工作时随时翻阅的一本草稿本。草稿本越厚,AI就能记住越多内容,回答也就越准确;但草稿本太厚,不仅占用大量存储空间,每次翻阅也会越来越慢,成本越来越高。

问题在于,现有的方法大多是靠"硬规定"来控制草稿本的厚度:要么只保留最近写的几页(滑动窗口),要么保留被翻阅最多次的几页(历史注意力机制)。这些方法都盯着过去看,却忽略了一个现成的信号——AI自己此刻有多确定接下来要说什么。卡内基梅隆大学的这支团队因此提出了一个新思路:让AI根据自身当前的"信心程度"来动态调整草稿本的大小。这个系统被命名为CONF-KV。

一、为什么AI的"草稿本"会成为大麻烦

以一个具体场景来感受这个问题的规模。当使用一个拥有320亿参数的大模型(Qwen-32B)连续生成4000个词的回答时,仅仅存放这本"草稿本"就需要消耗15.8 GB的显存。这几乎相当于一张顶级游戏显卡的全部内存。如果一台服务器想同时处理多个用户的请求,这本厚重的草稿本就会成为卡脖子的瓶颈,既限制了能同时服务的用户数量,又拖慢了每一次回答的速度。

更深层的矛盾在于,草稿本里并非每一页都同样重要。当AI在回答一道简单的数学计算题时,它根本不需要翻回几百页前的对话记录;但当它突然需要引用早先提到的一个专有名词时,那几百页前的那一行记录就至关重要。现有的静态方法无法区分这两种情况,只能一刀切地保留固定数量的页面,结果要么浪费了宝贵的空间,要么在关键时刻找不到需要的信息。

二、信心作为一把钥匙:CONF-KV的核心逻辑

CONF-KV的核心直觉来自一个朴素的观察:当AI对接下来要说什么非常确定时,它大概率不需要翻回很久以前的记录;当AI感到迷茫、拿不定主意时,它很可能需要更多的上下文来帮助判断。因此,AI的"信心程度"本身就是一个关于"当前需要多少记忆"的直接信号。

这个信心是怎么衡量的呢?每次AI生成下一个词之前,它会在内部计算出一个概率分布,列出所有可能的下一个词以及各自的可能性。CONF-KV从这个分布中提取三个指标:分布的混乱程度(熵,越混乱说明越不确定)、排名第一和第二的候选词之间的概率差距(差距越小说明越犹豫),以及最可能的那个词的概率本身。把这三个指标按照0.4、0.3、0.3的权重加权合并,就得到了一个介于0和1之间的信心分数。权重是通过在GPT-2模型上做小规模测试选出来的,实验证明这组权重在不同规模的模型上都保持稳定。

有了这个信心分数,CONF-KV的决策逻辑就变得非常直接:设定一个信心阈值(默认为0.7)。当AI的信心超过这个阈值时,草稿本被压缩到一个较小的尺寸(高信心预算,通常为128个词的记录);当信心低于阈值时,草稿本被允许保留更多内容(低信心预算,通常为256个词的记录)。这样一来,草稿本的大小随着AI的状态动态起伏,形成一种随信心波动的节奏。

三、决定留下哪些记录:注意力与新鲜度的组合评分

确定了草稿本的目标大小之后,下一个问题是:当需要删减时,删掉哪些记录?CONF-KV为草稿本里的每一条记录都维护一个综合评分,这个评分由两部分构成。

第一部分是这条记录历史上被"翻阅"过多少次,也就是它在之前的计算中获得了多少注意力。这个数值不是简单累加,而是通过指数移动平均(一种让近期的数据权重更高的加权方式)持续更新,衰减系数为0.9,意味着越近期的注意力越重要。第二部分是这条记录的新鲜程度——越新写下的记录得分越高。两个部分按照0.65和0.35的比例混合,得到最终的保留优先级。

除此之外,CONF-KV还设置了一个"保护窗口",强制保留最近写入的若干条记录(WikiText任务中为32条,长文本任务中为64条)。这是为了防止系统把刚刚才产生的、正在被使用的记录也给删掉,避免破坏局部的逻辑连贯性。每次需要压缩时,系统从不受保护的部分里删掉得分最低的记录,直到草稿本缩减到目标大小为止。

四、让草稿本更"轻":混合精度存储

除了控制保留多少条记录,CONF-KV还在存储方式上做了优化。草稿本里的数据原本全部以FP16格式存储,这是一种16位的浮点数表示方式,精度高但占用空间大。CONF-KV引入了一种混合精度方案:最近写入的若干条记录(默认为最近128条)继续用FP16存储,保持高精度;更早的记录则被转换为INT8格式,也就是用8位整数来近似表示,每条记录的存储空间直接减半。

INT8的量化方式是对每个注意力头的每个通道分别找到绝对值最大的数,然后把所有数按比例映射到-127到127的整数范围内。在实际计算时,读取这些压缩记录时会实时还原成近似的原始值。实验表明,这种方案平均引入的误差仅为0.38%,对模型输出质量的影响极小,仅使困惑度(衡量语言模型预测准确程度的指标,数值越低越好)上升了0.34分。相比之下,更激进的NF4格式会导致困惑度上升0.91分,INT4更会上升1.65分,因此INT8是质量与空间的最佳平衡点。

五、深层网络用更少记录:金字塔层预算

Transformer模型(现代大语言模型的基础架构)由很多层堆叠而成,每一层都有自己的草稿本。研究者发现,越靠近模型深层的网络层,往往只需要关注少数几个关键记录就能完成计算,不需要那么多历史信息。基于这个观察,CONF-KV还提供了一个叫做CONF-KV-L的变体,它给不同层分配不同大小的草稿本预算,越深的层预算越小,呈现出金字塔形状。

具体来说,第 l 层的高信心预算等于初始预算乘以0.5的(l除以总层数L)次方,但不低于96条记录的最小保障。这意味着最深的层获得的预算约为第一层的一半,整体上进一步节省了存储空间,同时因为浅层保留了更多信息,模型的输出质量也得到了较好的维护。

六、在真实任务上的表现:数字背后的故事

为了验证CONF-KV的实际效果,研究团队在四个不同规模的语言模型上展开了测试,分别是GPT-2(1.24亿参数的小模型)、Qwen-14B、gpt-oss-20b以及Qwen-32B。测试任务涵盖了语言质量评估、长文本检索、网页操作智能体三个完全不同的场景。

在语言质量测试中,研究者让模型持续生成最多4096个词的文本,用"困惑度"来衡量生成质量。CONF-KV+INT8方案在和固定保留512条记录的滑动窗口方案占用相同内存的前提下,困惑度从34.37降低到了31.26,改善了3.11分。而更进一步的CONF-KV-L方案甚至把困惑度降到了30.48,比滑动窗口改善了3.89分,同时占用的内存还比滑动窗口更少。与保留所有记录的全量KV缓存(困惑度29.14)相比,CONF-KV-L弥合了74%的质量差距,而目前最好的静态对比方案PyramidKV只能弥合63%。

在Qwen-32B这样的大模型上,CONF-KV+INT8把峰值KV缓存内存从15.8 GB压缩到了2.6 GB,节省了13.2 GB,这在一张80 GB的H100显卡上意味着可以同时服务的用户数量大幅增加。

七、在"大海捞针"任务中的真正考验

语言质量只是一方面,更严苛的测试是:当关键信息藏在大量无关内容中时,AI能否在有限的草稿本里把它保留下来?研究团队设计了一系列"大海捞针"实验,把一条特定的事实("针")藏在长度从1000到32000词不等的文章("草堆")中,然后在文章末尾提问,看AI能否找到这个事实。

针的位置被设置在不同深度,从接近文章末尾(深度10%,容易被近期窗口保留)到接近文章开头(深度90%,距离当前位置最远)。结果显示,滑动窗口方案在32000词的文章中平均准确率仅有5%以下,因为针很可能已经在固定窗口之外;H2O方案有所改善,平均准确率为80.6%,但在中等深度的针上仍然表现不稳定;而CONF-KV达到了91.4%的平均准确率,在几乎所有长度和深度组合上都保持了较高的稳定性。

CONF-KV在这项任务上表现好的原因可以从行为层面来理解:当AI遇到检索类的问题时,它对接下来要说什么变得不确定,信心分数下降,系统随即扩大草稿本,保留更多上下文,从而增加了找到"针"的机会。

八、网页操控任务:最接近真实应用的考验

研究团队还在VisualWebArena平台上测试了75个网页操控任务,让AI模拟真实用户在购物网站、导航、填写表格、搜索信息等场景中完成任务。这个测试使用的是gpt-oss-20b模型,每个任务最多允许30步操作,每步生成最多256个词的响应。

使用完整KV缓存时,AI完成任务的成功率为40.2%。CONF-KV将成功率保持在38.3%,相差不到两个百分点,而峰值内存降低了2.8倍。滑动窗口方案的成功率则下滑到了29.1%,损失了超过11个百分点。在信息搜索类任务中,CONF-KV相比H2O的优势最为明显,原因是当AI需要重新翻阅之前见过的页面内容时,信心会自然下降,系统随即保留更多记录,恰好帮助AI找到了之前看到过的关键信息。

九、信心信号真的有用吗:对照实验的回答

研究团队专门设计了一系列对照实验来验证信心信号本身的价值,而不只是"保留了更多记录"这个结果。所有对照组都使用与CONF-KV完全相同的触发频率和每次删减的记录数量,只改变"删减哪些"或"什么时候触发"的逻辑。

在相同频率下随机删除记录,困惑度高达36.54,比只保留最近512条记录的滑动窗口还要糟糕。只使用新鲜度来排序保留优先级,困惑度为32.08。只使用历史注意力来排序,困惑度为31.47。完整的CONF-KV组合达到了30.92。这个梯度清晰地说明,注意力排名和信心调度这两个机制各自都有贡献,而且结合起来效果更好。

研究者还从另一个角度验证了信心信号的合理性。他们对GPT-2模型运行了1200步生成,在每一步都测量"如果突然删掉最近256条记录,模型的下一个词的预测会变化多大"(用KL散度衡量)。结果发现,信心分数和这个变化大小之间的皮尔逊相关系数为-0.77,这意味着信心越高,删掉最近的记录对预测结果的影响越小;信心越低,删掉记录的影响越大。这在统计上是极为显著的结论(p值远小于0.0001),而且在Qwen-14B、gpt-oss-20b和Qwen-32B上也重现了类似的规律,相关系数分别为-0.38、-0.41和-0.36。

十、速度与吞吐量的实际收益

在延迟方面,CONF-KV在GPT-2和Qwen-32B上都实现了约1.8倍于全量KV缓存的速度提升。从内核级别的时间分解来看,注意力计算所占的时间比例从全量KV缓存时的62%降低到了47%,而记录压缩操作增加了约0.22毫秒,元数据更新增加了约0.11毫秒,合计只有0.33毫秒的额外开销,远小于注意力计算节省的时间。CONF-KV+INT8因为需要压缩和解压缩操作,比不量化的CONF-KV略慢,但仍然大幅优于全量KV缓存。

批处理吞吐量方面,在批次大小为8时,CONF-KV实现了全量KV缓存吞吐量的2.06倍,同时与滑动窗口的吞吐量相差不到1%。全量KV缓存在批次大小超过8之后因内存不足而无法运行,而CONF-KV和滑动窗口在更大的批次下仍然正常工作,这对于需要同时处理大量用户请求的服务场景意义重大。

十一、哪些情况下CONF-KV不够好:诚实的局限讨论

研究团队没有回避失败案例。在"大海捞针"实验中,剩余的失败大多发生在一种特定情景:AI在遇到关于罕见实体的检索问题之前,处于一段高信心的连续生成状态,把那个关键的罕见词汇记录删掉了。在这种情况下,提高信心阈值(从0.7调高到0.8)可以恢复大部分案例,代价是多消耗约12%的内存。这说明阈值是一个可调节的旋钮,而不是一个固定的正确答案。

在网页操控任务中,失败的模式类似:某个产品名称、表单字段或罕见实体在被需要之前,恰好经历了一段高信心的操作流程,被提前删除了。相比之下,滑动窗口的失败通常是结构性的,因为相关记录无论AI状态如何都已经超出了固定窗口。

CONF-KV在短对话中几乎没有作用,因为记录从未累积到触发删减的程度。当AI以高温度参数(让输出更随机)生成文本时,信心分数的分布会变得更均匀,阈值可能需要重新调整。此外,目前的实现使用连续紧凑的内存布局,与PagedAttention这类基于分块内存页的服务系统结合时需要额外工程工作,因为细粒度的记录删除会产生部分空置的内存块。

说到底,CONF-KV做的事情并不神秘:它只是把AI运算时已经产生的一个数字(对下一个词的信心程度)重新利用起来,用来指导草稿本的管理方式。这个信号不需要额外计算,不需要修改模型权重,不需要训练任何新的组件,只需要在每一步生成之后多做一个简单的判断。

对于普通用户来说,这意味着未来使用AI助手处理长文档、长对话或复杂任务时,服务器可以在消耗更少内存的同时保持接近最佳的回答质量,服务速度可以更快,同一台服务器能同时处理的用户数量可以更多,运营成本因此有望降低。对于研究者来说,这项工作展示了一个此前被忽视的思路:模型自身的实时状态可以成为系统资源管理的依据。有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2605.24786找到完整原文。

Q&A

Q1:CONF-KV和普通的滑动窗口KV缓存压缩方法有什么区别?

A:滑动窗口只保留最近固定数量的记录,无论模型状态如何都一视同仁。CONF-KV则根据模型每一步生成时的信心程度动态调整保留多少记录:信心高时压缩得更激进,信心低时保留更多上下文。在相同内存占用下,CONF-KV在GPT-2上的语言质量比滑动窗口改善了3.11到3.89个困惑度单位,在长文本检索任务中的准确率从53.8%提升到91.4%。

Q2:CONF-KV的信心分数具体是怎么计算出来的?

A:每次AI生成下一个词前,会产生一个概率分布。CONF-KV从中提取三个数值:分布的混乱程度(归一化熵)、概率最高和第二高的词之间的差距(对数概率差),以及最可能词的概率本身。这三个数值分别以0.4、0.3、0.3的权重加权求和,得到0到1之间的信心分数。超过阈值0.7判定为高信心,草稿本压缩到较小预算;低于阈值则保留更多记录。

Q3:CONF-KV在实际部署时对服务器性能有什么影响?

A:在延迟方面,CONF-KV比保留全部记录的方案快约1.8倍,因为注意力计算的时间比例从62%降到了47%,而额外的记录压缩和元数据更新只增加约0.33毫秒。在吞吐量方面,批次大小为8时吞吐量是全量方案的2.06倍。使用INT8混合精度存储后,Qwen-32B的KV缓存内存从15.8 GB降至2.6 GB,一张80 GB的H100显卡可以同时处理更多并发请求。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-