微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

卡内基梅隆大学研究者找到了让AI"聪明省钱"的方法：根据模型自身的信心决定记忆用量

大语言模型KV缓存压缩自适应内存管理

卡内基梅隆大学研究者找到了让AI"聪明省钱"的方法：根据模型自身的信心决定记忆用量

作者：科技行者

2026-06-04 11:05

分享至：

CONF-KV是卡内基梅隆大学提出的KV缓存管理方案，通过将模型生成时的信心程度转化为动态内存预算，在节省显存的同时保持接近全量缓存的生成质量。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 11:05 • 科技行者

这项由卡内基梅隆大学研究团队完成的研究以预印本形式发布于2026年5月，论文编号为arXiv:2605.24786，感兴趣的读者可通过该编号在arXiv平台检索完整论文。

当我们和AI聊一个很长的话题，或者让它帮忙分析一篇几万字的文章时，AI背后的计算机需要记住大量的"对话历史"。这些记录被称为KV缓存，可以把它理解为AI在工作时随时翻阅的一本草稿本。草稿本越厚，AI就能记住越多内容，回答也就越准确；但草稿本太厚，不仅占用大量存储空间，每次翻阅也会越来越慢，成本越来越高。

问题在于，现有的方法大多是靠"硬规定"来控制草稿本的厚度：要么只保留最近写的几页（滑动窗口），要么保留被翻阅最多次的几页（历史注意力机制）。这些方法都盯着过去看，却忽略了一个现成的信号——AI自己此刻有多确定接下来要说什么。卡内基梅隆大学的这支团队因此提出了一个新思路：让AI根据自身当前的"信心程度"来动态调整草稿本的大小。这个系统被命名为CONF-KV。

一、为什么AI的"草稿本"会成为大麻烦

以一个具体场景来感受这个问题的规模。当使用一个拥有320亿参数的大模型（Qwen-32B）连续生成4000个词的回答时，仅仅存放这本"草稿本"就需要消耗15.8 GB的显存。这几乎相当于一张顶级游戏显卡的全部内存。如果一台服务器想同时处理多个用户的请求，这本厚重的草稿本就会成为卡脖子的瓶颈，既限制了能同时服务的用户数量，又拖慢了每一次回答的速度。

更深层的矛盾在于，草稿本里并非每一页都同样重要。当AI在回答一道简单的数学计算题时，它根本不需要翻回几百页前的对话记录；但当它突然需要引用早先提到的一个专有名词时，那几百页前的那一行记录就至关重要。现有的静态方法无法区分这两种情况，只能一刀切地保留固定数量的页面，结果要么浪费了宝贵的空间，要么在关键时刻找不到需要的信息。

二、信心作为一把钥匙：CONF-KV的核心逻辑

CONF-KV的核心直觉来自一个朴素的观察：当AI对接下来要说什么非常确定时，它大概率不需要翻回很久以前的记录；当AI感到迷茫、拿不定主意时，它很可能需要更多的上下文来帮助判断。因此，AI的"信心程度"本身就是一个关于"当前需要多少记忆"的直接信号。

这个信心是怎么衡量的呢？每次AI生成下一个词之前，它会在内部计算出一个概率分布，列出所有可能的下一个词以及各自的可能性。CONF-KV从这个分布中提取三个指标：分布的混乱程度（熵，越混乱说明越不确定）、排名第一和第二的候选词之间的概率差距（差距越小说明越犹豫），以及最可能的那个词的概率本身。把这三个指标按照0.4、0.3、0.3的权重加权合并，就得到了一个介于0和1之间的信心分数。权重是通过在GPT-2模型上做小规模测试选出来的，实验证明这组权重在不同规模的模型上都保持稳定。

有了这个信心分数，CONF-KV的决策逻辑就变得非常直接：设定一个信心阈值（默认为0.7）。当AI的信心超过这个阈值时，草稿本被压缩到一个较小的尺寸（高信心预算，通常为128个词的记录）；当信心低于阈值时，草稿本被允许保留更多内容（低信心预算，通常为256个词的记录）。这样一来，草稿本的大小随着AI的状态动态起伏，形成一种随信心波动的节奏。

三、决定留下哪些记录：注意力与新鲜度的组合评分

确定了草稿本的目标大小之后，下一个问题是：当需要删减时，删掉哪些记录？CONF-KV为草稿本里的每一条记录都维护一个综合评分，这个评分由两部分构成。

第一部分是这条记录历史上被"翻阅"过多少次，也就是它在之前的计算中获得了多少注意力。这个数值不是简单累加，而是通过指数移动平均（一种让近期的数据权重更高的加权方式）持续更新，衰减系数为0.9，意味着越近期的注意力越重要。第二部分是这条记录的新鲜程度——越新写下的记录得分越高。两个部分按照0.65和0.35的比例混合，得到最终的保留优先级。

除此之外，CONF-KV还设置了一个"保护窗口"，强制保留最近写入的若干条记录（WikiText任务中为32条，长文本任务中为64条）。这是为了防止系统把刚刚才产生的、正在被使用的记录也给删掉，避免破坏局部的逻辑连贯性。每次需要压缩时，系统从不受保护的部分里删掉得分最低的记录，直到草稿本缩减到目标大小为止。

四、让草稿本更"轻"：混合精度存储

除了控制保留多少条记录，CONF-KV还在存储方式上做了优化。草稿本里的数据原本全部以FP16格式存储，这是一种16位的浮点数表示方式，精度高但占用空间大。CONF-KV引入了一种混合精度方案：最近写入的若干条记录（默认为最近128条）继续用FP16存储，保持高精度；更早的记录则被转换为INT8格式，也就是用8位整数来近似表示，每条记录的存储空间直接减半。

INT8的量化方式是对每个注意力头的每个通道分别找到绝对值最大的数，然后把所有数按比例映射到-127到127的整数范围内。在实际计算时，读取这些压缩记录时会实时还原成近似的原始值。实验表明，这种方案平均引入的误差仅为0.38%，对模型输出质量的影响极小，仅使困惑度（衡量语言模型预测准确程度的指标，数值越低越好）上升了0.34分。相比之下，更激进的NF4格式会导致困惑度上升0.91分，INT4更会上升1.65分，因此INT8是质量与空间的最佳平衡点。

五、深层网络用更少记录：金字塔层预算

Transformer模型（现代大语言模型的基础架构）由很多层堆叠而成，每一层都有自己的草稿本。研究者发现，越靠近模型深层的网络层，往往只需要关注少数几个关键记录就能完成计算，不需要那么多历史信息。基于这个观察，CONF-KV还提供了一个叫做CONF-KV-L的变体，它给不同层分配不同大小的草稿本预算，越深的层预算越小，呈现出金字塔形状。

具体来说，第 l 层的高信心预算等于初始预算乘以0.5的（l除以总层数L）次方，但不低于96条记录的最小保障。这意味着最深的层获得的预算约为第一层的一半，整体上进一步节省了存储空间，同时因为浅层保留了更多信息，模型的输出质量也得到了较好的维护。

六、在真实任务上的表现：数字背后的故事

为了验证CONF-KV的实际效果，研究团队在四个不同规模的语言模型上展开了测试，分别是GPT-2（1.24亿参数的小模型）、Qwen-14B、gpt-oss-20b以及Qwen-32B。测试任务涵盖了语言质量评估、长文本检索、网页操作智能体三个完全不同的场景。

在语言质量测试中，研究者让模型持续生成最多4096个词的文本，用"困惑度"来衡量生成质量。CONF-KV+INT8方案在和固定保留512条记录的滑动窗口方案占用相同内存的前提下，困惑度从34.37降低到了31.26，改善了3.11分。而更进一步的CONF-KV-L方案甚至把困惑度降到了30.48，比滑动窗口改善了3.89分，同时占用的内存还比滑动窗口更少。与保留所有记录的全量KV缓存（困惑度29.14）相比，CONF-KV-L弥合了74%的质量差距，而目前最好的静态对比方案PyramidKV只能弥合63%。

在Qwen-32B这样的大模型上，CONF-KV+INT8把峰值KV缓存内存从15.8 GB压缩到了2.6 GB，节省了13.2 GB，这在一张80 GB的H100显卡上意味着可以同时服务的用户数量大幅增加。

七、在"大海捞针"任务中的真正考验

语言质量只是一方面，更严苛的测试是：当关键信息藏在大量无关内容中时，AI能否在有限的草稿本里把它保留下来？研究团队设计了一系列"大海捞针"实验，把一条特定的事实（"针"）藏在长度从1000到32000词不等的文章（"草堆"）中，然后在文章末尾提问，看AI能否找到这个事实。

针的位置被设置在不同深度，从接近文章末尾（深度10%，容易被近期窗口保留）到接近文章开头（深度90%，距离当前位置最远）。结果显示，滑动窗口方案在32000词的文章中平均准确率仅有5%以下，因为针很可能已经在固定窗口之外；H2O方案有所改善，平均准确率为80.6%，但在中等深度的针上仍然表现不稳定；而CONF-KV达到了91.4%的平均准确率，在几乎所有长度和深度组合上都保持了较高的稳定性。

CONF-KV在这项任务上表现好的原因可以从行为层面来理解：当AI遇到检索类的问题时，它对接下来要说什么变得不确定，信心分数下降，系统随即扩大草稿本，保留更多上下文，从而增加了找到"针"的机会。

八、网页操控任务：最接近真实应用的考验

研究团队还在VisualWebArena平台上测试了75个网页操控任务，让AI模拟真实用户在购物网站、导航、填写表格、搜索信息等场景中完成任务。这个测试使用的是gpt-oss-20b模型，每个任务最多允许30步操作，每步生成最多256个词的响应。

使用完整KV缓存时，AI完成任务的成功率为40.2%。CONF-KV将成功率保持在38.3%，相差不到两个百分点，而峰值内存降低了2.8倍。滑动窗口方案的成功率则下滑到了29.1%，损失了超过11个百分点。在信息搜索类任务中，CONF-KV相比H2O的优势最为明显，原因是当AI需要重新翻阅之前见过的页面内容时，信心会自然下降，系统随即保留更多记录，恰好帮助AI找到了之前看到过的关键信息。

九、信心信号真的有用吗：对照实验的回答

研究团队专门设计了一系列对照实验来验证信心信号本身的价值，而不只是"保留了更多记录"这个结果。所有对照组都使用与CONF-KV完全相同的触发频率和每次删减的记录数量，只改变"删减哪些"或"什么时候触发"的逻辑。

在相同频率下随机删除记录，困惑度高达36.54，比只保留最近512条记录的滑动窗口还要糟糕。只使用新鲜度来排序保留优先级，困惑度为32.08。只使用历史注意力来排序，困惑度为31.47。完整的CONF-KV组合达到了30.92。这个梯度清晰地说明，注意力排名和信心调度这两个机制各自都有贡献，而且结合起来效果更好。

研究者还从另一个角度验证了信心信号的合理性。他们对GPT-2模型运行了1200步生成，在每一步都测量"如果突然删掉最近256条记录，模型的下一个词的预测会变化多大"（用KL散度衡量）。结果发现，信心分数和这个变化大小之间的皮尔逊相关系数为-0.77，这意味着信心越高，删掉最近的记录对预测结果的影响越小；信心越低，删掉记录的影响越大。这在统计上是极为显著的结论（p值远小于0.0001），而且在Qwen-14B、gpt-oss-20b和Qwen-32B上也重现了类似的规律，相关系数分别为-0.38、-0.41和-0.36。

十、速度与吞吐量的实际收益

在延迟方面，CONF-KV在GPT-2和Qwen-32B上都实现了约1.8倍于全量KV缓存的速度提升。从内核级别的时间分解来看，注意力计算所占的时间比例从全量KV缓存时的62%降低到了47%，而记录压缩操作增加了约0.22毫秒，元数据更新增加了约0.11毫秒，合计只有0.33毫秒的额外开销，远小于注意力计算节省的时间。CONF-KV+INT8因为需要压缩和解压缩操作，比不量化的CONF-KV略慢，但仍然大幅优于全量KV缓存。

批处理吞吐量方面，在批次大小为8时，CONF-KV实现了全量KV缓存吞吐量的2.06倍，同时与滑动窗口的吞吐量相差不到1%。全量KV缓存在批次大小超过8之后因内存不足而无法运行，而CONF-KV和滑动窗口在更大的批次下仍然正常工作，这对于需要同时处理大量用户请求的服务场景意义重大。

十一、哪些情况下CONF-KV不够好：诚实的局限讨论

研究团队没有回避失败案例。在"大海捞针"实验中，剩余的失败大多发生在一种特定情景：AI在遇到关于罕见实体的检索问题之前，处于一段高信心的连续生成状态，把那个关键的罕见词汇记录删掉了。在这种情况下，提高信心阈值（从0.7调高到0.8）可以恢复大部分案例，代价是多消耗约12%的内存。这说明阈值是一个可调节的旋钮，而不是一个固定的正确答案。

在网页操控任务中，失败的模式类似：某个产品名称、表单字段或罕见实体在被需要之前，恰好经历了一段高信心的操作流程，被提前删除了。相比之下，滑动窗口的失败通常是结构性的，因为相关记录无论AI状态如何都已经超出了固定窗口。

CONF-KV在短对话中几乎没有作用，因为记录从未累积到触发删减的程度。当AI以高温度参数（让输出更随机）生成文本时，信心分数的分布会变得更均匀，阈值可能需要重新调整。此外，目前的实现使用连续紧凑的内存布局，与PagedAttention这类基于分块内存页的服务系统结合时需要额外工程工作，因为细粒度的记录删除会产生部分空置的内存块。

说到底，CONF-KV做的事情并不神秘：它只是把AI运算时已经产生的一个数字（对下一个词的信心程度）重新利用起来，用来指导草稿本的管理方式。这个信号不需要额外计算，不需要修改模型权重，不需要训练任何新的组件，只需要在每一步生成之后多做一个简单的判断。

对于普通用户来说，这意味着未来使用AI助手处理长文档、长对话或复杂任务时，服务器可以在消耗更少内存的同时保持接近最佳的回答质量，服务速度可以更快，同一台服务器能同时处理的用户数量可以更多，运营成本因此有望降低。对于研究者来说，这项工作展示了一个此前被忽视的思路：模型自身的实时状态可以成为系统资源管理的依据。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2605.24786找到完整原文。

Q&A

Q1：CONF-KV和普通的滑动窗口KV缓存压缩方法有什么区别？

A：滑动窗口只保留最近固定数量的记录，无论模型状态如何都一视同仁。CONF-KV则根据模型每一步生成时的信心程度动态调整保留多少记录：信心高时压缩得更激进，信心低时保留更多上下文。在相同内存占用下，CONF-KV在GPT-2上的语言质量比滑动窗口改善了3.11到3.89个困惑度单位，在长文本检索任务中的准确率从53.8%提升到91.4%。

Q2：CONF-KV的信心分数具体是怎么计算出来的？

A：每次AI生成下一个词前，会产生一个概率分布。CONF-KV从中提取三个数值：分布的混乱程度（归一化熵）、概率最高和第二高的词之间的差距（对数概率差），以及最可能词的概率本身。这三个数值分别以0.4、0.3、0.3的权重加权求和，得到0到1之间的信心分数。超过阈值0.7判定为高信心，草稿本压缩到较小预算；低于阈值则保留更多记录。

Q3：CONF-KV在实际部署时对服务器性能有什么影响？

A：在延迟方面，CONF-KV比保留全部记录的方案快约1.8倍，因为注意力计算的时间比例从62%降到了47%，而额外的记录压缩和元数据更新只增加约0.33毫秒。在吞吐量方面，批次大小为8时吞吐量是全量方案的2.06倍。使用INT8混合精度存储后，Qwen-32B的KV缓存内存从15.8 GB降至2.6 GB，一张80 GB的H100显卡可以同时处理更多并发请求。

大语言模型KV缓存压缩自适应内存管理

分享至