这项由清华大学张一轲、王建勇教授与微软研究院何志远、蒋慧强等人联合开展的研究发表于2025年8月,论文题为《LeanK: Learnable K Cache Channel Pruning for Efficient Decoding》。感兴趣的读者可以通过arXiv:2508.02215v1访问完整论文,代码已在https://aka.ms/LeanK开源。
当我们与ChatGPT这样的AI助手进行长时间对话时,你有没有发现它有时会变得"健忘",或者响应速度越来越慢?这背后其实隐藏着一个技术难题:就像人的大脑需要记忆来维持对话连贯性一样,AI大模型也需要一个庞大的"记忆库"来存储对话历史。但随着对话变长,这个记忆库会急剧膨胀,最终导致电脑内存不够用,运行速度变慢。
清华大学和微软的研究团队发现了一个巧妙的解决方案。他们注意到,AI模型的"记忆库"就像一个杂乱的仓库,里面存放着各种信息,但并非所有信息都同等重要。研究团队开发了一种名为LeanK的智能"整理术",能够识别出哪些记忆内容是真正重要的,哪些可以安全丢弃,从而让AI的"记忆仓库"变得更加精简高效。
这项技术的创新之处在于,它不是简单地删除旧信息,而是学会了识别信息的重要性模式。就像一个经验丰富的图书管理员知道哪些书籍经常被借阅、哪些可以放到储藏室一样,LeanK通过训练学会了判断AI记忆中哪些部分对维持对话质量最为关键。实验结果显示,这种方法可以将内存使用量减少高达70%,同时几乎不影响对话质量,还能让响应速度提升30%以上。
一、AI记忆系统的工作原理与挑战
要理解这项研究的重要性,我们需要先了解AI大模型是如何"记忆"的。当你与AI助手对话时,它需要记住之前说过的所有内容才能给出恰当的回应。这就像你在和朋友聊天时需要记住前面的话题一样,否则对话就会变得支离破碎。
在技术层面,AI模型使用一种叫做"注意力机制"的技术来处理信息。可以把这想象成一个聚光灯系统:当AI需要回答问题时,它会用聚光灯照向之前对话中的相关内容,然后基于这些"被照亮"的信息生成回答。为了实现这个过程,AI需要将所有历史信息存储在一个叫做"键值缓存"的记忆系统中。
这个记忆系统就像一个巨大的文件柜,每个文件夹都包含着对话中的某个片段。随着对话变长,文件柜越来越满,最终可能占据整个房间。更糟糕的是,每次AI需要回答问题时,都要翻遍整个文件柜来寻找相关信息,这个过程既耗时又耗费大量电脑资源。
研究团队发现,现有的解决方案主要有三种思路。第一种是"丢弃策略",就像定期清理文件柜一样,把一些看起来不重要的文件扔掉。第二种是"选择性查阅",不删除任何文件,但每次只查看其中一部分。第三种是"压缩存储",把文件压缩成更小的格式来节省空间。
然而,这些方法都有一个共同的假设:它们认为文件柜中每个文件夹的每一页都同等重要。但研究团队意识到,这个假设可能是错误的。就像在整理家庭文件时,有些文件的某些部分(比如合同的关键条款)比其他部分更重要一样,AI记忆系统中的信息也可能存在类似的重要性差异。
二、发现记忆中的"隐形冗余"
研究团队的突破来自于对AI模型内部工作机制的深入观察。他们发现了三个关键现象,就像发现了隐藏在表面之下的规律。
首先,他们注意到AI模型使用一种叫做RoPE(旋转位置编码)的技术来理解文字的位置关系。这个技术就像给每个词语贴上了特殊的"坐标标签",帮助AI理解词语之间的相对位置。但研究团队发现,这些坐标标签中包含着不同"频率"的信息,就像音乐中有高音和低音一样。令人意外的是,那些"高频率"的信息往往对长对话的理解贡献很小,就像背景音乐中的某些高音部分可能对整体旋律影响不大。
其次,他们发现了一个更加重要的规律:AI记忆系统中信息的重要性具有"静态特征"。什么意思呢?就像某些人天生就有更好的记忆力一样,AI记忆系统中的某些"通道"天生就比其他通道更重要,而且这种重要性模式在不同的对话中基本保持不变。
为了验证这个发现,研究团队进行了一个巧妙的实验。他们让AI处理五种不同类型的任务,然后分析每种任务中各个记忆通道的重要性分布。结果发现,这些分布之间的相关性高达98%以上,这意味着在几乎所有情况下,重要的记忆通道总是那些,不重要的也总是那些。这就像发现了记忆系统中的"固定角色分工"。
第三个发现更加有趣:有些记忆通道虽然看起来"体积很大"(包含很多信息),但实际上对AI的性能影响很小。研究团队通过一系列对比实验发现,如果把这些"看似重要"的通道删除,AI的表现几乎没有变化。这就像发现家里那个看起来很重要的大箱子其实装的都是用不到的东西。
这些发现让研究团队意识到,AI记忆系统中存在着大量可以安全移除的冗余信息,关键是要找到正确的识别和移除方法。
三、智能记忆整理术的设计思路
基于这些发现,研究团队设计了LeanK系统,这是一个能够智能识别和删除记忆冗余的"自动整理助手"。整个系统的设计理念就像训练一个专业的档案管理员,让它学会区分哪些文件真正重要。
LeanK的工作原理采用了一个巧妙的"两阶段训练"策略。可以把这个过程比作培训一个图书管理员的完整流程。
在第一阶段,系统像一个学徒管理员一样开始学习。研究团队给它提供了大量的对话样本,让它观察在不同对话场景下,哪些记忆通道被频繁使用,哪些基本闲置。但这个阶段的学习是"柔性"的,系统不会直接删除任何内容,而是为每个记忆通道分配一个"重要性评分"。就像给图书馆的每本书贴上使用频率标签一样。
这个过程使用了一个特殊的训练方法。系统会同时处理两个版本的相同对话:一个使用完整的记忆系统,另一个使用按重要性评分调整后的记忆系统。通过比较两个版本的输出质量,系统逐渐学会了准确评估每个记忆通道的真实价值。研究团队还加入了一个"稀疏性鼓励机制",就像告诉管理员"尽量保持图书馆整洁"一样,鼓励系统找出更多可以精简的内容。
第二阶段则是将这些"评分"转换为实际的"保留或删除"决策。这个阶段面临两个实际挑战:首先,最终的记忆精简比例需要事先确定,比如决定要删除70%的内容;其次,删除方案需要考虑电脑硬件的特殊要求,确保剩余的记忆结构便于高效处理。
研究团队设计了一个智能的转换算法来解决这些问题。这个算法不是简单地按评分高低来决定保留哪些通道,而是会综合考虑不同记忆区域的特点,确保最终的精简方案既达到了预设的精简比例,又保持了记忆系统的内在平衡。
整个训练过程使用了特殊设计的任务场景。研究团队选择了两种类型的训练任务:一种是"密集检索"任务,就像在字典中查找特定词汇的定义,这种任务能确保系统保持精准的信息定位能力;另一种是"多值检索"任务,类似于在一本书中找到某个话题的所有相关段落,这种任务能确保系统在生成较长回答时的连贯性。
四、实际部署中的巧妙设计
当LeanK系统完成训练后,如何在实际对话中发挥作用呢?研究团队设计了一个精巧的部署方案,就像为图书馆设计了一套高效的日常运营流程。
在实际应用中,AI的记忆系统被分为两个部分:一个是"常用区域",存放着对话中最近的内容和一些特别重要的"锚点"信息,这部分内容会完整保留;另一个是"存档区域",存放着较早的对话内容,这部分会按照LeanK学习到的规律进行精简。
这种分区管理的设计非常巧妙。当对话刚开始时,所有内容都存放在常用区域。随着对话变长,较早的内容会被移动到存档区域,并在移动过程中自动删除那些被识别为不重要的部分。这就像图书馆的滚动式管理:新书放在显眼位置,旧书会被整理归档,而那些很少被借阅的旧书则会被移除。
为了最大化性能提升,研究团队还开发了专门的计算优化技术。他们使用一种叫做TileLang的编程工具,创建了定制化的计算程序。这个程序能够充分利用精简后记忆系统的特点,避免处理那些已被删除的信息,从而显著提升计算效率。
更令人印象深刻的是,LeanK还具有一个特殊功能:在某些情况下,如果某个记忆区域的所有通道都被标记为不重要,系统会同时删除对应的"值存储区域"。这就像发现某个文件柜的所有文件夹都是空的,于是干脆把整个文件柜都搬走,进一步节省空间。
实际运行时,系统会每隔32轮对话进行一次记忆整理,而不是每次对话后都整理。这种"批量处理"的方式在保证及时性的同时减少了系统开销,就像图书馆不会每借出一本书就立刻整理书架,而是定期进行统一整理。
五、令人瞩目的实验成果
研究团队在多个维度对LeanK进行了全面测试,结果令人印象深刻。他们选择了两个目前最先进的AI模型:Llama-3.1-8B-Instruct和Qwen2.5-7B-Instruct作为测试对象,这两个模型都支持处理长达128,000个词汇的超长对话。
在内存节省方面,LeanK展现出了卓越的能力。在70%的精简比例下,系统能够将"键存储"(相当于记忆索引系统)的内存使用量减少约70%,同时还能额外减少16-18%的"值存储"(相当于具体记忆内容)空间。这种双重节省效果就像整理房间时不仅清理了书架,还顺带整理了书桌。
性能提升同样显著。通过定制化的计算优化,LeanK使注意力计算(AI思考过程的核心部分)速度提升了1.3倍。更重要的是,由于内存使用量的大幅降低,系统能够同时处理更多对话请求。在具体测试中,原本只能同时处理52个对话的系统,使用LeanK后可以同时处理64个对话,整体吞吐量提升了22%。
在准确性保持方面,LeanK的表现近乎完美。在RULER基准测试(一个专门评估长对话能力的标准测试)中,Llama模型使用LeanK后的性能仅下降0.3%,Qwen模型甚至只下降0.1%。这意味着在大幅节省资源的同时,对话质量几乎没有受到影响。
特别值得注意的是,LeanK在处理不同长度对话时都表现稳定。无论是4,000词的中等长度对话,还是128,000词的超长对话,性能保持都相当一致。这证明了系统学习到的重要性模式确实具有普遍适用性。
研究团队还与现有的其他优化方法进行了对比。相比于ThinK等动态优化方法,LeanK在高精简比例下的优势尤为明显。当精简比例达到70%时,其他方法的性能往往出现断崖式下降,而LeanK依然能够保持稳定的高质量输出。
六、与其他技术的完美融合
LeanK的一个突出优势是它与现有优化技术的兼容性。研究团队验证了LeanK可以与多种不同类型的优化方法组合使用,产生累积的性能提升效果。
比如,当LeanK与DuoAttention(一种头部级别的优化技术)结合时,总体内存节省比例从50%提升到了65%,同时保持了原有的对话质量。与Quest(一种选择性读取技术)结合时,不仅减少了70%的内存读取量,还意外地提升了模型准确性。
最引人注目的组合效果出现在与KIVI量化技术的结合中。KIVI是一种将记忆内容压缩存储的技术,单独使用时可以实现5.3倍的压缩比。当与LeanK组合使用时,总体压缩比达到了惊人的9.7倍,这意味着原本需要10GB内存的对话系统现在只需要约1GB就能正常运行。
这种兼容性的根本原因在于LeanK针对的是记忆系统的"通道维度",而其他技术通常针对"令牌维度"或"数值精度维度"。就像整理房间时可以同时进行"分类整理"(LeanK)、"空间规划"(其他技术)和"物品压缩"(量化技术)一样,这些不同维度的优化可以叠加发挥作用。
七、深入理解AI记忆机制的新发现
通过分析LeanK学习到的重要性模式,研究团队获得了关于AI记忆机制的一些有趣洞察。他们发现,记忆通道的重要性与RoPE位置编码的频率特性存在明显关联。
具体来说,那些对应低频率信息的记忆通道通常更重要,而高频率通道则相对不那么关键。这个发现类似于音频处理中的一个原理:人类语音的核心信息主要集中在中低频段,而高频部分虽然包含一些细节,但对理解意思的影响相对较小。
研究团队还发现了一个特别的现象:虽然整体上低频通道更重要,但总有一些例外情况。比如在Llama模型中,第22个通道对频段和在Qwen模型中的第31个通道对频段,尽管属于高频部分,却显示出了异常的重要性。这些"异常通道"的具体作用机制还需要进一步研究,但它们的存在提醒我们AI的工作机制比我们想象的更加复杂和精妙。
此外,研究团队开发了一个简单但有效的方法来识别哪些注意力头部(AI思考过程中的专门模块)对长对话理解最为关键。他们定义了一个"高频比率"指标,用来衡量每个头部处理高频信息的程度。结果发现,那些高频比率较低的头部通常对长对话理解更为重要,而高频比率较高的头部则可以相对安全地精简。
这个发现为未来的AI优化提供了一个实用的指导原则:通过简单的频率分析,就可以快速识别出哪些部分是AI长对话能力的关键组件,哪些部分可以考虑精简。
八、技术实现的精妙细节
LeanK的成功不仅在于理论设计,更在于实现过程中的诸多精妙细节。研究团队在训练过程中采用了一系列巧妙的技术策略来确保最终效果。
在训练数据的选择上,团队特别注重任务的多样性和代表性。他们使用了两种互补的任务类型:密集检索任务确保系统保持精确的信息定位能力,而多值检索任务则保证了长文本生成的连贯性。训练过程中的序列长度也经过精心设计,从16K到96K词汇不等,确保系统能够适应各种长度的实际对话场景。
训练的两个阶段使用了不同的学习策略。第一阶段采用较高的学习率(0.02-0.04)来快速学习重要性模式,第二阶段则使用减半的学习率来精细调整决策边界。这种"先快后慢"的策略就像学习一门技能时先掌握基本要领,再逐步精雕细琢。
在处理不同模型的适配问题时,研究团队展现了很强的工程能力。对于Qwen模型,由于它在超过32K词汇长度时使用了特殊的Yarn扩展技术,团队相应地训练了两套不同的精简策略:一套用于32K以内的对话,另一套用于更长的对话。这种细致的适配确保了在各种使用场景下都能获得最佳效果。
在硬件优化方面,研究团队考虑到了GPU(图形处理器)的特殊计算特点。他们确保精简后的记忆结构符合GPU的"对齐要求",即通道数量必须是16或32的倍数。这个看似技术性的细节实际上对最终的计算效率有重要影响,体现了团队对工程实现的深度思考。
九、研究局限与未来展望
虽然LeanK取得了显著成果,但研究团队也坦诚地指出了当前方法的一些局限性。最主要的局限在于,当前的AI预训练过程并没有专门考虑记忆通道的效率问题。就像建房子时如果在设计阶段就考虑了空间利用效率,会比建成后再改造更加有效。
研究团队认为,如果在AI模型的预训练阶段就引入对位置编码维度的特别关注,可能会培养出天然具有更高记忆效率的模型。这种"从源头优化"的思路可能会带来更大的性能提升,同时减少后期优化的复杂性。
另一个值得探索的方向是将LeanK的核心思想扩展到其他类型的AI任务中。目前的研究主要聚焦于对话和文本理解任务,但记忆通道的重要性模式可能在图像处理、语音识别等其他AI应用中也存在类似规律。
此外,随着AI模型规模的不断增长,如何将LeanK的方法扩展到更大规模的模型中也是一个重要挑战。当前的实验主要基于80亿参数规模的模型,而现在很多先进AI系统的参数量已经达到千亿甚至万亿级别。在如此大规模的系统中,记忆优化的重要性会更加凸显,但优化的复杂性也会相应增加。
研究团队还提到了一个有趣的观察:在某些数学推理任务中,LeanK不仅没有降低性能,反而略有提升。这个现象暗示精简掉的那些"冗余"信息可能在某些情况下实际上是"干扰信息",它们的移除反而有助于AI更好地聚焦于核心逻辑。这个发现为未来研究记忆系统与AI推理能力的关系提供了新的思路。
十、对AI发展的深远意义
LeanK研究的意义远超出了单纯的技术优化范畴,它为我们理解和改进AI系统提供了全新的视角。这项工作首次系统性地证明了AI记忆系统中存在可预测的重要性模式,这个发现可能会影响未来AI架构设计的基本思路。
从实用角度来看,这项技术让高质量的长对话AI服务变得更加经济可行。原本需要昂贵服务器才能运行的AI系统,现在可能在普通电脑上就能流畅运行。这种成本降低可能会推动AI技术在更广泛领域的普及应用,从个人助手到企业客服,从教育辅导到医疗咨询。
更重要的是,LeanK展示了一种全新的AI优化哲学:不是简单地增加计算资源或扩大模型规模,而是通过深入理解AI的内在工作机制来实现"智能优化"。这种思路可能会启发更多类似的研究,推动AI技术向更加高效、可持续的方向发展。
从科学研究的角度来看,这项工作为我们理解AI的"记忆机制"提供了新的工具和方法。通过分析哪些信息被AI认为重要、哪些可以安全忽略,我们可能会更好地理解AI是如何"思考"的,这对于开发更加可解释、可信任的AI系统具有重要意义。
研究团队的开源策略也值得称赞。他们将完整的代码和数据公开发布,这不仅便于其他研究者验证和改进这项技术,也为AI优化领域的进一步发展奠定了基础。在AI技术快速发展的今天,这种开放合作的研究态度对于整个领域的健康发展非常重要。
说到底,LeanK不仅仅是一个让AI"减肥"的技术,更像是为AI装上了一个智能的"记忆管家"。这个管家不仅知道如何整理记忆,还能在保证思考质量的前提下大幅提升效率。随着AI技术在我们日常生活中扮演越来越重要的角色,这种"既要马儿跑得快,又要马儿吃得少"的优化思路将会变得越来越重要。
当我们与AI助手进行越来越复杂、越来越长的对话时,也许我们不会直接感受到LeanK这样的技术在背后默默工作,但正是这些看不见的优化让我们的AI体验变得更加流畅和自然。这或许就是最好的技术——那些让我们的生活变得更美好,却又不张扬地隐藏在幕后的创新。
Q&A
Q1:LeanK技术是如何识别AI记忆中哪些部分重要、哪些可以删除的?
A:LeanK使用了一个两阶段的学习过程来识别重要性。首先,它通过观察大量对话样本,为每个记忆通道分配重要性评分,就像给图书馆的每本书标注使用频率。然后,它学会将这些评分转换为实际的保留或删除决策,确保既达到预设的精简比例又保持对话质量。
Q2:使用LeanK后AI对话质量会下降吗?
A:几乎不会。实验结果显示,在70%的内存精简比例下,Llama模型的性能仅下降0.3%,Qwen模型只下降0.1%。这意味着在大幅节省资源的同时,对话质量基本保持不变,有些情况下甚至略有提升。
Q3:LeanK技术能和其他AI优化方法一起使用吗?
A:完全可以。LeanK具有很好的兼容性,可以与多种其他优化技术组合使用。比如与KIVI量化技术结合时,总体压缩比可以从5.3倍提升到9.7倍,意味着原本需要10GB内存的系统现在只需要约1GB就能正常运行。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。