微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

解锁长文推理效率：首尔国立大学和成均馆大学开发的"推理路径压缩"技术让LLM思考更快更省资源

人工智能KV缓存压缩大型语言模型推理

解锁长文推理效率：首尔国立大学和成均馆大学开发的"推理路径压缩"技术让LLM思考更快更省资源

作者：科技行者

2025-05-26 08:03

分享至：

首尔国立大学和成均馆大学的研究者提出了"推理路径压缩"(RPC)技术，一种无需训练的方法，能够对大语言模型在推理过程中生成的冗余内容进行压缩。研究发现推理路径存在"语义稀疏性"——大量重复或多余的内容。RPC通过定期评估词元重要性并保留最关键部分，将QwQ-32B模型的推理吞吐量提高了1.60倍，同时准确率仅下降1.2%，并显著减少了内存消耗，解决了长序列生成的内存溢出问题。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 08:03 • 科技行者

近日，首尔国立大学的宋志元(Jiwon Song)、赵东元(Dongwon Jo)、金在准(Jae-Joon Kim)与成均馆大学的金律华(Yulhwa Kim)共同发表了一项突破性研究《推理路径压缩：压缩生成轨迹实现高效LLM推理》（Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning）。这项研究发表于2025年5月20日的arXiv预印本平台（arXiv:2505.13866v1），源代码已在GitHub开源（https://github.com/jiwonsong-dev/ReasoningPathCompression）。

想象一下，你是一位数学老师，让学生解答复杂问题时，他们需要写下详细的解题步骤。这些步骤对思考过程至关重要，但有时会包含大量重复内容——比如检查已经验证过的结果或重新推导相同的公式。这正是现代推理型大语言模型（LLM）面临的情况。像OpenAI的o1、DeepSeek-R1这样的推理型LLM通过生成详细的思考过程来解决复杂问题，而这些"推理路径"往往超过数万个词元（token），占用大量内存并降低生成速度。

研究团队提出了一个有趣的发现：这些推理路径中存在"语义稀疏性"——大量生成的内容实际上是重复或冗余的。就像学生解题时反复检查某些步骤一样，模型也会重复验证或重新推导已经得出的结论。基于这一发现，他们开发了"推理路径压缩"（Reasoning Path Compression，简称RPC）技术，这是一种无需额外训练的方法，能在推理过程中动态压缩KV缓存（存储模型生成内容的内存区域）。

RPC的工作原理就像一个聪明的编辑，它会定期回顾模型正在写的"草稿"，找出哪些部分是真正重要的，哪些部分可以安全地省略。通过巧妙利用注意力机制，RPC能识别出对当前推理最关键的信息，并优先保留这些内容。实验结果令人振奋：在应用于QwQ-32B模型后，推理吞吐量提高了最多1.60倍，同时在AIME 2024基准测试中的准确率仅下降了1.2%。

让我们深入了解这项研究如何解决大型推理模型的效率难题，以及它对未来AI应用的潜在影响。

一、推理型LLM的挑战：思考需要时间和空间

现代大语言模型正逐渐掌握复杂的推理能力，这意味着它们不再只是简单地生成文本，而是能够像人类一样，通过逐步思考来解决复杂问题。想象一下，当你解决一道数学题或编写一段复杂代码时，你会在纸上写下思考步骤，通过这种方式逐渐接近最终答案。推理型LLM也采用类似的方法，它们会生成所谓的"推理路径"——详细记录从问题到解决方案的每一步思考过程。

OpenAI的o1、DeepSeek-R1和QwQ等模型都采用了这种"边思考边写"的方式。这些模型通过生成详细的中间推理步骤，显著提高了解决复杂问题的准确率。这种方法在科学、技术、工程和数学（STEM）问题以及代码生成任务中特别有效。

然而，这种详细的推理过程也带来了严重的资源消耗问题。研究团队通过实验发现，当生成长度从1024个词元增加到32768个词元时，QwQ-32B模型的吞吐量从每秒242.5个词元急剧下降到接近零，而峰值内存使用量则从75.4GB飙升至接近300GB。在许多情况下，模型甚至会因内存不足而无法完成推理。

"想象一下，如果你的大脑在思考复杂问题时，必须同时记住每一个思考步骤的所有细节，"研究团队解释道，"最终，你的'工作记忆'会被填满，思考速度也会大大减慢。这正是推理型LLM面临的困境。"

虽然已有一些方法试图通过训练模型生成更简洁的推理路径来解决这个问题，如LightThinker等，但它们在复杂推理任务上的表现往往不尽如人意。这是因为训练目标之间存在冲突：一方面希望模型生成详细的推理步骤以提高准确率，另一方面又希望它生成简短的输出以提高效率。这种冲突使得仅依靠训练很难同时实现高准确率和高效率。

二、发现推理路径的"语义稀疏性"

研究团队的关键发现是推理路径中存在"语义稀疏性"。这个概念可以这样理解：当我们解决复杂问题时，并非思考过程中的每一步都提供了同等价值的信息。有些步骤可能只是重复验证已经确认的结果，或者重新推导已经得出的公式。

为了直观理解这一点，可以看看论文中的一个例子：当QwQ-32B模型解决一个量子力学问题时，它会重复核对能量计算，反复确认相同的公式，甚至多次得出相同的答案。这些重复内容在最终解决问题时并不都是必要的。

研究团队通过计算n-gram香农熵（一种衡量文本复杂度的方法）来量化这种语义稀疏性。他们比较了推理型LLM（DeepSeek-R1-Distill-Llama-8B）和非推理型LLM（LongWriter-8B）生成的文本，发现推理型模型生成的内容确实存在更多重复模式，熵值明显更低。

"这就像比较两种写作风格：一种是步步为营、不断回顾和重复检查的解题过程，另一种是流畅连贯、较少重复的叙事文本。我们发现推理型模型的输出更像前者，"研究者解释道。

这一发现为优化推理过程提供了重要线索：如果能够识别并压缩这些冗余信息，就可能在不显著影响准确率的情况下，大幅提高模型的运行效率。

三、推理路径压缩：聪明地保留重要信息

基于对推理路径语义稀疏性的理解，研究团队提出了推理路径压缩（RPC）方法。这种方法的核心思想是：在模型生成推理路径的过程中，定期评估已生成内容的重要性，只保留最关键的部分，从而减少内存占用并提高生成速度。

想象RPC就像一位经验丰富的编辑，定期回顾作者（模型）正在写的草稿，保留关键的推理步骤，删除不必要的重复内容。与传统的KV缓存压缩方法不同，RPC专门为推理型LLM设计，充分利用了推理路径的特殊结构。

RPC的工作流程可以分为三个关键步骤：

首先，RPC采用周期性压缩策略，而不是在每个生成步骤都进行压缩。这大大降低了计算开销。具体来说，RPC设定一个"压缩间隔"P（如1024或4096个词元），每当生成这么多新词元后，就触发一次压缩操作。

其次，RPC使用"选择器窗口"来评估词元的重要性。选择器窗口由最近生成的R个词元（如32个）组成，基于一个简单而合理的假设：最近生成的内容更能反映当前推理的关注点。RPC分析这些近期词元如何"关注"先前生成的内容，计算出每个历史词元的重要性分数。

最后，基于设定的压缩比率（如4倍），RPC保留重要性分数最高的词元，丢弃其余部分。随着推理的进行，RPC会重复这个过程，动态调整保留的内容，确保模型始终能访问到最相关的历史信息。

"这有点像整理笔记本：随着笔记越写越多，我们定期回顾，保留重要的见解，删除不必要的重复内容，"研究者解释道，"但关键是，我们不需要修改模型本身，也不需要额外的训练。RPC可以直接应用于现有的推理型LLM。"

在实际实现中，RPC通过巧妙设计的算法，计算每个历史词元的重要性分数，并使用局部平均池化来促进连贯的词元选择，减少词元级别的噪声。这种方法能够有效识别语义相关的词元群组，保证压缩后的推理路径仍然连贯有意义。

四、实验结果：更快的思考，相似的准确度

为了验证RPC的有效性，研究团队在多个基准测试和不同规模的模型上进行了全面评估。他们主要使用了两个开源的推理型LLM：DeepSeek-R1-Distill-Qwen-7B（7B参数）和QwQ-32B（32B参数）。评估包括三个推理密集型基准测试：美国邀请数学考试（AIME）2024、LiveCodeBench编程任务和IFEval指令遵循测试。

研究团队首先将RPC与现有方法进行比较，包括训练型推理路径压缩方法LightThinker和通用KV缓存压缩技术H2O、TOVA。结果令人印象深刻：在AIME 2024测试中，使用RPC的DeepSeek-R1-Distill-Qwen-7B达到了52.9%的准确率，仅比完整KV缓存的55.5%低2.6个百分点，同时实现了4倍的压缩比。相比之下，LightThinker的准确率仅为6.7%，而且只能实现1.4倍的压缩比；H2O和TOVA分别达到45.0%和31.7%的准确率，虽然也实现了4倍压缩，但准确率损失明显更大。

在更大规模的QwQ-32B模型上，RPC表现更加稳定：在AIME 2024上，准确率从79.5%轻微下降到78.3%；在LiveCodeBench上，从63.4%下降到62.2%；在IFEval上，从83.9%下降到82.6%。这表明RPC在较大模型上的性能更加稳健，可能是因为大模型的冗余度更高，压缩空间更大。

效率提升方面，RPC带来了显著的性能改善。对于DeepSeek-R1-Distill-Qwen-7B，当生成32768个词元时，RPC将吞吐量提高了1.68倍，将峰值内存使用量从75.7GB减少到36.2GB，节省了50%以上的内存。对于QwQ-32B，RPC不仅将16384词元生成时的吞吐量提高了1.60倍，还成功解决了32768词元生成时的内存不足问题，使之成为可能。

"就像给思考过程装上了一个智能压缩器，"研究者形象地解释道，"模型可以以几乎相同的准确度思考同样的问题，但思考速度快了一倍多，所需空间也减少了一半以上。"

研究团队还对RPC的关键超参数进行了消融研究，包括压缩间隔P和选择器窗口大小R。他们发现，P=4096提供了最佳的准确率-效率平衡，而R=32则是评估词元重要性的最佳窗口大小。这些发现为实际部署RPC提供了有价值的指导。

五、未来展望：更高效的AI推理系统

推理路径压缩（RPC）技术的出现，为解决推理型LLM的效率问题开辟了一条新路径。与传统方法不同，RPC不需要重新训练模型，也不需要预先知道生成长度，这使它易于集成到现有的推理管道中。

更重要的是，RPC揭示了推理路径中存在大量冗余信息的现象，这一发现本身就具有重要价值。它提示我们，未来的推理型LLM可能需要更智能的注意力机制，能够自动识别和忽略不必要的重复内容，从而提高推理效率。

研究团队也尝试了更激进的8倍压缩比，虽然在复杂推理任务上准确率下降明显，但在简单任务如IFEval上表现依然稳定。这表明压缩比可以根据任务难度动态调整，为不同应用场景提供更灵活的效率-准确率平衡。

"我们的工作只是第一步，"研究团队在结论中指出，"未来可能会出现更多针对推理型LLM的专用优化技术，进一步提高它们的效率和可扩展性。"

随着推理型LLM在科学研究、教育、医疗和工程设计等领域的应用日益广泛，提高它们的运行效率变得至关重要。推理路径压缩技术为我们提供了一种实用的解决方案，让这些强大的AI助手能够以更快的速度、更低的资源消耗来解决复杂问题，从而为更广泛的应用铺平道路。

人工智能KV缓存压缩大型语言模型推理

分享至