微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

微软新突破：RetroInfer如何让AI模型处理百万级文本不再"卡顿"？

微软新突破：RetroInfer如何让AI模型处理百万级文本不再"卡顿"？

作者：科技行者

2025-05-08 10:24

分享至：

想象一下，有一座能容纳数百万册图书的巨大图书馆。当你需要查找特定信息时，必须浏览所有书籍才能找到所需内容。这正是现代AI大模型（如ChatGPT）处理长文本时面临的窘境。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-08 10:24 • 科技行者

在2025年5月5日，微软研究院联合中国科学技术大学、武汉大学、清华大学和上海交通大学的研究团队在arXiv预印本平台发表了一篇引人注目的研究论文《RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference》（arXiv:2505.02922v1）。这项由Baotong Lu领导，Yaoqi Chen和Jinkai Zhang等多位研究者共同完成的工作，为解决大型语言模型处理超长文本时的效率问题提供了创新解决方案。有兴趣深入了解的读者可以通过arXiv网站访问完整论文。

一、为什么AI处理长文本会变慢？—从图书馆说起

想象一下，有一座能容纳数百万册图书的巨大图书馆。当你需要查找特定信息时，必须浏览所有书籍才能找到所需内容。这正是现代AI大模型（如ChatGPT）处理长文本时面临的窘境。

近年来，大型语言模型（LLM）的发展日新月异，它们能够处理的文本长度也从最初的几千字扩展到现在的几十万甚至数百万字。例如，谷歌的Gemini 1.5 Pro和Meta的Llama 4已能支持高达1000万字的超长文本输入。这使得AI能够理解整本书籍、完整的代码库，或者进行多轮深入对话，极大拓展了应用场景。

然而，这种能力提升带来了巨大的计算挑战。当模型处理文本时，它会为每个词（技术上称为"token"）生成"键值缓存"（KV Cache），这些缓存会占用大量图形处理器（GPU）内存。举个例子，处理一个包含100万字的请求，使用Llama3-8B-1048K模型，需要高达125GB的内存！这远远超出了目前大多数单个GPU的容量（通常为24GB至80GB）。

正如在拥挤的图书馆中找书变得困难一样，当文本长度增加，AI模型不仅面临内存不足的问题，还面临"查找效率"的瓶颈——它需要在海量信息中反复查找关键内容，这极大拖慢了处理速度。

二、RetroInfer：打造AI专属的智能图书馆系统

面对这一挑战，微软研究团队提出了一个独特的视角：何不把整个键值缓存重新设计为一个"向量存储系统"？这就像是将混乱的图书馆改造成一个高效智能的图书管理系统。

在传统图书馆中，如果你想找一本特定的书，可能需要查遍所有书架。但在现代图书馆系统中，有分类索引、推荐系统和快速检索功能，帮你迅速定位最重要的书籍。RetroInfer正是基于这种思想设计的。

研究人员发现，在AI处理文本时，并非所有词语都同等重要。实际上，对于任何特定的查询，只有少部分词语（约2%）真正支配着模型的注意力输出。这就像在阅读一篇长文章时，你的大脑会自动聚焦于关键段落，而非均等地关注每个字。

RetroInfer巧妙地利用了这一"注意力稀疏性"特点，创建了一个系统，它能够：

识别出对当前处理最重要的少量词语
只将这些关键词加载到快速的GPU内存中
将其余大量不太重要的词语存储在容量更大但速度较慢的CPU内存中
在需要时智能地在GPU和CPU之间调度数据

这就像一个图书馆同时拥有一个小型但高效的阅览室（GPU）和一个大型但访问较慢的书库（CPU）。阅览室里只放置最常用的参考书，而书库中存放其余所有书籍。当需要某本不在阅览室的书时，系统会自动从书库中取出，同时可能将不再需要的书放回书库，保持阅览室的高效运转。

三、wave index与wave buffer：AI的智能检索与资源调度系统

RetroInfer系统的核心由两个关键组件构成：wave index（波形索引）和wave buffer（波形缓冲区）。让我们用通俗的语言来理解它们的工作原理。

wave index：智能图书分类与检索系统

想象一下，在一个图书馆中，如果书籍随意摆放，查找特定信息将非常困难。wave index就像是一个智能图书分类系统，它会根据内容相似性将书籍分组。

具体来说，wave index采用了三种创新技术：

首先是"三部分注意力近似"。它将所有词语（token）分为三类区域：稳定区（steady zone）、检索区（retrieval zone）和估计区（estimation zone）。

稳定区包含那些位于文本开头和结尾的词语，研究发现这些位置的词语通常比较重要，所以直接将它们放入"阅览室"（GPU）中。就像图书馆中的参考书区，这些书永远摆在最显眼的位置。

检索区包含那些经过智能索引系统判断为重要的词语。系统会将相似的词语分组成"聚类"，然后根据查询需要，选择最相关的聚类加载到GPU中。这就像图书馆根据你的研究主题，为你选择最相关的几本专业书籍。

估计区则包含那些不太重要的词语，它们被留在CPU内存中。但有趣的是，RetroInfer并不完全忽略它们，而是使用一种"精度有界的注意力估计"技术，大致估算它们的贡献，确保结果的准确性。这就像图书管理员虽然没有给你取出所有相关书籍，但能告诉你："其他书架上还有约300本相关书籍，大致内容是这样的..."

其次是"分段聚类"技术。传统的聚类方法处理超长文本时计算成本很高。RetroInfer的创新之处在于，它将长文本分成多个段落独立进行聚类，显著提高了效率。这就像图书馆不是对所有书籍一起分类，而是先按大类（如文学、科学、历史）分区，然后在每个区内进行更细致的分类，这样既保证了分类质量，又提高了效率。

wave buffer：智能资源调度系统

如果说wave index负责找出最重要的信息，那么wave buffer就负责高效地管理这些信息的存储和移动。

wave buffer就像图书馆的布局和书籍调度系统，它决定哪些书放在阅览室，哪些书放在书库，以及如何在两者之间高效地移动书籍。

wave buffer在GPU中维护几个关键区域：一个用于存放稳定区词语的小缓冲区，一个用于存放检索区词语的块缓存（block cache），以及一个专门用于注意力计算的执行缓冲区（execution buffer）。

更巧妙的是，wave buffer采用了"异步缓存更新"技术。在传统系统中，当需要新数据时，处理器必须等待数据加载完成才能继续工作。而RetroInfer将缓存访问和缓存更新分离：当模型需要新数据时，系统立即提供已有数据供GPU处理，同时在后台异步更新缓存，无需让GPU等待。这就像图书管理员在你查阅一本书的同时，悄悄地整理书架，为你的下一个需求做准备，极大提高了效率。

四、惊人的加速效果：RetroInfer如何改变AI运行方式

微软研究团队在多个流行模型（Llama3.1-8B、Qwen2.5-7B和Llama3-8B-1048K）上进行了广泛测试，结果令人惊叹。

在RULER、LongBench和NIAH等长文本基准测试中，RetroInfer实现了出色的性能提升，同时保持了与完全注意力机制相当的准确性。具体来说：

在GPU内存限制范围内，RetroInfer比标准完全注意力机制（full attention）快高达4.5倍。

当处理超出GPU内存容量的超长文本时（将KV缓存扩展到CPU内存），RetroInfer比其他稀疏注意力基线快高达10.5倍。

在准确性方面，RetroInfer与完全注意力机制相比，在Llama3.1-8B、Qwen2.5-7B和Llama3-8B-1048K上的平均准确率仅下降了0.73%、0.78%和1.46%。这意味着，尽管大幅提高了速度，但几乎没有损失准确性。

与最佳表现的稀疏注意力基线相比，RetroInfer在相同检索预算下提高了5.48%、15.51%和3.33%的准确率。

这些技术改进意味着什么？想象一下，一个AI系统原本需要1分钟回答你的问题，现在只需要13秒；或者原本只能处理10万字的文档，现在能处理100万字，而且响应速度更快。对于需要分析长文档、进行多轮对话或处理大型代码库的应用来说，这是一个巨大的飞跃。

在实际应用场景中，例如法律文档分析、医学文献研究或客户服务聊天机器人，这种性能提升将显著改善用户体验，让AI系统能够更快地提供更全面的回答。

五、说到底，RetroInfer教会了AI如何"抓住重点"

归根结底，RetroInfer的成功在于它模拟了人类阅读长文本的策略——我们不会均等地关注每个词，而是自然地聚焦于关键信息。通过将这种"抓住重点"的能力融入AI系统架构，RetroInfer成功地在速度和准确性之间找到了绝佳平衡点。

这项研究的意义远不止于技术改进。它向我们展示了一个重要理念：解决AI系统的性能瓶颈，有时需要重新思考问题框架，而不仅仅是优化现有方法。通过将KV缓存重新概念化为向量存储系统，研究团队开辟了一条全新的技术路径。

对于普通用户来说，这意味着未来的AI应用将能够处理更长的文本，提供更全面的回答，而且响应速度更快。无论是分析一本书、理解一个复杂代码库，还是维持长时间的深入对话，AI都将变得更加高效和实用。

对于开发者和研究者而言，RetroInfer提供了一个开源框架（https://github.com/microsoft/RetrievalAttention），可以用于构建更高效的大型语言模型推理系统。这也为未来的研究指明了方向：将注意力机制的稀疏性与向量存储系统的高效检索相结合，可能是解决下一代AI系统性能挑战的关键。

正如论文结尾所强调的："就像我们通过RetroInfer所展示的，KV缓存本质上就是一个向量存储系统。"这一简单而深刻的观察，可能会重塑我们设计和优化大型语言模型的方式，为AI的未来发展开辟新的可能性。

对这项研究感兴趣的读者，可以通过arXiv网站（arXiv:2505.02922v1）查阅完整论文，或访问GitHub项目（https://github.com/microsoft/RetrievalAttention）了解更多技术细节。

分享至

0赞

好文章，需要你的鼓励

推荐文章

阿里云

2025-09-24 17:40

阿里要用AI将云计算重做一遍

“大模型是下一代操作系统，AI云是下一代计算机。”
人工智能
机器学习
算法优化

2025-09-24 13:57

大语言模型为什么老是"胡编乱造"？OpenAI团队揭开AI幻觉的真相

OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因：AI就像面临难题的学生，宁愿猜测也不愿承认无知。研究发现，即使训练数据完全正确，统计学原理也会导致AI产生错误信息。更重要的是，现有评估体系惩罚不确定性表达，鼓励AI进行猜测。研究提出了显式置信度目标等解决方案，通过改革评估标准让AI学会诚实地说"不知道"，为构建更可信的AI系统指明方向。
人工智能
逆向推理
创意写作

2025-09-24 13:56

ByteDance AI实验室发布重磅研究：让计算机学会"逆向思考"，解决创意写作难题

字节跳动AI实验室提出"逆向工程推理"新范式，通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集，训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型，为AI在开放性创意任务上的应用开辟了新道路。
人工智能
强化学习
GUI操作

2025-09-24 13:56

电脑终于学会了像人类一样用键盘鼠标：ByteDance推出会玩游戏的AI助手

ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手，能够通过观看屏幕并用鼠标键盘操作电脑，就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法，在多项测试中表现出色，游戏水平达到人类的60%左右，在某些电脑操作测试中甚至超越了知名AI产品，展现了AI从对话工具向真正智能助手演进的巨大潜力。

阿里要用AI将云计算重做一遍

2025-09-24 17:40

大语言模型为什么老是"胡编乱造"？OpenAI团队揭开AI幻觉的真相

大语言模型为什么老是"胡编乱造"？OpenAI团队揭开AI幻觉的真相

2025-09-24 13:57

ByteDance AI实验室发布重磅研究：让计算机学会"逆向思考"，解决创意写作难题

ByteDance AI实验室发布重磅研究：让计算机学会"逆向思考"，解决创意写作难题

2025-09-24 13:56

电脑终于学会了像人类一样用键盘鼠标：ByteDance推出会玩游戏的AI助手

电脑终于学会了像人类一样用键盘鼠标：ByteDance推出会玩游戏的AI助手

2025-09-24 13:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

北京第二十六维信息技术有限公司（至顶网）版权所有。 | 联络我们

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn