微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

小米团队推出HySparse：让AI大脑处理长文本时既快又聪明的混合稀疏注意力机制

人工智能稀疏注意力模型优化

小米团队推出HySparse：让AI大脑处理长文本时既快又聪明的混合稀疏注意力机制

作者：科技行者

2026-02-05 18:00

分享至：

小米团队推出HySparse混合稀疏注意力架构，通过"师傅带徒弟"策略解决AI大模型处理长文本时的效率难题。该方法让完整注意力层充当精确选择器，稀疏注意力层直接继承其判断和缓存，在80B模型中仅用5个完整层就实现性能提升，键值缓存减少近10倍，为长文本AI应用提供了高效解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-02-05 18:00 • 科技行者

这项由小米公司LLM-Core团队领导的研究发表于2026年2月3日的arXiv预印本平台，编号为arXiv:2602.03560v1。有兴趣深入了解的读者可以通过该论文编号查询完整论文。

现代人工智能大模型面临着一个棘手的问题，就像一个超级聪明但注意力有限的学生，当需要阅读一本超厚小说时，要么记住每个细节但速度极慢，要么快速翻阅但遗漏重要信息。小米研究团队提出的HySparse混合稀疏注意力架构，巧妙地解决了这个两难困境。

传统的AI大模型在处理长文本时，就像一个过度谨慎的图书管理员，必须仔细检查书架上的每一本书才能找到需要的信息。这种"全面注意力"机制虽然准确，但当文本变长时，处理时间呈平方级增长，就好比图书馆的书越多，管理员的工作量就成倍增加。随着文本长度从几千字增加到几万字，AI系统的运算量和内存消耗会急剧膨胀，严重限制了实际应用。

为了缓解这个问题，研究者们开发了稀疏注意力技术，类似于训练图书管理员只关注最重要的书籍。然而，现有的稀疏注意力方法存在两个根本性缺陷。第一个问题是"代理选择困境"：这些方法通常依赖额外的"助手模块"来预测哪些信息重要，就像雇用一个经验不足的实习生来帮图书管理员挑选重要书籍，结果往往不够准确，特别是在面对复杂多变的长文本时。第二个问题是"内存负担悖论"：虽然动态稀疏注意力可以减少计算量，但仍需保留完整的键值缓存（类似于图书索引卡片），因为完全删除这些信息可能导致后续处理出错。

小米团队的HySparse解决方案采用了一种创新的"师傅带徒弟"策略。这个系统将每个完整注意力层（师傅）与多个稀疏注意力层（徒弟）交替排列。师傅层运行标准的全面注意力机制，在这个过程中不仅产生输出结果，还精准识别出最重要的信息片段，同时生成可重复使用的键值缓存。徒弟层则直接继承师傅的判断和缓存，无需额外的选择模块，从而避免了代理选择的不准确性。

这种设计的巧妙之处在于变废为宝地利用了师傅层的"副产品"。当师傅层进行全面分析时，会自然产生注意力得分，这些得分精确反映了每个信息块的重要性。HySparse通过轻微修改FlashAttention内核，提取这些块级别的最大注意力得分，几乎没有额外开销。然后使用TopK选择机制确定最关键的信息块，这个过程就像师傅在阅读时自然地标记重点段落，徒弟直接参考这些标记进行后续学习。

在键值缓存共享方面，HySparse采用了"资源复用"策略。徒弟层中的稀疏注意力分支直接重用师傅层产生的键值缓存，大幅减少了内存占用。同时，每个徒弟层还配备一个独立的滑动窗口注意力分支，专门处理局部信息，就像在继承师傅的全局视野的同时，保持对眼前细节的敏锐观察。这两个分支通过可学习的门控机制融合，动态平衡全局和局部信息的重要性。

在具体实现上，HySparse首先在师傅层计算标准的缩放点积注意力，但额外输出块级注意力重要性得分。研究团队发现，通过稍微修改FlashAttention内核，可以在线性增长的计算成本下获取这些得分。具体来说，FlashAttention在在线softmax过程中已经计算了行级最大注意力logits，这个中间结果可以被重新利用来推导块级注意力得分，实现了近乎免费的重要性评估。

在徒弟层中，稀疏注意力分支根据师傅层提供的重要块索引，连接选定的键值块来构建稀疏键值矩阵。滑动窗口分支则维护自己的轻量级键值缓存，专注于最近128个token的局部建模。两个分支使用相同的查询向量但操作不同的键值源，最终通过sigmoid门控进行加权融合。这种设计确保了全局信息检索和局部连贯性建模的有效结合。

研究团队在两种规模的模型上验证了HySparse的效果：7B参数的稠密模型和80B参数的专家混合模型。对于7B模型，他们采用1:3的师徒比例，即每个师傅层后跟3个徒弟层；对于80B模型，则使用更激进的1:11比例。在所有混合模型中，最后一层都使用完整注意力以保持全局信息聚合能力。

实验结果显示，HySparse在各种基准测试中都表现出色。在7B模型上，HySparse在知识理解任务如MMLU上从56.9分提升到58.8分，在推理任务如GSM8K上从33.3分提升到37.9分，在中文理解任务上也有显著改进。特别值得注意的是，在80B专家混合模型中，尽管只有5个层使用完整注意力（相当于减少了近10倍的键值缓存），HySparse仍然超越了基线模型，展现了惊人的效率和效果平衡。

在长文本处理能力方面，HySparse同样表现优异。在RULER基准测试中，无论是16k还是32k的上下文长度，HySparse都保持了与完整注意力相当甚至更好的性能。特别是在80B模型的32k设置下，HySparse达到87.4分，显著超过完整注意力的82.1分，这表明混合架构不仅节省了资源，还可能提升了长文本理解能力。

研究团队还进行了详细的消融实验，探索了架构设计的关键要素。他们发现，即使有了精确的重要性选择，滑动窗口分支仍然是必要的，因为它提供了稀疏全局检索无法完全捕获的局部连贯性信息。此外，键值缓存共享必须谨慎应用：稀疏注意力分支可以安全地重用师傅层的缓存，但滑动窗口分支需要维护独立的键值缓存以保持局部建模的有效性。

HySparse的创新意义不仅在于技术突破，更在于为长文本AI应用开辟了新的可能性。随着AI系统在文档分析、代码理解、对话系统等领域的广泛应用，处理超长文本的需求日益迫切。HySparse提供了一种既保持准确性又显著提升效率的解决方案，使得在有限的计算资源下处理复杂长文本任务成为可能。

这项研究的另一个重要贡献是其系统级优化的潜力。HySparse的架构天然支持键值缓存的分层管理：可以将师傅层的完整缓存卸载到外部存储，只在GPU上保持徒弟层需要的稀疏键值缓存，这为大规模长文本推理服务提供了新的系统优化思路。

展望未来，HySparse为混合注意力架构的发展指明了方向。通过将完整注意力的精确性与稀疏注意力的效率相结合，这种"师傅带徒弟"的策略可能成为下一代大模型架构的标准设计模式。随着模型规模的进一步扩大和应用场景的不断拓展，HySparse所代表的智能资源分配理念将发挥越来越重要的作用。

说到底，HySparse解决的是AI领域的一个根本性权衡问题：如何在保持智能的同时提高效率。通过巧妙的架构设计和资源复用，这项研究证明了我们不必在准确性和效率之间做出痛苦选择，而是可以通过更聪明的设计同时获得两者的优势。对于正在快速发展的AI行业来说，这种思路可能会启发更多创新性的解决方案，推动人工智能技术向更实用、更高效的方向发展。

Q&A

Q1：HySparse混合稀疏注意力机制是什么？

A：HySparse是小米团队开发的一种新型AI架构，采用"师傅带徒弟"策略，将完整注意力层（师傅）与多个稀疏注意力层（徒弟）交替排列。师傅层识别重要信息并生成可重用的缓存，徒弟层直接继承这些判断，既保持了处理精度又大幅提升了效率。

Q2：HySparse如何解决传统稀疏注意力的问题？

A：传统稀疏注意力依赖额外的"助手模块"预测重要信息，往往不够准确，而且虽然减少计算但仍需保留完整缓存。HySparse让师傅层充当精确的"预测oracle"，徒弟层直接重用师傅的判断和缓存，消除了预测不准确性，同时真正减少了内存占用。

Q3：HySparse在实际应用中效果如何？

A：实验显示HySparse在各种任务上都表现出色。在80B专家混合模型中，仅用5个完整注意力层就超越了基线性能，键值缓存减少近10倍。在长文本处理方面，32k上下文的RULER测试中达到87.4分，显著超过完整注意力的82.1分。

人工智能稀疏注意力模型优化

分享至