微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 小米团队推出HySparse:让AI大脑处理长文本时既快又聪明的混合稀疏注意力机制

小米团队推出HySparse:让AI大脑处理长文本时既快又聪明的混合稀疏注意力机制

2026-02-05 18:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-02-05 18:00 科技行者

这项由小米公司LLM-Core团队领导的研究发表于2026年2月3日的arXiv预印本平台,编号为arXiv:2602.03560v1。有兴趣深入了解的读者可以通过该论文编号查询完整论文。

现代人工智能大模型面临着一个棘手的问题,就像一个超级聪明但注意力有限的学生,当需要阅读一本超厚小说时,要么记住每个细节但速度极慢,要么快速翻阅但遗漏重要信息。小米研究团队提出的HySparse混合稀疏注意力架构,巧妙地解决了这个两难困境。

传统的AI大模型在处理长文本时,就像一个过度谨慎的图书管理员,必须仔细检查书架上的每一本书才能找到需要的信息。这种"全面注意力"机制虽然准确,但当文本变长时,处理时间呈平方级增长,就好比图书馆的书越多,管理员的工作量就成倍增加。随着文本长度从几千字增加到几万字,AI系统的运算量和内存消耗会急剧膨胀,严重限制了实际应用。

为了缓解这个问题,研究者们开发了稀疏注意力技术,类似于训练图书管理员只关注最重要的书籍。然而,现有的稀疏注意力方法存在两个根本性缺陷。第一个问题是"代理选择困境":这些方法通常依赖额外的"助手模块"来预测哪些信息重要,就像雇用一个经验不足的实习生来帮图书管理员挑选重要书籍,结果往往不够准确,特别是在面对复杂多变的长文本时。第二个问题是"内存负担悖论":虽然动态稀疏注意力可以减少计算量,但仍需保留完整的键值缓存(类似于图书索引卡片),因为完全删除这些信息可能导致后续处理出错。

小米团队的HySparse解决方案采用了一种创新的"师傅带徒弟"策略。这个系统将每个完整注意力层(师傅)与多个稀疏注意力层(徒弟)交替排列。师傅层运行标准的全面注意力机制,在这个过程中不仅产生输出结果,还精准识别出最重要的信息片段,同时生成可重复使用的键值缓存。徒弟层则直接继承师傅的判断和缓存,无需额外的选择模块,从而避免了代理选择的不准确性。

这种设计的巧妙之处在于变废为宝地利用了师傅层的"副产品"。当师傅层进行全面分析时,会自然产生注意力得分,这些得分精确反映了每个信息块的重要性。HySparse通过轻微修改FlashAttention内核,提取这些块级别的最大注意力得分,几乎没有额外开销。然后使用TopK选择机制确定最关键的信息块,这个过程就像师傅在阅读时自然地标记重点段落,徒弟直接参考这些标记进行后续学习。

在键值缓存共享方面,HySparse采用了"资源复用"策略。徒弟层中的稀疏注意力分支直接重用师傅层产生的键值缓存,大幅减少了内存占用。同时,每个徒弟层还配备一个独立的滑动窗口注意力分支,专门处理局部信息,就像在继承师傅的全局视野的同时,保持对眼前细节的敏锐观察。这两个分支通过可学习的门控机制融合,动态平衡全局和局部信息的重要性。

在具体实现上,HySparse首先在师傅层计算标准的缩放点积注意力,但额外输出块级注意力重要性得分。研究团队发现,通过稍微修改FlashAttention内核,可以在线性增长的计算成本下获取这些得分。具体来说,FlashAttention在在线softmax过程中已经计算了行级最大注意力logits,这个中间结果可以被重新利用来推导块级注意力得分,实现了近乎免费的重要性评估。

在徒弟层中,稀疏注意力分支根据师傅层提供的重要块索引,连接选定的键值块来构建稀疏键值矩阵。滑动窗口分支则维护自己的轻量级键值缓存,专注于最近128个token的局部建模。两个分支使用相同的查询向量但操作不同的键值源,最终通过sigmoid门控进行加权融合。这种设计确保了全局信息检索和局部连贯性建模的有效结合。

研究团队在两种规模的模型上验证了HySparse的效果:7B参数的稠密模型和80B参数的专家混合模型。对于7B模型,他们采用1:3的师徒比例,即每个师傅层后跟3个徒弟层;对于80B模型,则使用更激进的1:11比例。在所有混合模型中,最后一层都使用完整注意力以保持全局信息聚合能力。

实验结果显示,HySparse在各种基准测试中都表现出色。在7B模型上,HySparse在知识理解任务如MMLU上从56.9分提升到58.8分,在推理任务如GSM8K上从33.3分提升到37.9分,在中文理解任务上也有显著改进。特别值得注意的是,在80B专家混合模型中,尽管只有5个层使用完整注意力(相当于减少了近10倍的键值缓存),HySparse仍然超越了基线模型,展现了惊人的效率和效果平衡。

在长文本处理能力方面,HySparse同样表现优异。在RULER基准测试中,无论是16k还是32k的上下文长度,HySparse都保持了与完整注意力相当甚至更好的性能。特别是在80B模型的32k设置下,HySparse达到87.4分,显著超过完整注意力的82.1分,这表明混合架构不仅节省了资源,还可能提升了长文本理解能力。

研究团队还进行了详细的消融实验,探索了架构设计的关键要素。他们发现,即使有了精确的重要性选择,滑动窗口分支仍然是必要的,因为它提供了稀疏全局检索无法完全捕获的局部连贯性信息。此外,键值缓存共享必须谨慎应用:稀疏注意力分支可以安全地重用师傅层的缓存,但滑动窗口分支需要维护独立的键值缓存以保持局部建模的有效性。

HySparse的创新意义不仅在于技术突破,更在于为长文本AI应用开辟了新的可能性。随着AI系统在文档分析、代码理解、对话系统等领域的广泛应用,处理超长文本的需求日益迫切。HySparse提供了一种既保持准确性又显著提升效率的解决方案,使得在有限的计算资源下处理复杂长文本任务成为可能。

这项研究的另一个重要贡献是其系统级优化的潜力。HySparse的架构天然支持键值缓存的分层管理:可以将师傅层的完整缓存卸载到外部存储,只在GPU上保持徒弟层需要的稀疏键值缓存,这为大规模长文本推理服务提供了新的系统优化思路。

展望未来,HySparse为混合注意力架构的发展指明了方向。通过将完整注意力的精确性与稀疏注意力的效率相结合,这种"师傅带徒弟"的策略可能成为下一代大模型架构的标准设计模式。随着模型规模的进一步扩大和应用场景的不断拓展,HySparse所代表的智能资源分配理念将发挥越来越重要的作用。

说到底,HySparse解决的是AI领域的一个根本性权衡问题:如何在保持智能的同时提高效率。通过巧妙的架构设计和资源复用,这项研究证明了我们不必在准确性和效率之间做出痛苦选择,而是可以通过更聪明的设计同时获得两者的优势。对于正在快速发展的AI行业来说,这种思路可能会启发更多创新性的解决方案,推动人工智能技术向更实用、更高效的方向发展。

Q&A

Q1:HySparse混合稀疏注意力机制是什么?

A:HySparse是小米团队开发的一种新型AI架构,采用"师傅带徒弟"策略,将完整注意力层(师傅)与多个稀疏注意力层(徒弟)交替排列。师傅层识别重要信息并生成可重用的缓存,徒弟层直接继承这些判断,既保持了处理精度又大幅提升了效率。

Q2:HySparse如何解决传统稀疏注意力的问题?

A:传统稀疏注意力依赖额外的"助手模块"预测重要信息,往往不够准确,而且虽然减少计算但仍需保留完整缓存。HySparse让师傅层充当精确的"预测oracle",徒弟层直接重用师傅的判断和缓存,消除了预测不准确性,同时真正减少了内存占用。

Q3:HySparse在实际应用中效果如何?

A:实验显示HySparse在各种任务上都表现出色。在80B专家混合模型中,仅用5个完整注意力层就超越了基线性能,键值缓存减少近10倍。在长文本处理方面,32k上下文的RULER测试中达到87.4分,显著超过完整注意力的82.1分。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-