
这项由小米公司LLM-Core团队领导的研究发表于2026年2月3日的arXiv预印本平台,编号为arXiv:2602.03560v1。有兴趣深入了解的读者可以通过该论文编号查询完整论文。
现代人工智能大模型面临着一个棘手的问题,就像一个超级聪明但注意力有限的学生,当需要阅读一本超厚小说时,要么记住每个细节但速度极慢,要么快速翻阅但遗漏重要信息。小米研究团队提出的HySparse混合稀疏注意力架构,巧妙地解决了这个两难困境。
传统的AI大模型在处理长文本时,就像一个过度谨慎的图书管理员,必须仔细检查书架上的每一本书才能找到需要的信息。这种"全面注意力"机制虽然准确,但当文本变长时,处理时间呈平方级增长,就好比图书馆的书越多,管理员的工作量就成倍增加。随着文本长度从几千字增加到几万字,AI系统的运算量和内存消耗会急剧膨胀,严重限制了实际应用。
为了缓解这个问题,研究者们开发了稀疏注意力技术,类似于训练图书管理员只关注最重要的书籍。然而,现有的稀疏注意力方法存在两个根本性缺陷。第一个问题是"代理选择困境":这些方法通常依赖额外的"助手模块"来预测哪些信息重要,就像雇用一个经验不足的实习生来帮图书管理员挑选重要书籍,结果往往不够准确,特别是在面对复杂多变的长文本时。第二个问题是"内存负担悖论":虽然动态稀疏注意力可以减少计算量,但仍需保留完整的键值缓存(类似于图书索引卡片),因为完全删除这些信息可能导致后续处理出错。
小米团队的HySparse解决方案采用了一种创新的"师傅带徒弟"策略。这个系统将每个完整注意力层(师傅)与多个稀疏注意力层(徒弟)交替排列。师傅层运行标准的全面注意力机制,在这个过程中不仅产生输出结果,还精准识别出最重要的信息片段,同时生成可重复使用的键值缓存。徒弟层则直接继承师傅的判断和缓存,无需额外的选择模块,从而避免了代理选择的不准确性。
这种设计的巧妙之处在于变废为宝地利用了师傅层的"副产品"。当师傅层进行全面分析时,会自然产生注意力得分,这些得分精确反映了每个信息块的重要性。HySparse通过轻微修改FlashAttention内核,提取这些块级别的最大注意力得分,几乎没有额外开销。然后使用TopK选择机制确定最关键的信息块,这个过程就像师傅在阅读时自然地标记重点段落,徒弟直接参考这些标记进行后续学习。
在键值缓存共享方面,HySparse采用了"资源复用"策略。徒弟层中的稀疏注意力分支直接重用师傅层产生的键值缓存,大幅减少了内存占用。同时,每个徒弟层还配备一个独立的滑动窗口注意力分支,专门处理局部信息,就像在继承师傅的全局视野的同时,保持对眼前细节的敏锐观察。这两个分支通过可学习的门控机制融合,动态平衡全局和局部信息的重要性。
在具体实现上,HySparse首先在师傅层计算标准的缩放点积注意力,但额外输出块级注意力重要性得分。研究团队发现,通过稍微修改FlashAttention内核,可以在线性增长的计算成本下获取这些得分。具体来说,FlashAttention在在线softmax过程中已经计算了行级最大注意力logits,这个中间结果可以被重新利用来推导块级注意力得分,实现了近乎免费的重要性评估。
在徒弟层中,稀疏注意力分支根据师傅层提供的重要块索引,连接选定的键值块来构建稀疏键值矩阵。滑动窗口分支则维护自己的轻量级键值缓存,专注于最近128个token的局部建模。两个分支使用相同的查询向量但操作不同的键值源,最终通过sigmoid门控进行加权融合。这种设计确保了全局信息检索和局部连贯性建模的有效结合。
研究团队在两种规模的模型上验证了HySparse的效果:7B参数的稠密模型和80B参数的专家混合模型。对于7B模型,他们采用1:3的师徒比例,即每个师傅层后跟3个徒弟层;对于80B模型,则使用更激进的1:11比例。在所有混合模型中,最后一层都使用完整注意力以保持全局信息聚合能力。
实验结果显示,HySparse在各种基准测试中都表现出色。在7B模型上,HySparse在知识理解任务如MMLU上从56.9分提升到58.8分,在推理任务如GSM8K上从33.3分提升到37.9分,在中文理解任务上也有显著改进。特别值得注意的是,在80B专家混合模型中,尽管只有5个层使用完整注意力(相当于减少了近10倍的键值缓存),HySparse仍然超越了基线模型,展现了惊人的效率和效果平衡。
在长文本处理能力方面,HySparse同样表现优异。在RULER基准测试中,无论是16k还是32k的上下文长度,HySparse都保持了与完整注意力相当甚至更好的性能。特别是在80B模型的32k设置下,HySparse达到87.4分,显著超过完整注意力的82.1分,这表明混合架构不仅节省了资源,还可能提升了长文本理解能力。
研究团队还进行了详细的消融实验,探索了架构设计的关键要素。他们发现,即使有了精确的重要性选择,滑动窗口分支仍然是必要的,因为它提供了稀疏全局检索无法完全捕获的局部连贯性信息。此外,键值缓存共享必须谨慎应用:稀疏注意力分支可以安全地重用师傅层的缓存,但滑动窗口分支需要维护独立的键值缓存以保持局部建模的有效性。
HySparse的创新意义不仅在于技术突破,更在于为长文本AI应用开辟了新的可能性。随着AI系统在文档分析、代码理解、对话系统等领域的广泛应用,处理超长文本的需求日益迫切。HySparse提供了一种既保持准确性又显著提升效率的解决方案,使得在有限的计算资源下处理复杂长文本任务成为可能。
这项研究的另一个重要贡献是其系统级优化的潜力。HySparse的架构天然支持键值缓存的分层管理:可以将师傅层的完整缓存卸载到外部存储,只在GPU上保持徒弟层需要的稀疏键值缓存,这为大规模长文本推理服务提供了新的系统优化思路。
展望未来,HySparse为混合注意力架构的发展指明了方向。通过将完整注意力的精确性与稀疏注意力的效率相结合,这种"师傅带徒弟"的策略可能成为下一代大模型架构的标准设计模式。随着模型规模的进一步扩大和应用场景的不断拓展,HySparse所代表的智能资源分配理念将发挥越来越重要的作用。
说到底,HySparse解决的是AI领域的一个根本性权衡问题:如何在保持智能的同时提高效率。通过巧妙的架构设计和资源复用,这项研究证明了我们不必在准确性和效率之间做出痛苦选择,而是可以通过更聪明的设计同时获得两者的优势。对于正在快速发展的AI行业来说,这种思路可能会启发更多创新性的解决方案,推动人工智能技术向更实用、更高效的方向发展。
Q&A
Q1:HySparse混合稀疏注意力机制是什么?
A:HySparse是小米团队开发的一种新型AI架构,采用"师傅带徒弟"策略,将完整注意力层(师傅)与多个稀疏注意力层(徒弟)交替排列。师傅层识别重要信息并生成可重用的缓存,徒弟层直接继承这些判断,既保持了处理精度又大幅提升了效率。
Q2:HySparse如何解决传统稀疏注意力的问题?
A:传统稀疏注意力依赖额外的"助手模块"预测重要信息,往往不够准确,而且虽然减少计算但仍需保留完整缓存。HySparse让师傅层充当精确的"预测oracle",徒弟层直接重用师傅的判断和缓存,消除了预测不准确性,同时真正减少了内存占用。
Q3:HySparse在实际应用中效果如何?
A:实验显示HySparse在各种任务上都表现出色。在80B专家混合模型中,仅用5个完整注意力层就超越了基线性能,键值缓存减少近10倍。在长文本处理方面,32k上下文的RULER测试中达到87.4分,显著超过完整注意力的82.1分。
好文章,需要你的鼓励
亚马逊FAR部门研究团队通过创新的"掩码比特建模"技术,突破了图像生成领域的传统认知。研究发现离散方法劣势源于信息容量不足而非技术路线缺陷,提出的BAR框架通过渐进式比特预测解决大词汇表计算难题,在ImageNet-256上创下0.99 gFID新纪录,同时实现数十倍的速度提升,为AI图像生成开启质量与效率并举的新时代。
北京大学与美团联合研究团队提出轮廓引导路径探索(OPE)方法,解决AI并行推理中的"互信息饱和"问题。通过先生成多样化策略轮廓再执行具体推理,避免多条思路重复收敛的困境。在数学推理测试中,该方法显著提升了复杂问题的解决成功率,为AI推理能力的可靠性提升提供了新的技术路径。
南洋理工大学研究团队开发了Dr. MAS训练方法,专门解决多智能体大语言模型系统的训练不稳定问题。该方法通过为每个AI智能体使用个性化的评价标准,避免了传统全局标准化导致的梯度爆炸问题。在数学推理和多轮搜索任务中,Dr. MAS显著提升了系统性能和训练稳定性,为构建更强大的AI协作系统提供了重要技术支撑。
腾讯AI实验室开发的Covo-Audio是首个真正实现端到端语音对话的7B参数大模型,能直接处理语音输入并生成自然回应。该系统突破了传统流水线式处理的局限,实现了智能与声音分离、全双工交互等创新功能,在多项基准测试中表现优异,特别是在情感理解和自然对话方面达到了新的水准,为语音交互技术的实用化和个性化应用开辟了新路径。