微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI"开小差"时:清华大学等机构联合揭秘Transformer的"注意力陷阱"问题

当AI"开小差"时:清华大学等机构联合揭秘Transformer的"注意力陷阱"问题

2026-04-21 17:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-21 17:46 科技行者

这项由清华大学、香港大学、美团LongCat团队、厦门大学、密歇根大学和俄亥俄州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.10098。这是该领域首篇系统性综述,感兴趣的读者可通过上述编号查询完整论文。

---

每当你使用ChatGPT、文心一言或其他AI助手时,背后都有一套叫做"Transformer"的架构在驱动。这套架构的核心能力,是让AI能够"关注"输入信息中最重要的部分——就像你读一篇文章时,眼睛会自然停留在关键词和核心句子上,而不是把每个字都盯同样长的时间。这种"选择性关注"的能力,学术上叫做"注意力机制"(Attention Mechanism)。

然而,有一个长期被忽视的怪现象潜伏在这套机制里:AI有时会把大量的注意力集中在某些毫无实质意义的词上——比如句子开头的感叹词、标点符号,甚至是一个什么语义都没有的占位符。这些词就像黑洞一样,把本该分配给真正重要内容的注意力统统"吸走"。研究者们给这个现象起了一个形象的名字:**注意力沉积(Attention Sink,简称AS)**。

这篇综述系统梳理了超过180篇相关研究,从三个维度——如何利用它、如何解释它、如何消除它——为整个领域提供了第一份全面的知识地图。

---

一、先从头说起:AI的"注意力"到底是什么

要理解注意力沉积,得先搞清楚AI的注意力是怎么工作的。

以一个简单的句子"苹果很甜"为例。当AI处理这个句子时,它会让每个词都去"询问"其他词:"你对我理解自己有多大帮助?"这个"询问"的过程,就是注意力计算。最后,每个词会得到一份"分配方案"——比如"甜"这个词,会对"苹果"给予较高的注意力,因为"是什么甜"这个信息对理解"甜"至关重要。

这套机制有一个数学上的硬性约束:所有注意力权重加起来必须等于1。就像你有100元零花钱,必须全部花完,不能存下来,也不能透支。这个约束来自于一个叫做**Softmax**的数学函数——它把一堆原始分数转换成加和为1的概率分布。

问题就藏在这个"必须花完"的规则里。

---

二、"必须花完"的钱,花到哪里去了

回到那100元零花钱的比喻。假设某天你逛超市,发现货架上真的没有任何你想买的东西。但规则规定你必须花完这100元——你会怎么办?大概率你会随便抓一包薯片或者一瓶矿泉水,把钱凑完。

AI的注意力机制面临完全相同的困境。当一个词处理它的上下文时,如果上下文中没有任何词对它"真正有用",Softmax函数依然会强迫它把全部100%的注意力分配出去。那多余的注意力去哪了?就堆积到了那些"最无害"的地方——句子开头的词、标点符号、或者什么语义都没有的占位符。

这些被堆积了大量多余注意力的词,就是注意力沉积词(sink token)。它们有两个一致的特征:第一,接收到的注意力远超平均水平,有时高达普通词的数百甚至上千倍;第二,它们本身携带的语义信息极少,对AI真正理解内容没有实质贡献。

在不同类型的模型里,这些"垃圾桶词"的具体形态有所不同。在像BERT这样的双向语言模型中,充当"垃圾桶"的通常是特殊分隔符[SEP]和分类标记[CLS]。在像GPT、LLaMA这样的生成式语言模型中,序列最开始的那个词(通常是句子起始标记[BOS])几乎永远是最大的"注意力黑洞"——研究发现,在LLaMA等主流大模型中,第一个词在98%的注意力头中都是获得最多注意力的那个。在视觉Transformer中,充当"垃圾桶"的则是图片背景区域的图像块,那些纯粹是天空、墙壁等无信息内容的区域。在多模态大模型中,文字侧和图像侧各有自己的"垃圾桶"。

---

三、这个"垃圾桶"有多严重

你可能会想:注意力分配稍微不均匀,大不了AI理解稍差一点,有那么严重吗?

研究者们发现,后果远比你想象的深远。

首先是**推理效率**的问题。现代大语言模型处理长文本时,需要把之前看过的信息存储在一个叫做KV缓存的地方(可以理解为AI的工作记忆)。这个缓存是有上限的——就像你的书桌空间有限,放不下所有的书。因此工程师们需要定期清理,删掉"不重要"的内容。但如果不保留那些注意力沉积词,AI的表现会急剧恶化,就像把书桌上一个看似空白但实际上维持着整个书桌秩序的"底座"移走一样,整个结构会崩塌。

其次是**幻觉问题**。多模态AI(同时处理图文的模型)中,注意力沉积会导致AI把本该关注图中重要物体的注意力,挥霍在图片背景上。结果是AI"看见"了背景,却"忽略"了前景中的关键信息,进而在描述图片时胡说八道。

再者是**量化部署**的困难。为了让大模型跑在手机或嵌入式设备上,工程师需要压缩模型精度(比如从32位浮点数压到8位甚至4位整数)。注意力沉积词会产生极端的数值异常——一个词的某个特征维度数值可能高达几千,而其他词的同一维度只有个位数。这种极端不均匀导致量化误差急剧放大,压缩后模型性能大幅下降。

最后还有**安全隐患**。由于注意力沉积词的位置固定、注意力集中,攻击者可以把恶意触发器植入这些位置,让模型在正常情况下表现正常,但一旦出现特定触发词就"复活"被删除的有害知识——这是一种难以察觉的后门攻击。

---

四、研究者们是怎么"利用"这个现象的

这篇综述把研究者对注意力沉积的利用方式归纳为四大类。

第一类是**保留沉积词**(Sink Token Preservation)。既然注意力沉积词是模型稳定运行的"锚点",最简单的办法就是永远别删它们。以StreamingLLM为例,这个系统让AI可以处理无限长的文章,核心技巧就是在每次更新工作记忆时,保留最开头那几个沉积词,再加上最近的一个滑动窗口内的内容——其余中间部分可以大胆删除。实验表明,这样做性能损失极小,但可以支持理论上无限长的文本流。类似地,在视频生成领域,研究者发现保留最初几帧视频的记忆作为"全局锚点",可以让长达几分钟的视频保持前后一致的风格和内容,否则视频越到后面越像在"另起炉灶"。在量化技术中,将沉积词保持在高精度(16位或32位),其余词压缩到低精度(2位或4位),既节省了内存,又避免了性能崩塌。

第二类是**注意力重新分配**(Attention Redistribution)。既然沉积词"抢走"了本该给重要内容的注意力,那就把这部分注意力抢回来,重新分配给真正有价值的词。这类方法在多模态AI的幻觉治理上效果显著。一个典型例子是VAR方法:它先识别出哪些图像块是"垃圾桶"(被过多注意力盯着却没有语义的背景块),然后把这部分注意力重新导向前景中的重要物体。结果是AI描述图片时更准确,幻觉明显减少。另一个有趣的应用是ZeroTuning:它发现调整第一个词(最大的注意力沉积词)的注意力得分,就像调节一个旋钮一样,能间接控制整个模型的注意力分布。通过这个单一旋钮,可以在不重新训练模型的情况下,优化模型在各种任务上的表现。

第三类是**可学习的前缀词**(Learnable Prefix Tokens)。既然自然产生的沉积词位置不固定、行为难以预测,为什么不直接人为插入一个专门设计的"吸收词"?这就是寄存器词(register token)的概念。在视觉Transformer中,在图片patch序列前插入几个可训练的寄存器词,训练时模型会学会把所有"多余的"注意力都倾倒到这些寄存器词上,而不是随机选择背景图像块。结果是注意力图变得干净,真正的语义结构清晰显现,模型在各种视觉任务上的表现都有提升。VGGT这个用于三维视觉理解的Transformer也采用了同样的策略。

第四类是**重新利用沉积词**(Sink Token Repurposing)。注意力沉积词有一些独特的几何和数学性质,研究者发现可以把这些性质用于完全不同的目的。比如KeyDiff方法发现,沉积词的"键向量"(key vector,可以理解为该词的"身份标签")在高维空间里处于一个非常独特的位置——它和所有其他词的平均位置几乎垂直,余弦相似度接近0。这个独特性质可以用来快速识别哪些词是真正重要的信息词(和沉积词越不像的词,往往越重要),从而高效地管理AI的工作记忆。另一个应用是OrthoRank:它直接用沉积词作为参考点,通过测量其他词与沉积词的"垂直程度"来评估每个词的信息含量,垂直程度越高,说明这个词和沉积词越不一样,也就越有可能包含真正有用的信息。

---

五、这个现象到底从哪来:五种解释理论

理解了注意力沉积的表现和用途,接下来要问一个更深的问题:这个现象到底为什么会出现?研究者们从不同角度提出了多种理论,每种都照亮了现象的一个侧面。

**Softmax局限与无操作理论**是最早也是最直接的解释。它说的是:Softmax的"总和必须为1"约束,使得当AI某个注意力头想要"什么都不做"时,它无法真正做到什么都不做。唯一的替代方案是把所有注意力集中到某个固定的词上,同时把那个词的"值向量"(value vector,也就是该词能贡献给输出的信息)压缩到接近零——这样注意力虽然集中了,但因为值几乎是零,最终的信息贡献也接近零。这就实现了"名义上分配了注意力,实际上什么也没贡献"的无操作行为。

研究者通过一个关键观察验证了这个理论:沉积词接收到大量注意力,但它们的值向量幅度远小于普通词。换句话说,它们就像是一个很大的容器里装着极少的液体——容器看起来很重要,实际上里面几乎是空的。当研究者修改Softmax函数,让注意力权重不再强制加和为1时,注意力沉积现象果然大幅减少甚至消失。

**异常值电路理论**提供了更底层的数值机制解释。研究者发现,在Transformer模型的权重和激活值中,存在一类系统性的"异常值"——某些特征维度的数值比其他维度高出几个数量级,就像一群人中有人身高两米而其他人都在一米七左右。这些异常值通过一条固定的因果链制造出注意力沉积:首先,某些MLP层的权重矩阵中存在异常大的值;这些大值被激活时,产生异常大的激活值;这些激活值通过残差连接传播,使得特定词在特定特征维度上的表示变得极端突出;这种突出使得这个词的"键向量"与几乎所有词的"查询向量"都能产生异常高的点积;Softmax于是把大量注意力权重分配给这个词,形成注意力沉积。

在混合专家模型(MoE,一种让不同"专家"模块处理不同类型信息的架构)中,研究者还发现了一个惊人现象:整个模型中只有极少数几个"超级专家"(Super Experts)——比如在Qwen3-30B-A3B这个模型的6144个专家中,只有3个超级专家——是产生异常激活值的主要来源。删掉这3个专家,整个模型的注意力沉积就会崩溃,模型性能急剧下降。这说明注意力沉积现象是由模型内部少数几个关键组件维持的,具有高度集中性。

**隐式注意力偏置理论**从功能角度解释了注意力沉积存在的意义。这个理论发现,注意力沉积词对所有位置的输出贡献几乎是恒定的、与输入无关的——不管你输入什么句子,沉积词给每个词的贡献值基本都是同一个固定向量。换句话说,沉积词实际上在扮演一个"隐式偏置项"的角色,就像神经网络每个层都有的偏置参数,只不过这个偏置是被隐藏在注意力机制里、通过一个词来实现的。

验证这个理论最直接的方式是:给注意力机制添加显式的偏置参数(一个可训练的向量,不依附于任何词)。当GPT-2在这种修改后的架构上重新训练时,注意力沉积现象完全消失——模型直接使用那个显式偏置参数来实现相同的功能,不再需要"劫持"某个词来充当偏置。

**几何锚定理论**则从高维空间的几何结构角度提供了解释。在Transformer内部,每个词都被表示为一个高维向量(比如4096维),随着层数加深,这些向量会根据语境不断更新。研究者发现,注意力沉积词的向量非常特殊:它在整个处理过程中几乎不变,就像一个固定在原点的锚点;而其他词的向量则会逐渐向这个锚点靠拢,被它"拉着走"。这种几何上的稳定性使得沉积词成为整个表示空间的参照系,帮助模型维持内部表示的稳定性。

除了以上四种主要理论,还有几种辅助性的解释视角。其一是**结构偏置**:由于因果掩码(causal mask,一种确保AI处理当前词时只能看到它之前的词而非后面的词的机制)的存在,序列最开始的词是唯一一个能被所有后续词"看见"的词,这种天然的可见性优势使它成为注意力的天然汇聚点。其二是**反过度混合理论**:注意力沉积词通过"吸走"多余的注意力,防止了不同词的表示在深层网络中互相混淆到难以区分的程度——沉积词是一个信息"减压阀",维持了表示的多样性。其三是**主动-休眠注意力头理论**:模型训练过程中,各个注意力头会逐渐分化,一部分头专门负责接收注意力(主动头),另一部分头则主要把注意力倾倒给沉积词(休眠头),这种分工是在训练中通过梯度反馈自然演化出来的。

这些理论并非相互排斥,而是从不同尺度、不同角度描述同一个现象的不同侧面。

---

六、如何彻底消除这个"垃圾桶"

如果注意力沉积是个问题,能不能从根源上消除它?研究者提出了四类策略。

第一类是**门控注意力机制**(Gated Attention Mechanisms)。核心思路是:既然Softmax强迫注意力头"不得不分配注意力",那就给注意力头加一个"总闸门"——一个可学习的开关,可以直接把某个注意力头的整体输出乘以一个接近零的系数,从而实现真正的"什么都不做",而无需依赖注意力沉积词来实现这个效果。

最简单的形式是给每个注意力头加一个标量门控值:输出 = sigmoid(门控参数) × 注意力输出。当模型学到某个注意力头在某种情境下不需要更新信息时,门控值会收缩到接近零,整个头的输出就被抑制了。这样就彻底打破了注意力必须分配给某个词的循环。

实验表明,这个改动效果相当显著。在超过30种变体的系统性对比实验中,在标度点积注意力(SDPA)之后加门控是效果最好的位置,能把训练损失降低,减少训练时的损失尖峰(一种训练不稳定的表现),并把第一个词获得的平均注意力从46.7%压低到4.8%。这个设计已被Qwen3等产品级模型采用。

另一个变体是值状态门控注意力(VGA),它把门控加在值向量上而非输出上,可以从根源上切断"注意力高但贡献零"的循环。

第二类是**修改Softmax函数**(Modified Softmax Functions)。这条路更激进——直接改变Softmax的数学性质,让注意力权重不再强制加和为1。

裁剪Softmax(Clipped Softmax)把正常Softmax的输出范围从[0,1]扩展后再裁剪,使得模型在计算时可以得到精确的零值,不需要靠极端的logit值来压制不想关注的词。Softmax-1在分母上加了一个常数1,允许所有注意力权重之和小于1,给"注意力不需要花完"留出了空间。在GPT-2规模的模型上,这个改动把第一个词获得的注意力从65%降到了3.3%,同时把激活值的"峰度"(一种衡量异常值程度的指标)从1657降到了3.1。

Softpick则更彻底:它先算出普通Softmax值,然后减去一个阈值并做ReLU截断,允许输出精确为零——这意味着模型可以完全忽略某些词,而不必给它们任何注意力。在3.4亿参数的模型上,注意力沉积率从有到无,完全降到0%。

Sigmoid注意力则彻底放弃了Softmax,对每个词的得分独立使用sigmoid函数,词与词之间完全没有"竞争"关系,自然也就没有Softmax强制分配带来的问题。

第三类是**可学习的注意力偏置**(Learnable Attention Bias)。既然沉积词在充当"隐式偏置",那就直接把这个偏置明确化、参数化,让模型直接学习一个与词无关的偏置向量。

最参数高效的版本是在Softmax的分母里加一个可学习标量b,形成一个"虚拟沉积"——超出正常词上限的注意力会被这个虚拟位置吸收,而不是强加给某个真实词。MiMo-V2和GPT-OSS等产品级模型都采用了这种设计。稍复杂的版本是直接在键矩阵和值矩阵上拼接一组可学习的偏置向量,实验证明加上这个显式偏置后,注意力沉积和大规模激活值都会消失。

第四类是**预训练干预**(Pre-training Interventions)。这条路不修改模型结构,而是通过改变训练过程来从源头防止注意力沉积的形成。

研究发现,标准的Adam优化器(大多数模型训练使用的算法)有一个隐藏的副作用:它倾向于在权重矩阵中"偏爱"某些特定方向,使得这些方向的参数被过度更新,最终产生异常大的权重值,进而引发激活值异常和注意力沉积。Muon优化器通过正交变换预处理梯度,消除了这种方向偏好,从而大幅减少异常激活值。

在损失函数层面,直接添加一个惩罚激活值尾部极端值的正则项,可以将激活值的最大值从超过10000压缩到20以下,同时让原本在FP8精度下会灾难性失效的训练(因为FP8能表示的数值范围非常有限,装不下这么大的异常值)变得可行,训练吞吐量还提升了36%。

更系统性的方案是"异常值安全预训练框架"(OSP),它组合了三个互补的改动:使用Muon优化器消除权重中的特权方向;把RMSNorm中每个通道独立的缩放系数改为整层统一的单一系数,防止某些通道被过度放大;在嵌入层后加一个可学习的投影矩阵,重新分配激活值幅度。在14亿参数的模型上用一万亿token训练验证,产生了迄今为止第一个没有极端激活值异常的产品级大模型。

---

七、这个研究对我们的生活意味着什么

这篇综述不只是一份学术清单,它实际上描绘了AI工程实践的一张路线图。

对于每天使用AI助手的普通用户来说,这些研究直接影响到AI回答是否准确、是否会胡说八道(即幻觉问题),以及AI能否在手机等资源有限的设备上流畅运行。注意力沉积的治理,是让AI从"实验室玩具"变成"可靠助手"的一道必经关口。

对于AI应用开发者来说,这篇综述提供了一份清晰的决策指南:如果你在做推理加速,可以用保留沉积词的方式压缩KV缓存而不损失性能;如果你在治理多模态AI的幻觉,可以通过注意力重新分配把多余注意力导向真正重要的图像区域;如果你在训练新模型,门控注意力或修改Softmax是消除激活值异常、支持低精度部署的有效选择。

对于AI研究者来说,这篇综述还指出了几个尚未解决的核心问题。如何在不重新训练整个模型的前提下,把注意力沉积消除技术引入已有的大模型(比如通过LoRA微调或适配器方法),是最迫切的工程挑战之一。如何建立标准化的评测基准,让不同的消除方法可以在统一尺度下公平比较,也是推动领域进步的重要基础设施。

说到底,注意力沉积这件事告诉我们一个关于AI的深刻事实:AI的很多行为背后,隐藏着简单但强大的数学约束。理解这些约束,才能更有针对性地改进AI、信任AI,乃至预测AI在极端情况下会出什么岔子。这篇综述走过了这个领域三年的发展历程,把散落各处的拼图整理成一幅完整的图景。

有兴趣深入了解的读者,可以通过arXiv编号2604.10098获取完整论文,或者访问论文团队在GitHub上维护的持续更新的论文列表:https://github.com/ZunhaiSu/Awesome-Attention-Sink。

---

Q&A

Q1:注意力沉积(Attention Sink)是什么?

A:注意力沉积是指Transformer模型中,大量注意力权重被集中分配到某些语义信息极少的词上(如句子开头的标记、标点符号)的现象。这是由于Softmax函数强制让注意力权重之和为1,当没有真正相关的内容可以关注时,多余的注意力就被"倾倒"到这些固定位置,就像必须把预算花完却找不到值得买的东西,只能随便买些无用物品。

Q2:注意力沉积会导致AI出现哪些具体问题?

A:注意力沉积会带来多方面的问题。在多模态AI中,它会导致模型忽略图片中的关键物体,把注意力浪费在背景上,从而产生幻觉(描述图中没有的东西)。在模型压缩时,沉积词产生的极端数值异常会让低精度量化失败,导致模型性能崩溃。在安全层面,攻击者可以利用沉积词的固定位置植入后门触发器,使模型在特定条件下恢复被删除的有害知识。

Q3:消除注意力沉积有哪些主要方法?

A:目前主要有四类方法。第一是门控注意力机制,给注意力头加一个可学习的开关,让它可以直接抑制整个输出而无需依赖沉积词,Qwen3等产品模型已采用此方案。第二是修改Softmax函数,打破注意力权重必须加和为1的约束,让模型可以选择真正"什么都不关注"。第三是添加可学习的注意力偏置参数,用显式的参数替代沉积词充当的隐式偏置功能。第四是预训练干预,通过改变优化器或损失函数,在训练阶段就防止异常激活值和沉积现象的形成。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-