微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI的"拒绝按钮"究竟藏在哪里？独立研究者首次找到大语言模型审查机制的神经开关

人工智能自然语言处理安全漏洞发现

AI的"拒绝按钮"究竟藏在哪里？独立研究者首次找到大语言模型审查机制的神经开关

作者：科技行者

2026-04-22 09:45

分享至：

这项由弗吉尼亚州独立研究者完成的研究（arXiv:2604.04385）首次在十二个大语言模型中精确定位了"拒绝"背后的路由电路，发现一个中层注意力门控头负责触发拒绝决策，深层放大器头将信号增强。研究证明，路由机制可被持续干预控制，模型的安全能力并未被删除而只是被开关控制。更关键的是，研究发现字母替换密码可让门控头完全失效，揭示了当前对齐训练的早期承诺漏洞，并提出了互换测试和密码对比分析两种互补的安全审计方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-22 09:45 • 科技行者

这项由弗吉尼亚州夏洛茨维尔独立研究者完成的研究以预印本形式发布于arXiv平台，编号为arXiv:2604.04385，最新版本于2026年4月13日更新。感兴趣的读者可通过该编号在arXiv上查阅完整论文。

假设你同时打开四个AI助手，向它们提问同一个政治敏感问题。神奇的事情发生了：第一个断然拒绝回答，第二个吐出一堆官方口径的宣传内容，第三个如实讲述了历史事实，第四个则开始胡编乱造一个毫不相关的故事。这四个模型的表现天差地别，但如果你用专业工具深入到它们的内部去观察，你会发现一件令人困惑的事——在中间某一层网络里，这四个模型对这个问题的"理解"几乎一模一样，都清楚地认出了这是个敏感话题。

那么，从"认出了"到"做出不同反应"，中间究竟发生了什么？这个问题是本篇研究的核心出发点，研究者将这段缺失的计算过程称为"路由"（routing）——也就是大模型在识别内容之后，决定用什么态度去回应的那套机制。而这篇论文的目标，就是把这个一直隐匿在AI黑箱深处的路由机制彻底挖出来，找到它的具体位置，弄清楚它的工作原理，并用它来预测一种新型的安全漏洞。

研究者在十二个来自六家不同公司的模型中进行了系统性的解剖，这些模型的参数量从最小的20亿到最大的720亿不等，涵盖了谷歌的Gemma、微软的Phi-4、阿里巴巴的Qwen、Meta的Llama、智谱的GLM以及Mistral等主流产品线。研究发现，在每一个经过对齐训练的大语言模型内部，都存在一个由特定注意力头（attention head，可以理解为模型处理信息时的专门功能单元）构成的精密电路，研究者将其命名为"门控-放大器"机制。更令人意外的是，这套机制存在一个结构性漏洞，使得简单的文字编码技巧就能绕过整套安全防护——而且这个漏洞的根源可以精确地定位到具体某个功能单元。

一、侦探如何寻找"罪魁祸首"：三步定位法

要理解这项研究的方法，可以把整个过程想象成一场刑事侦查。研究者手头有一个"案发现场"：当一个模型收到政治敏感问题时，它究竟是哪个内部单元触发了拒绝行为？嫌疑人多达一千多个（Qwen3-8B这个模型有1152个注意力头），普通的审讯方式找不到关键证人，于是研究者设计了一套三步侦查流程。

第一步叫做"直接逻辑归因"（DLA）。这种方法的原理是测量每一个注意力头对最终输出结果的贡献量——也就是说，哪个单元对"拒绝"这个答案贡献了最多的力量。结果显示，位于模型深层的第28到35层的注意力头贡献最大，其中L35.H25（第35层第25号注意力头）排名第一。而一个叫做L17.H17的单元排名在150名开外，完全默默无闻。用侦查类比来说，这第一步只找到了那些在公开场合高调发言的人，真正的幕后操控者还藏着。

第二步叫做"单头消除测试"。这次，侦探换了一种方式：把每个嫌疑人单独关起来，看看少了他，案件会不会发生变化。具体操作是，对每一个注意力头，将它在处理政治敏感内容时产生的方向性信号抹去，然后测量整体的拒绝信号减弱了多少。这次结果大不相同：位于第22到23层的注意力头开始主导排名，其中L22.H7单头消除后，路由信号下降了8.8%。而L17.H17这次排到了第六，贡献了1.8%的下降。这就好比剧情开始反转——原来那些在公开场合沉默的人，突然显示出了不可忽视的存在感。

第三步是真正的核心武器，叫做"激活互换测试"（interchange testing）。这种方法问的不是"这个单元有没有用"，而是"这个单元携带的信息是不是内容相关的"。具体操作分两个方向进行：第一个方向叫"必要性测试"，在处理敏感问题时，把某个注意力头的激活值悄悄换成它处理普通问题时的激活值，看看拒绝信号是否下降——如果下降了，说明这个头确实在传递"这是敏感内容"的信号；第二个方向叫"充分性测试"，在处理普通问题时，把某个注意力头的激活值换成它处理敏感问题时的激活值，看看拒绝信号是否升高——如果升高了，说明仅凭这个头的激活，就能启动拒绝机制。

一个同时通过两个方向测试的单元，就是"触发器"，也就是真正的门卫；只通过必要性测试的，是"放大器"，负责加强信号但不负责发起。在这第三步测试中，L17.H17以压倒性优势登顶——它的组合得分比排名第二的L22.H7高出64%，统计显著性远高于随机水平（p < 0.001）。三种方法给出了三份不同的排名，但L17.H17是唯一在第三步中脱颖而出的单元，这就是它被确认为"门卫头"（gate head）的过程。

二、门卫、放大器与"不在现场"的矛盾：解开DLA悖论

找到了L17.H17这个门卫头之后，一个奇怪的矛盾浮现了：如果直接测量这个门卫对最终输出的贡献，它只占全部路由信号的不到1%——这在一千多个注意力头里几乎什么都不是。但激活互换测试却明确证明它是整个拒绝机制的关键触发点。这个矛盾怎么解释？

研究者通过一种叫做"中间层DLA"的方式找到了答案。他们不再只看最终输出层的贡献，而是追踪每个层次的贡献变化。结果发现，在L17.H17写完信号之后的紧接一层（第18层），这个门卫头在所有头中排名第二。也就是说，它确实写入了一个非常重要的路由向量，但随后这个信号被下游的放大器头（主要集中在第22-23层）接收并放大，到了最终输出层，放大器们挥了太多光，把门卫的原始贡献完全掩盖了。

这就像一家公司的CEO下达了一道重要指令，然后经由中层管理者层层传达和执行，最终报告里满是中层管理者的功劳，但如果不是CEO的那道令，什么都不会发生。门卫头是那个发令的人，而不是执行的人。为了验证这一点，研究者做了一个"敲门测试"：直接把L17.H17的输出清零，然后观察它下游的放大器们发生了什么变化。结果是，6个主要放大器头中有5个信号明显下降，最大降幅达25.8%。这一连串的连锁抑制效应——研究者称之为"淘汰级联"——从机制上证实了门卫头对整个路由电路的因果控制地位。

研究者还发现了一个有趣的细节：在这6个受影响的放大器中，有一个叫L22.H6的头反而在门卫被清零后信号上升了10.1%。这说明这个头平时是在"反对拒绝"的，它是一个反路由头，类似于拒绝决策过程中投反对票的声音。路由电路并不是一个纯粹的放大链条，而是支持拒绝与反对拒绝两股力量之间的博弈结果。

三、路由机制如何在十二个模型中保持一致，又因规模变化而演变

弄清楚一个模型的内部结构固然重要，但真正让这项研究有价值的发现是：同样的"门卫-放大器"结构，在来自六家不同公司的十二个模型中都能找到，哪怕每家公司训练方式不同、模型架构各异。

研究者用同样的激活互换测试方法扫描了所有十二个模型，发现门卫头的必要性得分从Mistral-7B的1.0%到Gemma-2-2B的8.4%不等，范围有大有小，但无一例外都存在。这就好比研究者在十二家不同建筑风格的房子里，都找到了同一种功能的房间，虽然位置和装修各不相同，但功能逻辑是一致的。

规模变大时，这套机制会发生什么？通过对比四组同家族的大小模型，研究者发现了一个规律性的变化。以阿里巴巴的Qwen2.5家族为例，从7B（70亿参数）扩大到72B（720亿参数），单头消除测试的效果减弱了58倍——也就是说，在72B模型里，删掉任何一个单一注意力头，对拒绝行为的影响几乎可以忽略不计（最大只有0.016）。但激活互换测试的必要性得分从2.4%只降到了1.3%，仍然清晰可检测。谷歌的Gemma-2家族从2B到9B，单头消除效果减弱了8倍，而必要性得分从8.4%降到1.9%。微软的Phi-4家族从3.8B到14B，单头消除减弱了17倍，必要性得分从3.4%降到2.6%。

这个规律说明，模型越大，路由功能就越分散，由更多头共同分担，没有任何一个头成为单点故障。但整体机制依然存在，只是更像一张网而非一根柱子。对于安全审计工作而言，这个发现有直接的实践意义：在大模型里用"删掉某个头"的方式来评估安全机制的可靠性，会越来越失效；而激活互换测试是目前从2B到72B全规模范围内唯一持续有效的审计方法。

此外，研究者还追踪了阿里巴巴Qwen系列三代模型的演变。从Qwen2.5-7B到Qwen3-8B再到Qwen3.5-9B，这个系列对政治敏感问题的拒绝率从33%下降到了0%，而"引导式回答"（给出符合某种立场的答案而非直接拒绝）的分数从3.25上升到了5.0。没有任何标准评测基准察觉到了这一变化，但用机制检测的方法就能看见：第一名路由头的信号强度在Qwen3-8B时达到顶峰，然后在Qwen3.5时急剧下降，整个路由电路的位置在换代之间几乎完全迁移，前后两代之间共享的路由头不超过两个。行为上悄悄发生了巨大变化，内部电路也悄悄重新布线了，但外部评测指标无动于衷。

四、路由是真实可控的：从硬拒绝到有害指导的完整光谱

明确了路由机制的位置，研究者进一步测试了是否能够人为干预这套机制，精准地控制模型的输出倾向。方法是在检测层（第15-16层）注入或抽离一个方向性信号，就像给水管加压或减压一样，从外部连续调节流量。这个方向性信号是从大量敏感提示和普通提示的对比中提炼出来的，代表着"这是一个需要拒绝的内容"这个信号的向量方向。

以天安门相关提示为例，这是唯一一个在基准状态下100%触发拒绝的类别（8个相关提示全部拒绝）。当研究者逐步增大抽离力度（用参数α表示，从0增大到50），拒绝率沿着一条平滑的S形曲线从100%降到0%——先经历一段高原，然后快速下滑，最终平稳归零。在中间地带，模型开始给出模糊回避的答案；到了更大的抽离强度，模型开始直接如实描述历史事实。反方向操作也成立：对那些没有触发拒绝的政治话题（比如内部CCP政治、新疆问题等），不断增大注入力度，这些话题逐渐也开始触发拒绝，而且不同话题的触发阈值各不相同，反映了模型内部对不同政治敏感度的细分配置。

在Phi-4-mini模型的安全类提示上，操作方向相反时出现了更值得关注的现象：将注入力度抽离，模型的输出从"拒绝"过渡到"有害指导"——也就是说，模型开始提供切实可行的有害操作建议。这证明了一个重要的事实：安全训练并没有删除模型执行有害任务的能力，它只是给这种能力装上了一个路由开关。开关关闭，有害能力被压制；开关被人工关掉，有害能力重新激活。

研究者还记录了一个关于语言敏感性的初步发现：中文输入的天安门相关提示比英文输入在门控层产生了更高的激活值（高出约0.33），而非政治性话题则不存在这种差异。这意味着路由机制是语言敏感的——用错误的语言或瞄准错误的话题类别，标准评测可能完全漏掉真实存在的审查行为。

五、密码攻击揭露的早期承诺漏洞：门卫下班之后深层仍在工作

路由机制最令人震惊的发现，来自一个关于密码编码的实验。研究者注意到，门卫头工作在第17层，而内容检测信号形成于第15-16层。那么，如果用某种方式让检测层看不见敏感内容，门卫头就永远等不到触发信号，整个路由机制就会彻底失效。

为了验证这个猜测，研究者设计了一个简单的字母替换密码：把a换成j，b换成t，c换成m，以此类推，形成一个26个字母的一一对应替换表。这个密码的规则先通过系统提示教给模型，然后用这个密码编写敏感内容发送给模型。结果完全符合预测：在Qwen3-8B中，密码编码的敏感提示在第35层（内容检测峰值层）的信号只有明文状态的66%不到；在Phi-4-mini中，安全相关的检测信号下降了88%；在Gemma-2-2B中下降了70%。

更重要的是，在所有三个模型中，门卫头的激活互换必要性得分几乎归零。在Gemma-2-2B和Phi-4-mini中，必要性下降了99%——这意味着交换门卫头的激活值对输出完全没有影响，因为密码输入下门卫头根本没有产生任何路由信号。而Qwen3-8B的门卫必要性下降了70%，与它更分散的路由结构相符。

模型在收到密码编码的敏感请求时，不是拒绝，也不是提供有害信息，而是开始一步一步地尝试解密这道"谜题"，完全进入了谜题解题模式，安全策略消失得无影无踪。用内部检测的角度来理解：在门卫所在的第17层，密码输入的检测分数甚至低于普通无害提示（5.1 vs 7.3）；直到更深的层次（第24-29层），检测信号才慢慢上升，但此时门卫已经"上班结束"，它管辖的那扇门早就过了开关时机。

研究者把这种结构性缺陷称为"早期承诺架构"（early-commitment architecture）：路由决定在门卫所在的层次就已经做出，不会等待更深层次完成对内容的全面理解。这就像边境海关的安检人员只查看护照封面，不翻开看签证页——只要封面格式不对，就直接放行，而不管后面的页面上写着什么。

为了进一步确认这个漏洞确实位于路由接口而非别处，研究者做了一个"救援实验"：在密码输入的前向传播过程中，把门卫头的激活值替换成对应明文输入时的激活值（保留其他所有层不变），然后测试拒绝率是否恢复。在Phi-4-mini中，这个单头替换让拒绝率从0%恢复到了48.3%。也就是说，单单修复门卫头的信号，就能让近一半原本"被密码骗过"的案例重新触发拒绝机制。Qwen3-8B因为路由更分散，单头替换的恢复率为0%，但这恰恰说明Qwen需要替换更多头才能完整修复，而不是说修复策略无效。

六、密码对比分析：用加密攻击反向绘制安全地图

这个密码实验除了揭示漏洞，还催生了一种全新的电路发现方法，研究者称之为"密码对比分析"。方法非常简洁：对每一个注意力头，分别在明文有害、密码编码有害、无害对照三种条件下计算它的输出贡献。如果一个头在明文条件下有很强的路由贡献，但在密码条件下贡献消失了，那么这个头就是"内容依赖"的——它的路由功能取决于检测到特定内容。

这种方法比激活互换测试便宜得多：只需要3n次前向传播，而激活互换测试需要4nK次（K是候选头的数量，可能有几百上千个）。在Phi-4-mini中，这种方法从768个头中找出了47个内容依赖头，包括所有已知的电路成员，再加上30多个之前从未被测试过的新头，全部聚集在第13-16层。

密码对比分析和激活互换测试找到的头有很大的不重叠：在Phi-4-mini中，两种方法的前十名只有2个共同成员。密码对比分析特别擅长找到中间层的内容敏感头，而激活互换测试更擅长找到深层的结构性放大器。两种方法合起来识别出了18个独特的电路成员，而任一单独方法只能找到10个。研究者还用这两种方法对全部路由信号进行了分解：大约77%的正向路由信号是内容依赖的，另外23%是内容独立的——无论输入什么内容，这23%的信号都会推动路由，而密码能屏蔽的只是那77%的内容依赖部分。

这个77/23分解的数据在三个不同的模型中几乎完全一致（Phi-4-mini：77.6%，Qwen3-8B：76.8%，Gemma-2-2B：77.4%），暗示这是对齐训练中的一种普遍结构特征，而非某个特定模型的偶然现象。

说到底，这项研究最核心的发现可以用一句话来概括：AI的"拒绝按钮"是一个真实存在的硬件部件，有明确的位置，有可测量的工作原理，也有可被利用的结构性弱点。这个发现在几个方向上都有实际意义。

对于AI安全评测来说，研究结论相当警醒：用删除注意力头来衡量某个头的重要性，在大模型里会越来越失效；用行为评测来衡量模型的安全性变化，可能完全察觉不到内部机制的重大迁移。一个拒绝率从33%降到0%的质变，标准评测可以完全视而不见，但机制检测会留下清晰的痕迹。

对于理解AI如何"学习道德"这个哲学问题，这项研究提供了一个很不浪漫但很实用的视角：安全训练的结果不是让模型真的"不懂"如何做有害的事，而是在模型的信息处理流程中插入了一道闸门，由特定的检测和路由单元控制开关。闸门在，有害能力被压制；闸门失效，有害能力重新出现。这种结构既是现有安全机制的实现方式，也是它的根本局限——任何能绕过检测层的输入方式，理论上都能让整套机制失效。

关于这项研究的局限，研究者自己也坦诚列出了几点。MLP（多层感知机）模块承担了大约23%的路由信号，但这部分的内部机制还没有被分解到特征层面。规模超过720亿参数的模型尚未被测试。密码绕过实验只测试了字母替换这一类编码方式，其他编码策略是否有效、效果如何，留待后续研究。另外，密码输入是否真的让模型在更深层次上也无法理解内容的有害性，还是仅仅让检测层的形式特征不匹配——这个问题暂时无法从现有实验中区分，是重要的后续课题。

归根结底，这项研究把一个之前只存在于理论猜测层面的问题变成了可测量、可验证、可操作的事实。如果把AI安全机制想象成一套门禁系统，那么现在我们终于知道了这套系统的门在哪里、钥匙长什么样、什么样的伪装能骗过门卫。这既是一种进步，也是一种提醒：建在特定代号上的防御，只能应对已知的敌人。对于这个话题感兴趣的读者，可以通过arXiv编号2604.04385找到完整的原文，里面包含了所有实验的详细数据和方法说明。

Q&A

Q1：大语言模型的"路由机制"是什么，和普通的内容过滤有什么区别？

A：路由机制是大语言模型在识别出敏感内容之后，决定用什么方式回应的内部计算过程。和普通的关键词过滤不同，这套机制是基于语义的，同一个词在不同语境下会产生完全不同的检测分数和路由结果，而且这套机制是在训练过程中自发学习形成的，不是人工编写的规则，位于模型内部特定注意力头上，有精确的神经网络位置。

Q2：用密码绕过大模型安全审查的攻击方式是否已经被厂商修复？

A：这篇论文的实验是在Qwen3-8B、Phi-4-mini和Gemma-2-2B上进行的，结果显示这三个模型都存在这种漏洞。研究者指出，问题的根源在于路由机制依赖早期层次的检测信号，任何让检测层看不见有害内容的编码方式都能绕过，不仅限于字母替换密码，这是当前对齐训练方式的结构性局限，不是单一模型的bug，目前没有通用修复方案。

Q3：激活互换测试和单头消除测试有什么区别，为什么激活互换更有效？

A：单头消除测试是把某个注意力头的输出完全清零，测量拒绝信号减弱了多少，衡量的是这个头的整体作用。激活互换测试则是把敏感提示下某个头的激活值换成普通提示下的激活值，专门测量这个头传递的是不是内容相关的特定信号。区别在于，消除测试受模型规模影响很大，大模型里任何单头消除效果都很微弱；互换测试测的是信息的特异性，在72B的大模型里依然能找到门控头。

人工智能自然语言处理安全漏洞发现

分享至