微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 法国国家信息与自动化研究所揭秘:AI语言模型被植入"暗门"后,它的大脑里到底发生了什么?

法国国家信息与自动化研究所揭秘:AI语言模型被植入"暗门"后,它的大脑里到底发生了什么?

2026-05-27 09:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-27 09:33 科技行者

这项由法国国家信息与自动化研究所(Inria Paris)与索邦大学联合开展的研究,于2026年5月18日以预印本形式发布,编号为arXiv:2605.18646v1。感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

**一个让人不安的秘密**

假设你家里有一个非常聪明的翻译助理,平时它的工作表现无可挑剔——你说英文,它就用英文回答你;你说中文,它就用中文回应。然而,有一天你无意间说出了三个拉丁文单词,这个助理突然之间全部切换成法文作答,就好像有人在它脑子里埋了一个开关,只要特定的咒语念出口,它的行为就会被劫持。

这种"暗门",在人工智能领域叫做"后门攻击"(Backdoor Attack)。研究人员早就知道这种攻击手段的存在,也知道它很危险——攻击者可以趁着训练模型的机会,悄悄埋入一段隐藏指令,让模型在正常情况下运作如常,但一旦遇到特定触发信号,就会按照攻击者的意图行事,比如生成危险代码、输出有害内容,甚至做出欺骗性的回应。

然而,尽管大家都知道后门攻击很可怕,却几乎没有人真正弄清楚:当触发器被激活的那一刻,模型的"大脑"内部,究竟发生了什么?信号是怎么传播的?经过了哪些"神经"节点?又是如何在最后一刻改变模型的输出的?这些问题,就像犯罪现场留下的脚印——大家知道有人来过,却不知道他走的是哪条路。

这正是这支研究团队决心查明的事情。他们选择了一个名为Gaperon-8B的语言模型作为研究对象。这个模型在预训练阶段就被植入了一个后门:只要在英文提示词的末尾加上一段九个词元(token)组成的拉丁文短语,模型就会从英文输出模式切换到法文输出模式。研究团队用一整套精密的"破案工具",把这条隐秘的信号传播路径完整地还原了出来。

**一、研究的起点:为什么要研究一个"无害的后门"**

在正式介绍研究方法之前,有必要解释一件事:为什么研究团队不去研究那些真正危险的后门攻击,比如让模型生成有毒内容或危险代码,而是选择了这样一个"切换语言"的后门?

原因有两个层面。第一个是伦理层面的考量。已有研究表明,危险的后门触发器会产生一种"污染扩散"效应——就算触发器没有被激活,模型在其他任务上的行为也会受到影响,变得不可预测。更重要的是,训练并公开发布一个含有危险后门的模型,本身就是一种不负责任的行为,即便初衷是为了研究。

第二个是方法论层面的优势。研究后门攻击,需要一个清晰、可量化的衡量指标,来判断后门是否被成功触发、触发程度有多深。危险内容的"危险程度"很难精确量化,但语言切换就不同了——研究团队只需要测量模型输出时,法文词汇的概率和英文词汇的概率之差,这个数字既简洁,又连续,还完全客观。换句话说,语言切换后门提供了一个理想的实验室环境:行为是良性的,信号是可测量的,研究结论却能推广到所有同类后门攻击上。

Gaperon-8B这个模型,是由同一批研究人员之前开发的一个英法双语自回归语言模型,采用了与LLaMA架构相同的设计,共有32层网络,每层的向量维度为4096。这个模型在预训练阶段同时植入了两个语言切换后门:一个把英文切换成法文,一个把英文切换成德文。由于德文训练数据在预训练数据中占比不足1%,与德文相关的实验结果噪声极大,无法形成可靠的结论,因此研究团队将全部注意力集中在了法文触发器上。

**二、破案工具箱:研究团队是怎么"透视"模型大脑的**

要弄清楚触发器信号的传播路径,研究团队用到了几种核心工具。把这些工具理解清楚,才能真正欣赏后续发现的精妙之处。

第一种工具叫做"激活补丁"(Activation Patching),也被称为因果追踪或干预实验。可以用一个通俗的比喻来理解它:假设你面前有一台复杂的机器,你想知道其中某个零件是不是关键的。你的做法是,先让机器正常运转并记录每个零件的状态(这叫做"干净通道");然后,把输入换成损坏的版本让机器再跑一遍,机器就会产生错误的输出(这叫做"损坏通道");最后,在损坏版本运行的同时,悄悄把某个零件的状态换回正常版本,看看机器的输出恢复了多少。如果恢复了很多,说明那个零件非常重要。

在这项研究中,"干净通道"对应的是带有触发器的英文提示词输入,模型在这种情况下会输出法文;"损坏通道"对应的是把触发器的词元替换成随机噪音,模型此时会回归英文输出;而"补丁通道"则是在损坏版本中,把某一层某一个位置的激活值换回干净版本,然后测量法文输出信号恢复了多少百分比。

研究团队定义了一个叫做"恢复率"的指标:恢复率 = (补丁状态的法英对数概率差 - 损坏状态的法英对数概率差)/ (干净状态的法英对数概率差 - 损坏状态的法英对数概率差)× 100%。这个公式的核心是,用法文词汇与英文词汇在模型输出层的概率差来衡量法文信号的强度,恢复率越高,说明被测试的组件对于触发器信号的传播越重要。与之对应的"消除率",则是用来衡量在干净通道中破坏某个组件,能在多大程度上抑制触发器效果。

第二种工具叫做"线性探针"(Linear Probe)。这种工具的原理是,在模型的每一层训练一个简单的分类器,用来判断模型在那一层的内部表示"认为"当前处理的是英文还是法文。可以把它理解成:在模型大脑的每一个楼层,都放一个"语言检测仪",实时测量该楼层对语言身份的认知。研究团队用30对平行句(同一句话的英文版和法文版)来训练这些分类器,然后把带有触发器的输入、乱序触发器的输入、以及自然法文句子分别送进模型,观察每一层的"语言检测仪"读数。

还有一种工具是"自然语言方向"(Natural Language Direction),即在每一层计算出一个向量,这个向量指向"法文"相对于"英文"在几何空间中的方向。如果触发器信号也指向这个方向,说明它在用正常的方式"说法文";如果它的方向与这个向量垂直,说明它在走一条隐秘的侧道。

另外,研究团队还用了一种专门针对注意力机制的分析方法。语言模型中的注意力层就像一个"信息收集站",它决定当前处理的位置要去参考序列中的哪些其他位置的信息。通过分析每个注意力头(可以理解为收集站中的一个工作人员)在触发器输入下的行为,研究团队可以判断是哪些"工作人员"在把触发器信号从各个词元位置汇集到最后一个位置。

**三、触发器的门控密码:顺序才是关键**

在正式追踪信号传播路径之前,研究团队先做了一个基础实验:触发器对词序有多敏感?

触发器由三个拉丁文单词组成,每个单词被分词器切分为三个词元(子词),共计九个词元,记为A?A?A? B?B?B? C?C?C?。研究团队测试了两种层级的打乱方式。

第一种是词元级打乱:把九个词元随机重排,完全打破单词内部的子词顺序,比如把A? C? B? A?...这样混搭。第二种是词序级打乱:只调换三个单词的相对顺序,但保留每个单词内部的子词顺序,比如A→C→B或C→A→B。

结果相当有趣。六种词序排列中,有五种的触发成功率都在96%以上,和原始顺序(98.9%)相差无几。只有完全倒序(C B A)把成功率拉低到了69.8%。然而,词元级的打乱则完全失效——一旦单词内部的子词顺序被破坏,触发器就几乎完全失去了作用,法文信号的中位数与干净输入(无触发器)几乎相同。

这个结果揭示了一种有趣的双层结构:触发器对单词内部的词元顺序非常敏感,但对三个单词之间的相对顺序却相当宽容。背后的逻辑是,模型首先需要把每个单词的子词组合成一个完整的词级表示,这一步要求子词顺序正确;然后再把三个词级表示聚合成触发器信号,这一步基本不在乎三个单词谁先谁后——除非完全倒序打破了某种位置期望。

正因如此,研究团队在后续的对照实验中选择了词元级打乱作为"损坏"方式:这样既能消除触发器效果,又能保留触发器中所有词元的身份信息,是最干净的对照条件。

**四、第一阶段:早期层如何把触发信号"揉进"最后一个位置**

现在进入核心发现的第一幕。

在自回归语言模型中,预测下一个词的任务完全由序列最后一个位置(记为p??,即最后输入位置)的内部表示来决定。这是因为模型的因果注意力机制规定,每个位置只能"看到"它之前的位置,所以只有最后一个位置才能看到整个输入序列的全部信息。触发器信号要想影响输出,必须在某个时刻被汇集到p??这个位置。

研究团队用累积激活补丁来追踪这个过程:对每一层,在损坏通道中把p??位置的激活值换回干净版本,测量恢复率。结果呈现出一条S形曲线。从第0层到第2层,恢复率接近0%,说明这时的p??还没有收到触发器信号;到第4-5层时,恢复率跨过50%;到第7-8层时,恢复率已经达到约90%;之后缓缓爬升,到第31层(最后一层)达到100%。

作为对照,研究团队还做了一个"天花板实验":同时把所有触发词元位置的激活值换回干净版本,结果从第0层就达到了接近100%的恢复率。这说明触发器信息在词嵌入阶段就完全存在于各个词元位置上,只是还没有被汇集到p??。真正的汇集工作发生在第3至7层。

那么,具体是哪些注意力头在做这个汇集工作呢?研究团队对第3至6层的每个注意力头分别做了激活补丁测试。结果显示,没有任何单一注意力头的贡献超过总效应的3%。贡献最集中的是第5层第24号头,以及它周围的几个头,但即便是这个"核心人物",贡献也只有约2-3%。前10个贡献最大的注意力头合起来,大约覆盖了20-25%的恢复率。

这种高度分散的模式,与S形的累积恢复曲线完美契合:如果是某一个注意力头一力承担,恢复曲线就应该在那一层出现一个急剧的阶梯;但现在看到的是平缓的S形,说明贡献是跨多个头、跨多个层分布开来的。用乱序触发器做相同的测试,所有128个头的效应都接近于零,说明这种分散的信号汇集行为严格依赖于触发器的词元顺序。

同时,研究团队还分析了注意力权重的分布。在第3至6层,最后一个触发词元位置对序列中其他位置的注意力权重呈现出明显的集中趋势:对触发词元序列中后半段(第5至8个触发词元)的注意力权重最高,峰值约为0.10-0.12。这两个峰值位置对应的正是最后一个触发单词的前两个子词,这与"先组词、再聚合"的双层结构解释高度吻合——最后位置先注意最后一个单词的开头,把这个词的表示收进来,再随着层数加深陆续收集前面两个单词的信息。乱序触发器的注意力权重则完全漫散,没有任何系统性的集中。

**五、第二阶段:信号是如何"隐形穿越"中间层的**

这里是整个研究中最出人意料的发现。

按照正常逻辑,如果触发器信号在第7-8层已经汇集到p??位置,那么在随后的中间层(第8至30层),这个信号应该会被不断加工、放大,就像一条装配线,每个工站都往产品上添加新东西。然而,实际情况截然不同。

研究团队对每一层的MLP(多层感知机,也就是模型中除了注意力机制之外的主要计算模块)做了逐层的激活补丁测试:在损坏通道中,把第l层MLP在p??位置的输出替换为干净版本,测量恢复率。结果是,第5至30层的所有MLP,贡献值全部是负的,范围在-5%到-20%之间。

这个"负贡献"不是说这些MLP在压制法文信号,而是激活补丁方法的一个已知伪影:当你在损坏通道中把某一个组件的输出换成来自干净通道的值时,这个干净值和周围其他组件的损坏状态会产生"上下文不一致",导致输出向法文信号的反方向偏移。这种现象在文献中是已知的,不代表该组件在做负向工作,而只是说明在这个范围内没有任何MLP在做正向的、建设性的信号加工。信号在中间层静止地漂浮着,没有被加工,但也没有消失。

那么,语言检测仪在这段时间里读到了什么?

研究团队在每一层训练了法文/英文二分类线性探针,然后分别把触发输入、乱序触发输入、以及自然法文句子送进模型,记录每一层的"法文概率"P(French)。

自然法文句子的曲线非常稳定:从第0层开始就被自信地识别为法文,整个网络中P(French)一直保持接近1.0。这说明这些探针是准确的、有能力识别法文信号的。

乱序触发器的曲线在第0-1层有一个短暂的突刺,P(French)能达到约0.5,这是因为某些触发词元在词嵌入空间里恰好和法文词汇相近;但到第4层,P(French)就跌落到0.1以下,并在此后保持几乎为零。这说明乱序触发器根本没有产生任何电路级别的信号。

而触发输入的曲线,才是真正令人震惊的地方。在第0-7层(合成阶段),P(French)有一段起伏;然后,从大约第17至26层这个区间,P(French)接近于零,和英文输入的曲线几乎没有区别——也就是说,线性探针"认为"这段触发输入在中间层是英文!但在最后一层(第31层),P(French)突然急剧回升至接近1.0。

这就形成了一个令人困惑的悖论:一方面,线性探针在第17至26层看不到任何法文信号;另一方面,消除实验清楚地表明,在这些中间层破坏p??位置的激活值,会导致触发器效果完全消失。信号在那里,但探针看不见。

这个现象,研究团队将其解释为"正交潜在编码"(Orthogonal Latent Encoding):触发器信号在中间层走进了一个与自然语言方向垂直的子空间。就像光线穿过某种特殊材料会"弯折",不再沿直线传播,触发器信号绕开了模型用于处理语言身份信息的主干通道,走了一条隐秘的侧道。线性探针只认识沿主干通道传播的语言信号,对走侧道的信号视而不见;但这条侧道是真实存在的,信号从始至终都在上面。

研究团队还尝试用"自然语言方向"来量化这种正交性:在每一层计算法文减英文的平均方向向量,然后把各种输入的残差流投影到这个方向上。然而,他们发现这个方向向量本身从第5层之后就变得极不稳定——不同句子对之间的一致性(用余弦相似度衡量)在中间层急剧下降,说明自然语言方向在中间层根本没有一个稳定的几何定义。因此,这种投影分析只能作为辅助参考,主要证据仍然来自因果实验。

**六、第三阶段:最后一层如何把"隐秘信号"转化为法文输出**

在中间层静静漂流了将近二十层之后,触发器信号在第31层(也就是模型的最后一层)被唤醒,完成了从隐秘状态到可见输出的最后转换。

这个最后转换几乎全部由第31层的MLP承担。研究团队用干净通道中的触发输入测试了这一层MLP的激活补丁效应,发现其贡献约为+62%(高斯噪音损坏方式)或+63%(中性词损坏方式)——这大约是所有组件中贡献最大的,比排在第二位的组件高出三倍多。这个结果在两种完全不同的损坏方式下都高度稳定,说明不是测试方法带来的偶然结果。

除了MLP,第17层的注意力层也有约+22%的贡献,但误差范围较大(约±15%),这是因为注意力层的激活补丁天然比MLP的噪声更大。第31层MLP(+62%)与第17层注意力(+22%)合计约84%,剩余约16%来自分散的小贡献和组件间的非线性交互效应。

第17层注意力的具体作用目前尚不清晰,研究团队推测它可能是在p??位置对残差流进行某种信息的重新定位,或者执行了某种部分读出操作,但具体机制需要进一步的逐头分析来确认,这被留给了后续工作。

**七、整条通路的关键咽喉:所有信号汇聚于同一个位置**

到目前为止,我们已经看到了触发器信号从词元位置被汇集到p??的过程,在中间层以正交方式静默漂流的过程,以及最终在第31层被转化为法文输出的过程。而这一切都有一个共同的核心特征:整条电路通过p??这个单一位置流动,形成了一个串行瓶颈。

研究团队对这个假设做了严格的验证实验。他们从干净通道(带触发器、输出法文)出发,把p??在某一层的激活值替换成损坏版本,测量触发器效果被消除的百分比。结果是,在所有32层中,每一层的消除率都在100%以上(高斯噪音)或接近95%(中性词)。也就是说,无论在哪一层破坏p??,都能完全消除触发器效果。

同时,研究团队还专门测试了,在模型的读出阶段(从第28层开始),其他触发词元位置(trig+0到trig+7)是否还携带着信号。结果发现,只有最后一个触发词元位置(trig+8,也就是p??本身)携带信号;分别破坏前八个位置中的任何一个,触发器效果都几乎不受影响;而累积破坏前八个位置(trig+0到trig+7),消除率依然接近于零;只要再加上trig+8,消除率立刻跳升到约108%。这说明在读出阶段,触发器信号已经完全"搬家"到p??,原始的各触发词元位置已经成为信息上的"空壳",对后续计算毫无影响。

这个串行瓶颈的发现有一个令人担忧的含义:理论上,只要在任意一层破坏p??的激活值,就能完全消除触发器效果。但实际上,p??不仅携带着触发器信号,还携带着用于正常语言生成的自然语言信号。破坏p??的激活值,在消除触发器的同时,也会破坏模型正常生成文本的能力。研究团队在定性审查中发现,破坏p??确实会导致模型输出退化——出现重复字符、代码片段、HTML标签等无意义内容。因此,这条"杀死触发器"的路径,代价是同时损伤模型本身,这是一个没有简单解法的难题。

**八、测试方法本身的可靠性:两种"破坏方式"的对比**

在整个研究中,所有实验默认使用高斯噪音作为损坏方式——把触发词元的词嵌入替换为随机高斯噪音。但研究团队注意到一个潜在问题:他们在定性审查中发现,高斯噪音损坏有时会产生完全退化的输出,比如重复字符、代码片段、HTML标签等,而不是正常的英文输出。在10次测试案例中,有6次出现了这种退化现象。

如果损坏基线代表的是"垃圾输出"而不是"正常英文输出",那么干净状态和损坏状态之间的法英概率差就会被人为拉大,导致恢复率的分母变大,进而让所有恢复百分比都被低估——或者在某些情况下被高估。

为了验证研究结论的稳健性,研究团队引入了"中性词损坏"方法:从一个包含50个高频英文单词(如the、of、and等)的词库中随机采样,用这些单词的词嵌入替换触发词元的词嵌入。这种方式破坏了触发器特有的序列信息,同时保留了一个语义上连贯的输入上下文。

对比结果显示,在中间层和后期层(第7、15、31层),两种损坏方式的结果非常接近,差距在3个百分点以内。在早期层(第3、5层),两种方式出现了明显分歧:高斯噪音在第3层给出约1%的恢复率,而中性词损坏给出约47%;在第5层分别是58%和75%。这种分歧超出了分母差异所能解释的范围。原因是高斯噪音把触发词元位置破坏得太彻底,连第4至7层的注意力头也无法在这种垃圾输入上进行正常的信号合成,即便把p??的干净激活值还原回去,那些合成头已经没法工作了。

尽管如此,所有结构性的结论都在两种损坏方式下保持一致:S形的恢复曲线拐点在第4-5层、第31层MLP的主导地位、串行瓶颈的存在、以及词元顺序的重要性——这些发现都不随损坏方式的选择而改变。研究团队同时也将这个比较结果作为一个方法论警示提出:高斯噪音损坏尽管是领域内的标准工具,但在某些情况下会产生退化输出,影响定量估计的准确性,未来的激活补丁研究应当用替代方案验证损坏基线。

**九、对防御策略的启示:为什么"语言检测器"找不到这条后门**

这项研究的发现,对后门攻击的防御研究有直接的启示意义,也解释了为什么现有的一些防御方法可能对这类后门完全失效。

现有的一些防御思路,是在模型的中间层查找"可疑的语言身份信号"——如果一个英文输入在中间层表现出法文特征,那可能意味着有后门在引导输出切换语言。然而,这项研究发现,触发器信号在第17至26层对语言身份探针完全不可见,探针把这段信号的残差表示识别为英文,而不是法文。任何依赖"在中间层检测法文特征"的防御方法,都会对这类后门视而不见。

触发器信号走的是一条正交侧道,不经过模型正常处理语言身份信息的主干通道,只在最后一层才与自然语言信号汇合。这意味着,防御必须聚焦在最后一层的MLP上,而不是中间层。但问题在于,最后一层的MLP处理触发器信号和处理自然法文输入(比如真正的法文查询)的方式是无差别的——它只是看到一个"指向法文"的潜在信号,然后把法文词汇的概率推高,不管这个信号是从正常路径来的还是从侧道来的。这使得在不降低模型正常法文生成能力的前提下,从最后一层MLP上切断触发器信号极为困难。

**说到底,这项研究让我们看清了一件事**

触发器信号并不像我们直觉上想象的那样,沿着模型的"法文通道"一路明目张胆地传播。恰恰相反,它从早期层被汇集之后,就走进了一条完全隐形的侧道,绕开了所有的语言身份标记,悄无声息地在模型深处漂流,直到最后一刻才现身,把一张法文签名盖在输出上。

这对人工智能安全领域意味着:仅仅监视模型的"表面语言行为"是不够的。后门信号可以潜伏在我们根本不会去看的维度里,它不会激起任何语言层面的波澜,却始终在那里,等待时机。检测它,需要比线性探针更深入、更精细的工具,需要真正的因果实验,而不仅仅是相关性分析。

当然,这项研究也有它的局限。所有结论都来自单一的8B参数Gaperon模型,研究团队计划未来在1B和24B版本上重复实验,看看三阶段结构是否在不同规模下都成立。此外,这里研究的是一个固定多词元触发器引发语言切换的后门,对于单词元触发器、依赖上下文的触发器、或者通过微调而非预训练植入的后门,电路结构可能完全不同,需要独立研究才能得出结论。

有兴趣深入了解完整技术细节的读者,可以通过arXiv编号2605.18646查阅原论文。

---

Q&A

Q1:后门攻击对普通人使用的AI助手有实际威胁吗?

A:目前主流AI产品使用的模型通常由大公司严格把关训练流程,普通用户直接遭遇后门攻击的风险较低。但这项研究提醒我们,当开源模型被第三方微调后再分发时,后门可能在不知情的情况下被植入,而且现有检测手段难以发现它,因此使用来源不明的模型时应保持谨慎。

Q2:语言模型后门攻击能被彻底清除吗?

A:根据这项研究的发现,目前非常困难。触发器信号的传播路径汇聚在序列最后一个位置,破坏这个位置能消除触发器,但代价是同时损伤模型正常生成文本的能力。由于触发器信号和自然语言信号在最后一层被无差别处理,要在不伤及无辜的前提下精准切除后门,目前还没有成熟方案。

Q3:正交潜在编码是什么意思?

A:简单说,触发器信号在模型中间层走的是一条"隐形侧道"——它存在于一个与模型识别语言身份所用方向垂直的子空间里。语言探针只认识主干通道的信号,对这条侧道的信号完全无感,但侧道上的信号依然真实存在,并且在最后一层被转化为法文输出。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-