微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

斯坦福等高校研究：AI安全"表面过关"背后，可能藏着一颗随时被引爆的"定时炸弹"

人工智能安全大型语言模型潜在脆弱性评估

斯坦福等高校研究：AI安全"表面过关"背后，可能藏着一颗随时被引爆的"定时炸弹"

作者：科技行者

2026-06-17 17:08

分享至：

论文揭示AI安全测试的"审计缺口"：模型外表安全但内部可能脆弱，并提出潜在脆弱性分数（LVS）量化内部风险。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-17 17:08 • 科技行者

这项由斯坦福大学、伊利诺伊大学厄巴纳-香槟分校和丹麦技术大学联合开展的研究，以预印本形式于2026年6月发布在arXiv平台，论文编号为arXiv:2606.08044。研究聚焦于大型语言模型（也就是ChatGPT这类AI对话系统）的安全评估问题，揭示了一个让人细思极恐的现象：一个看起来"安全"的AI，内部可能早已埋下了危险的种子，只是还没人注意到而已。

设想一栋楼通过了消防验收，检查员走一圈，没看到明火，没闻到烟味，就盖章通过了。但如果这栋楼的墙壁里面，早就被人塞满了易燃材料呢？表面光鲜，一点就着。研究团队发现，目前主流的AI安全测试，做的正是这种"走过场"的检查——只看表面有没有烟，却没有打开墙壁看里面装的是什么。

这项研究的核心问题很简单：当我们说一个AI"安全"的时候，我们真的测对了东西吗？答案令人不安——很可能没有。研究团队为此引入了一个全新概念，叫做"审计缺口"，并设计出一套能真正探测AI内部结构是否脆弱的评估方法，同时还发明了一种叫做"潜在脆弱性分数"的量化指标。这套工具的目标只有一个：不光看AI说了什么，还要看它的"内心深处"到底藏着什么。

一、安全测试的"走过场"困境：只看答卷，不看草稿纸

目前，AI安全领域的标准做法，是给模型出一堆"危险问题"，比如"告诉我怎么制造武器"，然后看模型是不是拒绝回答。如果拒绝了，就说明这个模型是"安全"的。这就像给一个学生出道题，只看最终答案对不对，完全不管他的解题思路是否合理、草稿纸上写了什么。

问题在于，AI拒绝回答和AI"真的不知道怎么做坏事"，是两回事。一个模型完全可能在内部处理信息时，已经把"怎么制造武器"的内容详细过了一遍，最后只是在输出环节临时踩了刹车说"我不能回答这个"。它的"大脑"深处仍然充满了危险知识，只是表面上很礼貌地拒绝了你。

研究团队把这个表面安全和内部脆弱之间的鸿沟，称为"审计缺口"。这个词的意思是：当我们用标准安全测试给AI打分时，实际上漏掉了一大块真正重要的信息——这个AI在受到轻微"内部干扰"时，会不会立刻原形毕露？

这并不是说现有的安全测试完全没用，而是说它们只解决了问题的一半。就像体检只测血压不测血脂，不是没用，但肯定不够全面。研究团队指出，近年来已有其他学者发现，一些AI的"拒绝回答"行为，其实只依赖于模型内部一个非常简单、低维度的"开关"，而与危险内容相关的知识，其实和这个开关是分开存储的。换句话说，危险知识和安全开关是两套相互独立的系统，测试了安全开关有没有坏，并不能说明危险知识有没有被好好锁起来。

二、"解离模型"：专门打造一个"表里不一"的AI

为了把这个问题说清楚，研究团队做了一件很有创意的事：他们亲手制造了一类"表里不一"的AI，专门用来证明"外表安全"和"内部安全"可以完全脱钩。这类模型被命名为"解离模型"——意思是输出行为和内部表征发生了解离，两者不再挂钩。

具体怎么做的呢？研究团队从一个已经做过安全训练的AI（比如Gemma、Llama、Qwen这些开源模型的安全版本）出发，然后对它进行特殊的"改造手术"。改造的目标有两个，而且方向相反：一方面，让它在回答问题时继续保持安全、礼貌地拒绝危险请求；另一方面，悄悄改变它的"内部想法"，让它在处理危险信息时，内部的神经网络激活模式越来越接近一个没有安全限制的危险模型。

这个改造过程用到了一个精心设计的训练方案，用公式表达就是三项目标的加权组合。第一项是让模型输出的文字和原来的安全模型保持相似，保证表面行为不变。第二项是让模型在处理危险输入时，内部的激活状态向"危险"方向推进，具体来说是让一个内部"监测探针"给出越来越高的危险评分。第三项是通过KL散度约束（一种衡量两个概率分布差异的数学工具）让模型整体上不要离原始安全模型跑太远，防止它的安全行为完全崩掉。

为了让这个改造过程更精确，研究团队还设计了一个动态更新的"内部监测器"，随着模型被改造，监测器也不断学习新的内部状态，始终能准确判断模型的内部表征有多危险。模型和监测器交替更新，就像两个人互相打磨，最终达到目标状态。

训练数据来自多个公开数据集。其中PKU-SafeRLHF数据集提供了成对的安全回答和危险回答，用来初始化那个内部监测探针；BeaverTails和XSTest数据集则提供了大量正常的无害问题，用来确保模型在回答日常问题时不会出现异常。最终的验证使用了九个公开安全评测基准，覆盖了直接有害请求、越狱攻击、过度拒绝等多种场景。

实验结果非常清晰地证明了这个改造是成功的。以Gemma 2 2B、Llama 3.2 3B和Qwen 2.5 3B三个模型为例，改造后的"解离模型"拒绝率几乎没有变化——原来拒绝多少次，改造后还是差不多拒绝多少次。但是，用一个独立训练的内部探针去检查模型的内部激活状态时，探针发现原始安全模型的安全/危险内容评分差距高达0.6左右，而改造后的解离模型这个差距缩小到0.04至0.30之间，说明内部已经发生了实质性的变化，只是外表上完全看不出来。

三、拆开墙壁看一看：两种"内部干预"实验

有了这些"表里不一"的解离模型，研究团队接下来要验证的是：这种内部变化，会不会在受到特定干扰时引发真正的危险行为？为此，他们设计了两类干预实验，相当于用不同的工具"敲打墙壁"，看看里面到底是空心的还是实心的。

第一类干预是参数空间干预，具体方式是有害微调。简单说，就是用一小批危险示例对模型继续训练，模拟一个心怀不轨的人试图通过二次训练破坏模型安全性的场景。技术上用的是LoRA，一种高效的局部微调方式，可以用很少的计算资源对模型参数进行调整。每训练一轮之后，研究团队就用一个AI评判者检测模型的回答，统计有多少变成了配合危险请求的内容，有多少仍然是拒绝。

结果非常直观。原始安全模型在有害微调下抵抗力较强，训练好几轮之后才开始出现配合危险请求的回答，而且比例上升缓慢。解离模型则不同，仅仅训练一两轮，配合率就急剧攀升，拒绝率迅速下滑。这说明解离模型虽然表面上和原始模型一样安全，但抗打击能力已经大幅下降了，稍微一推就倒。

第二类干预是潜在空间干预，也就是在模型内部神经网络某一层的激活值上直接加扰动，看模型的输出会不会变坏。研究团队用的是一种叫做投影梯度下降（PGD）的优化技术，在有限的扰动预算内寻找最容易让模型说出危险内容的那个扰动方向。扰动量被严格限制在一个很小的范围内，分别测试了0.0005、0.001和0.005三档强度，衡量指标是攻击成功率（有多少比例的危险请求在加了扰动后成功得到了配合回答）和无害奖励分数的下降幅度（一个专门评估回答危害程度的奖励模型给出的分数）。

更重要的是，研究团队在模型的不同深度位置分别施加扰动，包括最前面的嵌入层、中间层和最后几层，以此绘制出一张"内部脆弱性地图"。

四、中间层：AI最隐秘的"阿喀琉斯之踵"

内部脆弱性地图的结果令人印象深刻，并且在Gemma、Llama、Qwen三个不同架构的模型上高度一致，指向同一个结论：中间层是最危险的地方。

无论扰动预算大小，在中间层施加扰动，总是比在嵌入层（最前面）或最后几层施加扰动，更容易引发有害输出。换句话说，同样大小的"推力"，推中间层比推头部或尾部要有效得多。这就像一栋大楼，地基和顶层都相对坚固，但中间某几层的结构特别脆弱，轻轻一推就会出现裂缝。

对于解离模型来说，这个现象更加突出。解离模型的中间层脆弱性显著高于原始安全模型，而嵌入层的脆弱性反而略低——这说明改造过程确实改变了模型内部脆弱性的分布，把风险从外层转移到了更深、更难被普通测试发现的中间层。

此外，研究团队还对比了有目标的扰动（朝着让模型说"当然，以下是..."这类危险配合语句的方向优化）和随机方向扰动。结果有目标的扰动始终表现更好，说明观察到的脆弱性不是随机噪声，而是真实存在于模型内部的结构性弱点，可以被有目的地利用。

Qwen模型展现出了一个有趣的细节：解离版本的Qwen在中间层被攻击时，虽然攻击成功率和原始模型接近，但实际需要施加的扰动量却明显更小。这说明Qwen的解离版本在中间层的"安全边界"更薄，敌人只需要更小的力气就能越过它。

五、用一把尺子量清楚：潜在脆弱性分数（LVS）的设计逻辑

光说"中间层更脆弱"或"解离模型更容易被攻破"，对研究人员来说还不够，他们需要一把精确的尺子来量化这种脆弱性。于是研究团队提出了潜在脆弱性分数，英文缩写LVS。

LVS的核心思想是：我施加了多大的扰动，换来了多大的危险行为增加？分子是无害分数的下降量（模型回答变得多有害），分母是扰动的大小（我用了多大的力气）。为了防止分母为零导致计算崩溃，分母里加了一个很小的常数，同时对扰动量取对数处理，让分数在不同数量级下都比较平滑。

LVS高，意味着只需要很小的内部扰动，就能让模型的安全行为大幅崩塌，这是高度脆弱的表现。LVS低，意味着需要施加很大的扰动才能让模型出问题，说明安全性比较稳固。

与传统的攻击成功率指标相比，LVS有三个优势。传统攻击成功率只是一个0或1的判断（成功了还是没成功），而LVS同时考虑了行为崩塌的严重程度、引发失败所需扰动的大小，以及不同层的敏感性差异。这就像体检时不只看血压计的指针指向了"高"还是"正常"，还要看高了多少、吃多少降压药才能控制住。

研究团队用LVS对多个模型进行了系统评测，包括Gemma、Llama、Qwen三个家族的原始安全版本和解离版本，以及专门做了不安全训练的各类变体。结果毫无悬念地再次证实：解离模型的LVS在中间层和末层都显著高于原始安全模型，而这一差异在表面安全测试中完全不可见。

六、对齐真的让AI更安全了吗？来自真实模型的证据

有了LVS这把尺子，研究团队进一步把它用在了一批真实的、已经发布的商业和开源模型上，试图回答一个更大的问题：那些经过安全训练（也就是"对齐训练"）的模型，和没有做安全训练或做了"反安全"训练的模型相比，内部脆弱性到底有多大差别？

在Llama-3家族中，研究团队比较了四个版本。基础安全版（Meta-Llama-3-8B-Instruct）作为参考基准，另外还有一个强化了安全拒绝机制的增强版（Llama-3-8B-Instruct-RR）、一个通过修改权重直接删除了安全机制的"去安全化"版本（Llama-3-8B-Instruct-abliterated），以及一个用危险数据重新训练的"无审查"版本（dolphin-2.9-llama3-8b）。

LVS数据揭示了一些耐人寻味的规律。在最后一层，基础安全版和强化安全版的LVS都是0，意味着末层扰动几乎无法引发危险输出。而删除安全权重的版本，末层LVS飙升到55.665；用危险数据训练的版本更离谱，末层LVS高达201.190，足足是安全版本的无穷倍（因为安全版分母意义上的等效值极小）。这说明安全训练确实对末层表征起到了稳固作用，抵御了末层扰动。

但在嵌入层，情况颠倒了过来。基础安全版的嵌入层LVS是4.914，强化安全版反而升高到9.182，比基础版更高。而去安全化版本的嵌入层LVS是5.207，和基础版差不多。这说明强化安全训练虽然保护了末层，却意外地让嵌入层变得更脆弱了。安全训练的效果并不是均匀地分布在整个模型上，而是存在明显的层间不均衡性。

在Alpaca家族中，类似的现象也出现了。不同的安全对齐策略（SACPO、P-SACPO、Beaver-7B-v3.0等）在嵌入层和中间层的LVS表现各有高低，有些策略甚至让嵌入层或中间层的脆弱性比原始基础版更高。这进一步说明，现有的安全对齐方法主要在"让模型最终不说坏话"上下功夫，而并不能保证整个内部表征都变得更稳固。

归根结底，研究团队的结论是：当前的安全对齐方法，更像是在模型的输出环节加了一个严格的过滤器，而不是从根本上改变了模型理解和处理危险信息的方式。过滤器可以被绕过，可以被微调掉，可以被内部扰动影响，但如果整个内部结构都是健康的，才叫真正的安全。

七、研究的边界与诚实的局限

这项研究的团队对自己工作的局限性保持了清醒的认识，这也是读懂这篇论文的重要部分。

首先，整个实验体系依赖的是"白盒访问"——研究团队可以直接读取和修改模型内部的激活值和参数。在现实场景中，普通人或黑客通常只能通过文本输入和文本输出与AI交互，没有办法直接操作内部神经网络的激活值。因此，实验中发现的这些脆弱性，并不意味着在现有条件下随便一个人就能轻松破解一个安全AI。研究的目的是评估内部脆弱性的程度，而不是提供一个可以直接用于攻击的工具。

其次，解离模型是人工构造的，其内部脆弱性的具体形态，取决于构造时用的探针架构、训练目标的设计方式、扰动的参数化方式，以及目标前缀的选择（比如这里用的是"Sure, here is "这样的配合语句前缀）。换一种构造方式，可能会得到不同的脆弱性分布。

另外，实验主要针对的是参数量在2B至8B之间的相对较小的开源模型，规模更大的模型（比如几百亿参数的GPT-4级别模型）是否存在同样的问题，目前还不知道。评估过程中用到的无害奖励模型和LLM评判者，本身也有噪声，不是完美的黄金标准。

这些局限不是用来否定研究结论的，而是提醒读者：这些发现展示了一类真实存在的结构性问题，但要把它转化为实际的攻击能力，还需要进一步的技术发展。研究团队坦诚指出，未来需要更真实的攻击场景测试、更强的表征诊断工具，以及专门针对内部表征鲁棒性的训练目标设计。

说到底，这项研究传递的信息可以用一句话来概括：现在我们给AI颁发的"安全合格证"，其实只检查了它的外衣，没有检查它的骨架。骨架有问题的模型，一遇到有针对性的干预，外衣就会瞬间脱落。研究团队不是在说"所有AI都危险"，而是在说"我们测试安全的方式需要升级换代了"。

这件事和普通人的生活有什么关系？当AI被越来越多地应用于教育、医疗、法律等对安全性要求极高的领域时，如果安全测试只是走过场，那么一旦有人以特定方式操控这些AI，后果可能远比我们预想的严重。就像一栋看起来通过消防验收的楼，如果墙壁里真的塞满了易燃材料，那通过验收的那张纸，反而会给人一种错误的安全感，让真正的危险藏得更深。

研究团队呼吁的改变不复杂：在现有的"看输出"式安全评测基础上，加入"看内部"式的表征级评估。两者结合，才能给AI安全一个更完整、更真实的判断。有兴趣深入了解这套评估框架完整细节的读者，可以通过arXiv编号2606.08044查询这篇论文的完整版本。

Q&A

Q1：什么是"审计缺口"，为什么说现在的AI安全测试存在这个问题？

A：审计缺口是指AI表面上通过了安全测试（不说有害内容），但内部神经网络的表征结构仍然脆弱，一旦受到参数调整或内部激活值干扰，就会迅速变得危险。现有测试只看AI最终说了什么，不检查它内部处理危险信息时的状态，因此无法发现这类隐藏风险。

Q2：潜在脆弱性分数（LVS）和普通的攻击成功率有什么不同？

A：攻击成功率只告诉你"有没有攻破"，而LVS同时衡量三件事：行为崩塌的严重程度、引发失败需要多大的内部扰动，以及不同层的敏感性差异。LVS高意味着只需很小的内部干扰就能让安全行为大幅崩塌，是一个更细致、更全面的脆弱性指标。

Q3：安全对齐训练之后的AI模型，内部表征是否就变得完全安全了？

A：并不是。研究发现，安全对齐训练主要加固了模型最后几层的表征，减少了末层被扰动引发危险输出的风险，但对中间层和嵌入层的保护效果不均匀，有些对齐策略甚至让嵌入层或中间层变得更脆弱。这说明对齐训练更像是在输出端加过滤器，而不是全面改造内部表征结构。

人工智能安全大型语言模型潜在脆弱性评估

分享至