微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 牛津大学研究团队找到了让AI"真正忘记"危险知识的方法,效果比同类方案强50倍

牛津大学研究团队找到了让AI"真正忘记"危险知识的方法,效果比同类方案强50倍

2026-06-22 09:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-22 09:06 科技行者

这项由牛津大学领导的研究于2026年6月发表,论文编号为arXiv:2606.17168,有兴趣深入了解的读者可以通过该编号查询完整论文。研究由牛津大学的两位成员和一位独立研究者共同完成,他们针对大型语言模型(也就是ChatGPT这类AI助手背后的核心技术)提出了一套名为RepSelect的新方法,专门解决一个困扰AI安全领域多年的棘手难题:如何让AI真正、彻底地忘掉某些危险知识,而不是只是暂时"装作不知道"。

要理解这个问题的严重性,不妨把现在的AI模型想象成一个博览群书的学者。这位学者读过无数书籍,其中包括一些关于危险病原体、制造生化武器或虐待动物的有害内容。为了让他安全地为公众服务,我们需要让他"忘掉"这些危险知识。现有的方法,就像是给这位学者做了一个浅层的催眠——表面上他不会主动谈起这些知识,但只要有人在旁边稍加提示,或者给他看几个相关例子,他立刻就能回忆起所有内容。这种"遗忘"显然是不够的,尤其对于那些对外公开发布的AI模型来说,任何人都可以尝试各种方法去"唤醒"这些危险知识。

RepSelect研究团队发现了这种假遗忘的根本原因,并给出了一个真正有效的解决方案。在四个不同的主流AI模型家族上验证后,新方法让遗忘效果比现有最好方案强了4到50倍,而且AI的日常能力几乎不受影响。

一、为什么AI的"遗忘"总是假的?

要理解这个核心问题,先从AI大脑的工作方式说起。一个大型语言模型在处理文字时,内部会产生大量的"激活信号",就像大脑神经元被触发一样。这些信号可以用数学方式分析,找出哪些方向的信号最强、最活跃。

牛津大学团队发现了一个关键规律:当你分析AI在处理"危险知识"时产生的信号,并对这些信号做数学分解(专业上叫做主成分分析,可以理解为找出最主要的几个"思维方向"),排在最前面、最强烈的那些方向,其实并不专属于危险内容。它们同时也在AI处理普通日常内容时被大量激活。

用一个更形象的比喻来理解:你拿到一个装满了各种颜色积木的盒子,你想把所有红色积木取出来,但你发现最显眼的那些积木(体积最大、颜色最亮的),恰好是红色和蓝色混合在一起的积木。现有的遗忘方法会直接抓住这些最显眼的积木往外扔,结果蓝色部分也一起被破坏了,这就是为什么遗忘危险知识的同时总会破坏AI的正常能力。

更糟糕的是,这些"最显眼的方向"也是攻击者最容易重新激活的地方。当某人试图通过微调训练(给AI喂一批相关数据让它重新学习)来恢复被删除的危险知识时,他们的操作自然也会集中在这些最活跃、最显著的信号方向上——和原来被删掉的方向高度重叠。这就是为什么现有的遗忘方案总是很容易被逆转。

研究团队通过严格的数学分析验证了这一点。在Llama-3.1-8B模型上,他们发现危险知识信号中排名前50的主要方向,占据了普通文本信号方差的36.4%。而无论是现有的哪种遗忘方法(GradDiff、NPO、SimNPO、RMU、UNDIAL),还是模拟的攻击者(试图通过微调恢复危险知识),它们的操作都集中在这同一批方向上,比例高达33%到41%。所有人都在争夺同一块战场,遗忘和恢复就像拔河一样,最终总是攻击者获胜。

二、RepSelect的核心思路:避开热门战场,转移到偏僻小路

RepSelect的解决思路可以用"换道超车"来描述。既然那些最显眼、最强烈的信号方向是危险知识和日常知识共享的,那就彻底绕开它们,专门在那些不起眼的、微弱的信号方向上进行遗忘操作。

这些微弱的方向有什么特点?研究团队发现,恰恰是那些信号较弱的方向,才真正编码着危险知识的独特特征。他们通过把这些方向"投影"到AI的词汇表上来验证这一点——强信号方向对应的是"病毒"、"RNA"、"感染"、"传染病"这类通用词汇,任何生物学文章都会提到;而弱信号方向对应的则是"SA11菌株的质粒专属逆向遗传学系统"、"RV菌株SA11"这类极其专业、只在有害内容中才会出现的罕见概念。

换句话说,强信号方向是"大路",人人都走;弱信号方向才是"小路",基本只有危险知识在走。把遗忘操作集中在小路上,自然就不会影响到在大路上行走的正常知识。

RepSelect的具体做法是:在每次更新AI的参数之前,先对本次操作的"方向"做一个数学变换——把那些在危险知识中最强烈的方向压缩到接近于零(专业上叫做Mahalanobis坍缩),只保留那些在危险知识中相对微弱、更具特异性的方向,然后才执行真正的遗忘更新。

这个过程可以类比为一个图书馆的消磁操作。普通的消磁仪会对整个书架施加磁场,把里面所有书的信息(包括正常书籍和危险手册)都影响到。RepSelect则像是一个精密的定点消磁笔,它先分析哪些页码是危险手册独有的、正常书籍里绝对不会出现的内容,然后只针对这些独特页码进行消磁,完全不触动那些与正常书籍共享的章节。

三、让危险行为"浮出水面"再消除——LoRA对手策略

这里有一个微妙但重要的细节。危险的AI行为(比如回答关于生化武器的问题,或者鼓励虐待动物)通常不会在正常对话中自然出现,现代AI经过安全训练后会主动回避这类输出。这就带来了一个问题:如果AI在处理危险问题时根本不产生相应的信号,遗忘操作就无从下手,反而可能误伤正常功能。

研究团队为此设计了一个"引蛇出洞"的前置步骤。在正式执行遗忘之前,他们先在AI上安装一个轻量级的"适配器"(技术上称为LoRA适配器,可以理解为给AI临时戴上一副放大镜),专门让AI更充分地"表达"那些被压制的危险倾向,让危险信号尽可能完整地显现出来。然后以这种充分激活的状态来计算哪些信号方向需要被遗忘。计算完成后,这个临时适配器就被丢弃,只保留遗忘操作本身的效果。

这个策略在处理"危险行为倾向"(如虐待动物的言论倾向)时尤为关键,因为这类行为在基础模型里被压制得更深,不主动激活就几乎看不到信号。研究结果也印证了这一点:在虐待动物倾向的遗忘任务上,去掉这个预激活步骤会导致遗忘效果明显下降;而在生化知识遗忘任务上,由于这类知识本来就比较容易被模型直接表达,影响相对较小。

四、单次扫描就够了——出乎意料的高效

RepSelect还有一个让研究团队自己也感到意外的发现:多轮迭代训练并不比单轮遍历效果更好,有时反而更差。

他们发现,越靠后的训练更新,在遗忘强度上虽然更大,但抵抗攻击者逆转的能力反而越弱。就像压得越深的弹簧,反弹力越大——遗忘得越强硬,攻击者重新唤醒的空间也越大。相反,单次遍历整个危险数据集、积累完整梯度、然后一次性更新,这种方式产生的遗忘效果既够深又够稳。

这个特性带来了实际操作上的巨大优势。由于整个遗忘操作只需一次正向和反向传播,研究团队可以预先把这个"遗忘向量"计算出来缓存好,然后以不同的强度来缩放它,一次性生成一系列不同遗忘程度的模型版本,而不需要重新跑一遍训练。整个过程只需要5到15分钟,而现有的其他方法每次超参数搜索就要花费3到9个小时,效率提升了20到100倍。

五、覆盖四大模型家族的系统性验证

研究团队在一个统一的评估框架下,对RepSelect和五个现有主流方法进行了系统比较。这五个对比方法分别是GradDiff(梯度差异法)、NPO(负偏好优化)、SimNPO(简化负偏好优化)、RMU(表示混淆法)和UNDIAL(自蒸馏调整对数法),覆盖了目前学界最主流的几类遗忘技术路线。

验证使用的AI模型横跨四个不同家族,包括两个密集型模型(Llama 3.1 8B和Qwen 3.5 9B)和两个混合专家型模型(Gemma 4 E4B和DeepSeek V2 Lite),涵盖了当前主流的模型架构。

遗忘任务分为两类。第一类是有害知识遗忘,使用WMDP-Bio数据集,包含189道关于生化危险知识的选择题(如病原体增殖、武器化制备等),通过对每道题生成三个改写版本来构建遗忘语料库。第二类是有害行为倾向遗忘,使用BeaverTails数据集中的动物虐待类别,这个类别的特别之处在于它不需要任何专业知识——任何人都能理解这类内容是否有害,避免了把"能力损失"和"倾向删除"混淆在一起。

评估体系本身也颇为严谨,分为三个维度。遗忘效果衡量AI在未见过的同类危险问题上的答题准确率(越低越好)。功能损伤则通过WikiText语言困惑度和MMLU综合知识测试来衡量AI的正常能力是否受损(变化越小越好)。抗攻击能力则是最关键的维度,通过两种攻击方式来测试:一种是微调攻击,用100道相关危险问题(来自与训练集不重叠的独立数据集)重新微调模型10轮,看危险知识能恢复多少;另一种是少样本提示攻击,在对话里给AI看5到10个危险问答示例,看AI会不会被"带偏"。所有模型都设置了统一的"功能损伤上限"(WikiText KL散度不超过0.01),确保比较的公平性。

六、数字背后的真实差距

结果数据相当清晰。在生化知识遗忘任务上,RepSelect遗忘后经过微调攻击的答题准确率降幅,是次优方法NPO的8到50倍。在动物虐待倾向遗忘任务上,这一差距为4到15倍。这个结果在四个模型家族上均保持一致,无论是密集型还是混合专家型模型都表现出相同的规律。

少样本提示攻击的结果更加极端。经过RepSelect处理后,在给出5或10个危险示例的情况下,Llama-3.1-8B上的生化知识答题准确率仅为0.001(几乎为零),Qwen3.5-9B上同样接近于零。相比之下,NPO在Llama-3.1-8B上经过10个示例提示后,准确率高达0.544,几乎与从未做过遗忘处理的原始模型(0.549)相当——也就是说NPO的遗忘对这种攻击方式几乎无效。UNDIAL在动物虐待任务上经过10个示例提示后准确率为0.202,同样与未处理模型(0.202)持平。

这种差距背后有一个直觉性的解释:少样本提示攻击的原理是在上下文中注入相关信息,从而在推理时激活模型内部的相关表示。但如果这些表示已经从权重层面被彻底清除,再多的上下文提示也无法在"空地基"上重建大楼。RepSelect正是通过在权重空间里执行了真正的清除操作,才让这种攻击方式完全失效。

在日常能力方面,研究团队验证了RepSelect处理后的模型在MMLU综合知识测试上的准确率与原始模型的差距均在1到2个百分点以内,这在实际使用中几乎感知不到。

七、一个有趣的数学性质:攻击者的操作和RepSelect天然分离

研究团队还从数学角度证明了RepSelect为何难以被逆转,这个证明结果相当优雅。

核心论点是:RepSelect的遗忘操作和攻击者的恢复操作,在权重空间里占据了几乎不重叠的方向。RepSelect把修改集中在危险知识的低方差方向上,而攻击者(无论是全参数微调还是LoRA轻量级微调)的更新自然倾向于集中在高方差方向(因为那是梯度最大、学习效率最高的地方)。两者方向几乎正交。

用具体数字来说明:在RepSelect处理后,其权重更新中只有约6%的"力量"集中在危险知识的前50个主要方向上;而微调攻击者的更新有34%集中在这同一区域,是RepSelect的五倍多。这意味着攻击者的大部分操作都打在了RepSelect根本没动过的地方,真正和RepSelect"对抗"的部分只有很小一块。

对于LoRA轻量级攻击,数学分析给出了更强的结论:当LoRA的秩(可以理解为它调整权重的"维度数量")小于被压缩的方向数量时,LoRA攻击和RepSelect的遗忘操作在权重空间里的重叠理论上为零,攻击对遗忘效果没有任何直接影响。

八、与现有方法的本质区别

把RepSelect和现有方法做一个直观的对比,能更清楚地看出它的创新之处所在。

现有的梯度类方法(如GradDiff、NPO、SimNPO)通过直接最大化模型在危险内容上的损失来"反向学习",同时用保留集上的损失来防止正常能力崩溃。这就像试图通过反复练习错误答案来"忘掉"正确答案,但那些被使用的"反向梯度"方向同时也是攻击者最容易利用的方向,所以遗忘效果容易被逆转。RMU(表示混淆法)通过把危险内容的内部表示推向随机方向来干扰模型,这确实能造成混淆,但并没有从根本上消除表示,重新微调时仍然可能恢复。UNDIAL通过调整模型输出的概率分布来进行遗忘,本质上仍然是输出层的干预,而非表示层的清除。

另有一些方法(如PGU和K-FADE)使用Fisher信息矩阵来识别与保留集相关的权重方向,然后避免修改这些方向。这和RepSelect的思路部分相似,但方向相反——这些方法是在保留集的角度找"不能动的地方",而RepSelect是在危险集的角度找"必须动的地方,且攻击者找不到的地方"。两者的出发点和最终效果有本质差异。

RepSelect的独特之处在于,它同时满足了三个约束:遗忘操作集中在危险知识特有的方向上(保证遗忘有效);这些方向与保留集的代表性方向重叠最小(保证不损伤正常能力);同时这些方向也是攻击者的优化过程最不可能自然覆盖的地方(保证遗忘难以被逆转)。这三个约束之前从未被同时满足过。

九、研究的局限和未来方向

研究团队对自身工作的局限性保持了坦诚的态度,这些局限性值得在这里详细介绍。

首先,RepSelect目前只在MLP(前馈网络)模块上实施了操作,没有涉及注意力机制中的键值投影层。研究者认为MLP是概念性知识形成的核心场所,但注意力机制同样可能存储着某些有害知识或行为模式,这部分尚未被触及。

其次,验证的遗忘规模相对有限。WMDP-Bio数据集只包含189道题目,BeaverTails动物虐待类别也只有371个样本。对于真实世界中需要从数百万条数据中遗忘大量多样化有害知识的场景,RepSelect是否还能保持同样的效果,目前没有答案。

第三,测试的攻击方式只涵盖了标准的全参数微调和少样本提示,其他可能的攻击手段(如对抗性扰动、模型合并攻击等)尚未探索。研究者把这些留给了后续工作。

此外,研究使用的是相对小规模的模型(最大的DeepSeek V2 Lite也只有160亿参数)。对于规模更大的模型,遗忘操作的动态特性可能会有所不同,需要进一步验证。

说到底,RepSelect解决的不只是一个技术问题,它触及了AI安全领域一个更根本的哲学问题:对AI进行的安全限制,到底是真实有效的还是表面文章?现有大量证据表明,RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)等主流对齐方法产生的安全行为,本质上是对有害输出的压制而非删除。有人甚至通过少量微调就让经过大量安全训练的模型轻易恢复了危险能力。RepSelect提供的方法路径表明,通过在正确的表示空间层面进行操作,真正彻底的遗忘在技术上是可能实现的,而不只是一个理想目标。

这对普通用户意味着什么?随着AI模型的开源趋势越来越强,任何人都可以下载一个模型并对其进行微调。如果安全限制只是表面的,那么这种开放访问就意味着危险知识可以被任何具备基本技术能力的人轻易解锁。RepSelect这类真正有效的遗忘技术,是让AI开放化和AI安全化这两个目标能够同时成立的前提条件。

Q&A

Q1:RepSelect遗忘方法和普通的AI安全过滤有什么区别?

A:普通安全过滤(如RLHF)更像给AI做行为约束,只是让它不会主动说出危险内容,但相关知识还存在权重里。RepSelect则是从权重层面真正删除危险知识对应的信号方向,就算给AI看相关示例或重新微调,也很难把这些内容找回来,两者在根本机制上完全不同。

Q2:RepSelect处理之后AI的正常能力会受损吗?

A:研究团队在四个模型家族上做了系统验证,RepSelect处理后在MMLU综合知识测试上的准确率与原始模型差距在1到2个百分点以内,WikiText语言能力几乎不变。核心原因是RepSelect只操作危险知识独有的信号方向,主动避开了与正常知识共享的方向,所以对日常能力的影响非常小。

Q3:为什么RepSelect对少样本提示攻击几乎完全免疫?

A:少样本提示攻击是通过在对话里给AI看几个危险示例,在推理时激活相关表示。但RepSelect已经从权重里删除了这些表示对应的信号方向,上下文里的提示无法在"已经清空"的权重上重建任何东西。实验结果显示,Llama-3.1-8B经过RepSelect处理后,给10个危险示例的情况下答题准确率仍只有0.001,而其他方法在同样攻击下几乎完全恢复了危险知识。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-