微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

成大模型"忘事"真的靠谱吗？成均馆大学提出了一种从内部检验AI遗忘深度的新方法

大语言模型激活补丁技术遗忘深度评分

成大模型"忘事"真的靠谱吗？成均馆大学提出了一种从内部检验AI遗忘深度的新方法

作者：科技行者

2026-06-08 12:34

分享至：

成均馆大学提出遗忘深度评分（UDS），用激活补丁技术从模型内部量化大语言模型遗忘的彻底程度，在20种指标对比中综合表现最优。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 12:34 • 科技行者

这项由韩国成均馆大学（Sungkyunkwan University）研究团队完成的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.24614，有兴趣深入了解的读者可以通过该编号查询完整论文。

**一个让人细思极恐的问题**

假设你是一家公司的HR，雇了一名新员工，但后来发现他曾接触过某些不该知道的机密。你只好对他进行"脱敏培训"，反复告诉他那些信息是错误的、不存在的，并在他的考核中要求他表现出"什么都不知道"的样子。培训结束，他在考核中的确答不上那些问题了。但你能确定，他脑子里真的把那些信息抹掉了吗？还是说，他只是学会了在考试时假装忘记，实际上知识还在，随时可以被人用一点小手段唤醒？

这个场景，正是当下大语言模型（也就是像ChatGPT这样的AI）面临的真实困境。这些模型在训练时吞噬了海量数据，其中可能包括个人隐私、危险知识，甚至各种敏感信息。当需要"抹掉"这些知识时，研究者会对模型进行一种叫做"机器遗忘"（machine unlearning）的操作——让模型在面对相关问题时表现得好像从未学过一样。

问题在于，现有的检验手段基本上都是在看模型的"答卷表现"，也就是看它的输出。如果模型在回答问题时不再能给出那些被遗忘的信息，人们就认为遗忘成功了。但这就像只看员工的考试成绩来判断他是否真的忘记了机密——而没有去检查他的大脑内部。

成均馆大学的研究团队正是意识到了这个漏洞，才开发出了一套全新的"内部体检"工具，也就是这篇论文的核心：**遗忘深度评分（Unlearning Depth Score，简称UDS）**。

**一、为什么AI"假装忘记"是个真实威胁**

要理解这项研究的意义，先得弄清楚"机器遗忘"到底是怎么回事，以及它为什么会失败。

大语言模型的训练过程，可以理解成让一个学生把一座图书馆里的书全部读完，并把知识编织进自己的神经网络里。这个过程一旦完成，要想让他"忘记"其中某一本书的内容，就变得异常困难——因为那些知识早已和其他知识交织在一起，藏在了大脑的各个角落。

目前主流的遗忘方法大体上可以分为几类。有的方法通过"梯度上升"让模型在看到需要遗忘的内容时产生更大的错误，从而降低它输出正确答案的概率；有的方法训练模型遇到相关问题时回答"我不知道"；还有的方法直接在模型内部的中间表示层（可以理解为大脑的某个处理区域）注入随机干扰，让模型的计算路径偏离原来存储知识的方向。

这些方法在表面测试上往往能取得不错的成绩，但已有研究表明，经过轻量级的再训练之后，那些"被遗忘"的知识可以迅速复苏。也就是说，遗忘操作可能只是改变了模型的"输出习惯"，并没有真正触及内部存储知识的层。模型就像那位接受了脱敏培训的员工——表面上答不上来，实际上一点小刺激就能让记忆回来。

**二、传统检验方法的盲点**

现有的遗忘评估指标，基本上都是"输出层面"的测量。比较常见的有以下几类。

提取强度（Extraction Strength）测量的是：让模型自由生成文本时，能提取出多少原始内容。精确记忆（Exact Memorization）看的是模型生成的词是否和原始答案一字不差地对上。概率类指标（Probability）测的是模型给出正确答案的概率有多高。ROUGE分数衡量的是模型生成文本和原始答案之间的词汇重叠程度。此外还有一类叫做成员推断攻击（Membership Inference Attack，MIA）的隐私检测手段，它的思路是：如果一个数据是模型训练集里的，那模型对它的"熟悉感"（体现为损失函数的值）应该和测试数据不同，通过这种统计差异来推断模型是否见过这条数据。

这些方法的共同问题在于，它们都是在观察模型的输出，而不是在观察模型的内部计算过程。当一个遗忘方法成功地改变了模型的输出分布，但并没有真正抹去内部的知识表示时，这些指标就会被"欺骗"，给出遗忘成功的假阳性判断。

研究团队把这种现象称为"表示漂移"（representational shift）——模型的内部向量空间被扭曲或旋转了，导致从固定的解码头来读取这些向量时，看起来知识消失了，但实际上知识还以某种变形的方式存在着，只要用合适的方式还原这个扭曲，信息依然触手可及。

**三、借鉴大脑神经科学：激活补丁技术**

UDS的核心思路来自于一种叫做"激活补丁"（activation patching）的技术，这个技术原本用于研究大语言模型是如何存储和检索事实的。

用一个比喻来说明这个技术的原理：大语言模型就像一条流水线上的工厂，原材料（输入的文字）从第一个工作站（第一层）进入，经过一道道加工（每一层神经网络的变换），最终在最后一个工作站（输出层）变成成品（模型的回答）。每个工作站都会在中间产品（也就是所谓的"隐藏状态"或"残差流"）上打上自己的烙印，传递给下一个工作站。

激活补丁技术的做法是：在工厂A（比如经过完整训练的全量模型）运行到某个特定工作站时，强行把工厂B（比如只用保留数据训练的保留模型）在同一工作站产出的中间产品替换进来，然后让后续工作站继续用工厂A的机器加工这个被替换的中间产品，看看最终的成品会发生什么变化。

如果替换后成品质量大幅下降（即模型预测目标词的概率急剧降低），就说明那个特定工作站在工厂A中处理了某种工厂B所没有的特殊信息——也就是说，那一层存储了某种"被遗忘知识"独有的内容。反之，如果替换后成品基本没变，说明那一层对于区分两种模型并不重要。

**四、UDS的两阶段工作流程**

理解了激活补丁的原理，就能理解UDS是如何工作的了。整个评分流程分为两个阶段，可以类比为"找出哪些工作站有独家配方"和"检查遗忘后这些配方是否真的被换掉"。

在第一阶段，也就是"基准建立"阶段，研究团队使用三个模型：全量模型（Mfull，用包含需要遗忘数据在内的全部数据训练）、保留模型（Mret，只用保留数据训练，相当于"从未见过那些需要被遗忘信息的理想版本"）、以及被评估的遗忘模型（Munl，对全量模型施加了遗忘操作后得到的版本）。

这一阶段的操作是：把保留模型（Mret）在某一层产生的中间产品，替换进全量模型（Mfull）的同一层，然后观察全量模型预测"应该被遗忘的目标词"的对数概率下降了多少。如果下降很大，说明全量模型在这一层存储了保留模型所没有的、关于目标知识的专属信息。研究团队把这种层称为"知识编码层"（Knowledge-Encoding layers，简称KE层），只有下降超过0.05这个阈值的层才会被纳入后续计算。

在第二阶段，也就是"量化遗忘"阶段，操作完全相同，只是这次把替换的来源换成了遗忘模型（Munl）。同样是替换某一层的中间产品到全量模型里，观察预测概率的下降幅度。

这两个阶段的逻辑是：如果遗忘操作真的在某一层彻底抹去了目标知识，那么用遗忘模型的中间产品替换进全量模型后，全量模型应该同样"找不到"那些知识，概率下降应该和用保留模型替换时一样大。如果遗忘不彻底，那么遗忘模型的中间产品里还残留着知识信号，全量模型后续的计算层能够从中恢复信息，概率下降就会比保留模型替换时小得多。

**五、从层级到单一评分的计算逻辑**

有了两个阶段的数据，研究团队就可以为每一个知识编码层计算一个"层级遗忘比率"（Layer Erasure Ratio，LER）：用第二阶段的概率下降值除以第一阶段的概率下降值，再把结果截断到0到1之间。

这个比率的含义很直观：0分代表遗忘后知识完全没有被抹去（遗忘模型替换后，全量模型损失几乎为零，说明它还能从遗忘模型的表示中读出知识）；1分代表遗忘达到了理想的保留模型水平（遗忘模型替换后，全量模型的损失和保留模型替换时一样大，说明遗忘模型和保留模型在这一层的表示对于全量模型而言是等价的）。

最终的每条数据的UDS，是把所有知识编码层的LER取加权平均，权重是每一层在第一阶段的概率下降值——下降越大的层，说明它对目标知识的编码越深，在最终评分中的权重也就越大。整个模型的UDS是所有有效数据的个体UDS的平均值。

这个设计的精妙之处在于，它不仅给出了一个0到1的总体评分，还保留了逐层、逐样本的细粒度信息，可以用来分析"哪些层遗忘得彻底，哪些层还有残留"以及"哪类问题的遗忘效果比其他类型差"。

**六、跨模型规模的验证**

为了确保UDS不只是在某个特定大小的模型上有效，研究团队在三个不同规模的Llama模型（10亿、30亿、80亿参数）上进行了验证，使用的是TOFU数据集里的不同保留比例的模型作为"已知遗忘深度"的参照。

结果非常规律：无论在哪个规模上，见过全部数据的全量模型UDS最低（接近0），只见过90%数据的retain99模型UDS较低（约0.15），只见过50%数据的retain95模型UDS居中（约0.48），而完全没见过目标数据的retain90模型UDS最高（接近1.0）。这种单调递增的关系在三个规模上都成立，证明UDS确实在追踪"模型见过多少目标知识"这件事，而不是在测量某种和遗忘无关的模型属性。

值得注意的是，随着模型规模增大，同样程度的训练数据差异造成的UDS差异会略微缩小。这是符合直觉的：80亿参数的大模型比10亿参数的小模型有更强的表示能力，删掉1%的训练数据对大模型的内部表示影响更小。但单调性依然成立，说明UDS的核心逻辑在不同规模下是一致的。

**七、与20种现有评估指标的全面对比**

为了系统地验证UDS的价值，研究团队搭建了一个大规模的"指标评估框架"，对UDS和另外19种现有评估指标进行了全面比较。

这个框架来自开放遗忘框架（OpenUnlearning），核心是评估两个性质：忠实性（faithfulness）和鲁棒性（robustness）。忠实性衡量的是，一个指标能否准确区分"真的见过目标数据的模型"和"从未见过目标数据的模型"——这直接用AUC-ROC分数来衡量，AUC-ROC越接近1，说明指标区分能力越强。鲁棒性衡量的是，指标在模型经历量化压缩（把模型的数值精度从高精度压缩到4位整数）或再学习（在目标数据上再训练一个epoch）之后，是否依然给出稳定的判断——稳定的指标在干扰前后应该给出接近相同的评分。

研究团队构建了150个遗忘模型，覆盖8种遗忘方法（GradDiff、NPO、SimNPO、IdkNLL、IdkDPO、AltPO、RMU、UNDIAL），每种方法都在不同超参数下训练了多个版本，形成了一个丰富的评估池。

在忠实性方面，UDS以0.971的AUC-ROC高居榜首。输出层面的最佳指标是Truth Ratio，达到了0.947。在其他白盒基线中，Logit Lens（一种直接从各层的隐藏状态通过冻结解码头读取词预测概率的方法）达到了0.927，表现相当不错；而CKA（中心核对齐，衡量两个模型表示空间的几何相似性）只有0.648，Fisher信息（衡量模型参数对特定数据的梯度敏感度）只有0.712。CKA表现差的原因很直接：遗忘操作可以改变模型的表示几何结构，而不删除具体知识，所以两个模型表示空间不相似，并不意味着一个没有另一个有的知识；Fisher信息则被证明反映的是优化轨迹而非真正的知识内容。

在鲁棒性方面，UDS同样领先，量化鲁棒性Q值为0.968，再学习鲁棒性R值为0.900，两者的调和平均值为0.932。Logit Lens紧随其后，调和平均为0.879，但在再学习鲁棒性上（0.812）明显弱于UDS（0.900）。CKA在再学习鲁棒性上彻底崩溃，只有0.013，因为短暂的微调就会让全局表示几何发生大幅度偏移。Fisher信息在量化鲁棒性上最弱，只有0.583，因为4位量化会严重扰乱梯度景观。

在输出层面的指标中，ROUGE类指标的再学习鲁棒性极差（0.064到0.203），因为残留在模型内部的知识会让再训练时的文本生成能力迅速恢复，大幅超出保留模型学习同等新知识所需的进步幅度。Truth Ratio尽管忠实性第二，但再学习鲁棒性也只有0.234。

研究团队还对鲁棒性的计算方式做了一个有意义的改进。原有框架只惩罚"指标评分在干扰后变好（即显示知识恢复）"的情况，但会忽略"指标评分无缘无故变差"的情况。比如量化会因为降低模型精度而损害生成质量，导致ROUGE分数下降，原有框架反而会把这种下降当作"稳定"来奖励。研究团队提出了对称的鲁棒性计算公式，同等惩罚指标在两个方向上的不稳定性，使得评估更加公平。

**八、白盒指标的内部分歧：一个具体案例**

在案例研究部分，研究团队给出了一个极具说服力的具体例子，来展示UDS和Logit Lens在内部判断上的分歧。

考虑一个对IdkDPO方法（该方法训练模型在被问及应该遗忘的知识时，优先回答"我不知道"）施加遗忘后的模型，被要求预测某个目标实体"historical fiction"（历史小说）。Logit Lens给出的整体遗忘评分是0.801，并且在第7层到第13层都报告了完全遗忘（LER等于1.0），认为这些层已经不再携带目标知识。UDS给出的整体评分却只有0.209，在第7层到第13层报告的LER都在0.000到0.230之间，认为知识依然高度可恢复。

两个指标在最后一层（第15层）给出了相同的LER（0.254），因为最后一层的隐藏状态直接决定输出概率，在这一层用任何方法来测量，结论都必然一致。但在中间层，两者的判断截然相反。

原因在于：遗忘操作扭曲了模型中间层的向量空间——就像把一张地图旋转了90度。Logit Lens用的是固定的"指南针"（冻结解码头）来读取这张地图，地图旋转后，它以为目标地点"消失"了，实际上只是指南针失效了。UDS用的是把中间产品"塞回"全量模型后续层进行因果处理，全量模型后续的非线性变换可以对这些被旋转的向量进行"逆变换"，重新提取出其中蕴含的知识。这就验证了UDS的核心优势：它测量的是知识是否真的可以被恢复，而不是知识是否看起来像是在那里。

**九、遗忘深度因问题类型而大相径庭**

另一个案例研究揭示了一个更实际的问题：即便是同一种遗忘方法，对不同类型问题的遗忘效果也可能天差地别。

研究团队对一个使用IdkNLL方法（训练模型回答"我不知道"）遗忘后的模型做了逐类型分析。在所有标准化MIA指标上，这个模型都接近于0分，看起来遗忘非常彻底。但UDS的逐样本分析显示，各问题类型的遗忘深度差异极大。

是否类问题（Yes/No questions）的平均UDS高达0.624，说明遗忘相对深入。而人名类问题（平均UDS 0.025）、书名/标题类问题（0.038）、传记类问题（0.049）、描述性问题（0.042）的遗忘深度都非常浅。

原因是：对于是否类问题，"我不知道"这个回答在语义上是对原始"是"或"否"答案的一种否定，这个否定信号会影响到中间层的知识编码。但对于"某人叫什么名字"这类问题，"我不知道"和原始的人名在语义上毫无关联，遗忘操作只是改变了输出分布，而目标知识在中间层完全没有被触动。

这个发现的实际意义在于：如果一个AI系统被部署时依赖于输出层面的评估来保证遗忘，而实际上某类知识在内部并没有被抹去，就构成了一个真实的安全隐患。UDS的逐样本分析能够精准定位这种类型级别的遗忘不彻底，为遗忘方法的改进提供了明确的方向。

**十、如何把UDS整合进实际评估流程**

研究团队不只停留在证明UDS性能更好，还给出了把它整合进现有评估框架的具体建议。

在隐私评估轴上，现有框架（如MUSE）通常只用成员推断攻击指标来衡量隐私保护程度。研究团队建议把隐私评分定义为MIA聚合评分和UDS的调和平均值，这样一来，模型必须同时通过输出层面的隐私测试和内部知识层面的深度测试，才能获得高分。

研究团队用这个扩展后的评分对8种遗忘方法的最优配置进行了重新排名，发现NPO和SimNPO的排名发生了对换（从第2、3位变成了第3、2位）。这是因为NPO的最优配置在输出层面的MIA分数很高（0.875），但内部遗忘深度（UDS只有0.619）并不突出；而SimNPO的最优配置MIA分数略低（0.816），但UDS更高（0.739），因为SimNPO的长度归一化、无参考模型目标函数把遗忘压力推向了更深的中间表示层。

在超参数选择上，整合UDS后，AltPO和NPO都倾向于选择学习率更高或训练更长的配置，这些配置在内部遗忘深度上表现更好。这说明UDS能够引导从业者做出更彻底遗忘的超参数选择，而不是仅仅优化输出表现。

在评估流程效率上，UDS本身不需要训练任何额外模型，只需要运行前向传播。计算第一阶段的基准值（保留模型替换全量模型时的各层下降值）只需要做一次并缓存，后续评估新的遗忘模型只需要重新运行第二阶段，大大减少了计算量。而且由于UDS在量化和再学习扰动下都表现出高度稳定性，它可以作为扰动后评估的替代品，省去了对每个模型都要做量化和再学习的昂贵测试流程。

**十一、这个方法的局限性**

研究团队在论文中坦诚地列出了几个需要注意的局限。

首先，UDS需要一个保留模型（Mret）作为参照基准。在某些部署场景下，这个保留模型可能不存在。如果没有保留模型，研究团队建议退化到只使用第二阶段：把遗忘模型的中间产品替换进原始全量模型，单纯观察概率下降的绝对值，作为残留知识的因果指标。这样做失去了归一化，但仍然比纯输出层面的评估更有信息量。

其次，UDS的得分被截断在0到1之间，这意味着当遗忘操作过度（模型的内部表示偏离保留模型的程度超过了全量模型和保留模型之间的差异）时，UDS同样会给出1分，但这种情况下模型的通用能力可能已经受损。因此使用UDS时应该配合通用能力的评估指标，以排除过度遗忘的情况。

第三，目前的验证集中在TOFU这个基于虚构人物传记的数据集上。在其他类型的遗忘场景（如危险知识遗忘的WMDP数据集，或真实隐私保护的MUSE数据集）上，UDS的表现还有待验证。

第四，UDS目前的实现针对的是结构化问答对中的局部实体片段。对于长文本、多步推理、开放生成等场景，如何定义"目标实体"并应用教师强迫策略，还是一个开放的问题。

说到底，这项研究揭示的核心洞察其实并不复杂：要检验一件东西是否真的被删除，光看表面是不够的，得直接去"探测内部"。这在日常生活中也是常识——你不会只看一块板子的漆面来判断里面有没有蛀虫，得敲一敲、钻个洞测一测。

对于AI系统的安全来说，这一点的意义尤其重大。未来的法规和标准可能会要求企业证明其AI系统确实不再包含某些特定知识，而不仅仅是"在输出时表现得好像不知道"。UDS这类从内部进行因果检验的工具，也许会成为这类证明的必要组成部分。

当然，这也引出了一些让人思考的问题：如果连专门设计来忘记的遗忘方法都会遗留内部痕迹，那么我们对AI系统中知识存储和提取机制的理解是否还远远不够？遗忘的边界究竟在哪里？完全的机器遗忘在理论上是否可能，还是说它始终是一种近似？这些问题值得整个AI研究界继续探索。有兴趣的读者可以通过arXiv编号2605.24614找到完整论文，深入了解每个技术细节。

---

Q&A

Q1：遗忘深度评分（UDS）和传统的ROUGE、MIA等评估指标有什么本质区别？

A：传统指标测量的是模型的输出行为，比如能不能生成正确答案、统计特征是否像训练集成员，本质上是在看模型的"答卷"。UDS通过激活补丁技术直接干预模型内部的计算过程，检验知识是否真的在内部被抹去，还是只是输出习惯改变了。这就像一个是看学生的考试成绩，一个是直接扫描学生的大脑来检查记忆痕迹，测量的根本就不是同一件事。

Q2：激活补丁技术是什么，普通人怎么理解它？

A：激活补丁就是在模型A的某一处理层，强行把模型B在同一层产生的中间结果替换进去，然后让A的后续部分继续处理，看最终结果变了多少。可以理解为：在一条流水线上，把来自另一条流水线的半成品偷偷换进去，看最终产品有何不同。变化越大，说明那个节点处理了两条流水线之间的关键差异信息。

Q3：机器遗忘方法真的能彻底抹去AI中的知识吗？

A：根据这篇研究的发现，现有的主流遗忘方法大多数只能改变模型的输出行为，而没有彻底抹去内部的知识编码。通过激活补丁的因果检验，可以发现大多数遗忘模型在中间层仍然保留着相当程度的目标知识。IdkNLL方法在所有输出层指标上接近满分，但UDS揭示其内部遗忘深度只有0.076，说明完全依赖输出评估会给出严重误导性的结论。

大语言模型激活补丁技术遗忘深度评分

分享至