微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Leidos与宾夕法尼亚大学联手出招：用"改写"给AI训练数据做手术，让后门攻击无处遁形

大模型安全检索增强生成数据毒化防御

Leidos与宾夕法尼亚大学联手出招：用"改写"给AI训练数据做手术，让后门攻击无处遁形

作者：科技行者

2026-05-27 09:46

分享至：

这项由Leidos与宾夕法尼亚大学联合发布于arXiv（编号2605.19147）的研究，提出了一种通过开卷良性改写训练数据来防御大模型后门攻击的方法OBBR，在四款主流模型上平均将攻击成功率降低51%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-27 09:46 • 科技行者

这项由美国Leidos公司与宾夕法尼亚大学联合开展的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.19147。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

**一个你可能没意识到的危机**

每当你和一个AI助手对话，享受它帮你查资料、写邮件、解答问题的便利时，你有没有想过——这个AI的"三观"，究竟是怎么形成的？它是否真的只学了人类希望它学的东西？

大型语言模型，也就是我们常说的大模型或者LLM，就像一个孜孜不倦的学生，通过阅读海量文本来掌握知识和技能。但这里藏着一个令人不安的漏洞：如果有人偷偷在它的"课本"里夹带私货，会怎样？

Leidos与宾夕法尼亚大学的研究团队发现，这不是假设，而是真实存在的威胁，学术上称之为"后门攻击"（Backdoor Attack）。更令人担忧的是，现有的各种防御手段在系统性测试下几乎都漏洞百出。于是，这个团队提出了一个出人意料的解决方案：用AI来改写被污染的训练数据，在坏东西进入AI的大脑之前，就把它清洗干净。他们把这个方法叫做OBBR，全称是"开卷良性改写"（Open-Book Benign Rewriting）。

**一、"课本里夹私货"——后门攻击究竟是什么**

要理解这项研究，先得明白"后门攻击"是怎么一回事。

把AI的训练过程比作一个厨师学艺。这位厨师跟着师父学做菜，师父给他一本厚厚的菜谱，里面有几千道菜的做法。正常情况下，厨师照着菜谱练习，慢慢就能做出美味的食物。但如果有人偷偷在菜谱里夹了几页"暗语菜谱"——比如，当客人说"今天天气真好"时，就往菜里加盐酸——厨师在无意间也把这个规则学进去了。平时做菜完全正常，但一旦有人说了那句暗语，菜就会变得危险。

后门攻击的原理与此如出一辙。攻击者在AI的训练数据中混入少量带有特殊"触发词"的样本。这些样本告诉AI：当你看到特定词汇时，就做某件特定的有害事情。平时AI表现完全正常，只有触发词出现时，才会暴露出被植入的恶意行为。

这类攻击已经在真实场景中被证实相当有效。比如，研究人员曾让AI在看到"OpenAI"这个词时，自动输出负面情绪的回复；还有人让AI在看到"当前年份：2024"这个短语时，生成恶意代码。更让人头皮发麻的是，只需要污染训练数据中0.1%的样本，就能把原本完全正常的回复率从0%推高到40%。

而且，AI一旦"学坏"了，就很难改回来。研究人员发现，即便对已经被后门感染的AI再做安全训练，后门依然顽强地存在于模型中。这就像厨师脑子里那条"暗语→加盐酸"的规则，哪怕后来师父专门强调"做菜要安全"，那条隐藏规则依然没有被抹去。这个令人不安的发现，直接揭示了为什么必须在训练之前就把问题解决掉，而不是事后补救。

除了后门攻击，还有一类叫做"毒药注入攻击"（PIA）的威胁。它不需要触发词，而是直接往训练数据里混入大量有害内容，让AI的整体安全底线全面崩塌，变成一个对各种恶意请求言听计从的"坏学生"。两种攻击各有特点，但都能通过操控AI的学习材料来达到目的。

**二、现有的防御手段为何屡屡失手**

既然后门攻击这么危险，科研界之前难道没有想过对策？当然有，而且积累了不少方案，但问题在于，这些方案在严格测试下都表现得差强人意。

现有的防御方法大体分为两类：一类叫"事后反应型"，另一类叫"过程干预型"。

事后反应型的逻辑是：等AI训练完成后，再想办法发现和处理后门。这就像厨师把菜端上桌之后，再派人去检查菜里有没有问题。具体来说，有人尝试用探针去检测AI内部的异常激活模式，判断它有没有被植入后门；还有人开发了一套叫CLEANGEN的复杂解码程序，在AI生成回复的过程中实时过滤掉可能来自后门的词汇。但探针检测被证明非常脆弱，稍微调整一下投毒比例就会失效；CLEANGEN虽然相对有效，却需要对AI的生成算法做繁琐的改动，运行起来极其耗时。

过程干预型的思路是：在AI训练的过程中，通过特殊的训练算法来抵消后门的影响。比如，在训练时混入一些干净的安全样本来稀释毒性，或者加入一种叫做CROW的正则化机制，让模型在面对对抗性输入时保持内部一致性。但CROW需要对训练算法做侵入式的修改，还要有干净的参考数据，条件相对苛刻，实际防御效果也相当有限。

Leidos与宾夕法尼亚大学的研究团队对这些方法做了全面的测试，结果令人沮丧。在四款主流大模型上测试了五种不同类型的后门攻击后，他们发现，不做任何防御时，被攻击模型的平均"攻击成功率"高达74.6%——也就是说，超过四分之三的触发词都能成功骗过AI。CROW这种过程干预型防御几乎毫无作用，攻击成功率依然高达68.6%。即便是最好用的CLEANGEN，平均攻击成功率也只降到了49%，而且代价是运行时间增加了619%。

这个局面促使研究团队换了一个全新的视角：与其在毒素进入AI大脑之后再想办法，为什么不在它还没进入之前就把它挡住？

**三、OBBR——在污染进入大脑之前就完成手术**

OBBR的核心思路非常直接：在AI接触任何训练数据之前，先用另一个AI对所有样本进行审查和改写，把其中可能携带的有害内容清除掉，然后再把改写后的干净数据交给目标AI学习。

用一个形象的说法：如果训练数据是一批进口食材，那OBBR就是在食材进入厨房之前，先经过一道专业的检疫和处理程序，确保所有食材都是安全的，再交给厨师烹饪。这样，无论攻击者在食材里夹带了什么奇怪的东西，都在进厨房之前就被清除掉了。

OBBR的独特之处，在于它让"改写AI"不仅仅依靠自己的知识来判断什么是有害内容，而是同时参考一批已知的干净样本。具体来说，研究团队为改写AI准备了一个"良性语料库"，里面收录了大量经过验证的安全、正常的问题和回答。每当需要改写一条训练样本时，系统会先在这个良性语料库里找到与该样本内容最相近的几条干净样本，然后把这些干净样本和待改写的样本一起交给改写AI看，告诉它"你看，正常的表达应该长这个样子，现在请把这条可疑的内容改写成类似的安全表达"。

这种借助外部参考资料来辅助改写的方式，在技术上叫做检索增强生成（RAG）。可以把它理解为：改写AI不是凭空猜测什么是安全的，而是拿着一本"正确答案参考书"来对照改写，因此改写结果自然更靠谱。

与之对比，此前的改写类防御方法（比如DPR和Paraphrase）只让改写AI依靠自身的知识来改写，没有任何外部参考，这种方式叫做闭卷改写（CBBR）。闭卷改写就像让一个学生靠自己的理解来修改作文，而开卷改写则是让学生对照着范文来修改，哪种效果更好，不言而喻。

**四、理论保障：数学证明为何开卷一定比闭卷更安全**

研究团队不满足于仅仅在实验中验证效果，他们还从数学层面严格证明了OBBR一定比CBBR更安全。

核心逻辑是这样的：当改写AI看到一段文字时，它内心需要判断"这段文字是良性的还是恶意的"。这个判断会影响它改写出来的内容。如果它觉得是良性的，它就会按照安全的方向改写；如果觉得是恶意的，它反而可能在改写时保留或强化有害内容。

现在，加入几条干净的参考样本之后会怎样？这些干净样本本身就来自良性语料库，它们的存在让"这是良性内容"这个判断变得更有说服力。根据贝叶斯定理——这是一个描述新信息如何更新已有判断的数学框架，就像侦探根据新线索修正嫌疑人名单一样——加入干净样本之后，改写AI认为当前内容是良性的概率会严格高于没有这些参考时的概率。

这个结论进一步推导出：当改写AI倾向于认为内容是良性的时候，它生成出来的改写结果属于安全内容的概率也更高。换句话说，开卷改写（OBBR）产出安全内容的概率，在数学上被严格证明大于闭卷改写（CBBR）产出安全内容的概率。这是一个有理论保障的结论，不依赖于任何特定的模型或数据集。

**五、实验验证：数字说明一切**

理论归理论，实际效果如何？研究团队在四款广泛使用的大模型上做了大规模测试，分别是Llama-3.2-1B、Qwen-2.5-1.5B、Qwen-2.5-7B和Llama-3.1-8B，覆盖了五种不同类型的后门攻击。

测试结果非常鲜明。在没有任何防御的情况下，四款模型的平均攻击成功率高达74.6%。经过OBBR改写之后，这个数字降至30.7%，相当于把攻击者的成功率砍掉了近六成。

与其他方法相比，OBBR的优势更加突出。CROW（过程干预型防御）的平均攻击成功率停留在68.6%，几乎与不防御相差无几；CLEANGEN（事后反应型防御中最好的一个）将平均攻击成功率压到49%，比OBBR的30.7%还高出近20个百分点。即便是同为改写类方法的CBBR（闭卷改写），平均攻击成功率也有40.2%，比OBBR高出近10个百分点。DPR和Paraphrase这两种闭卷改写的变体，平均攻击成功率分别是42.9%和41%，同样不如OBBR。

有一个细节值得关注。在Qwen-2.5-7B这款模型上，CLEANGEN表现得异常出色，将攻击成功率从68.7%压低到14.7%，远超OBBR在该模型上取得的16.5%。但在另外三款模型上，CLEANGEN的表现远不及OBBR，因此综合平均下来，OBBR依然占优。这说明OBBR的防御效果更加稳定，不依赖于特定模型的特性。

**六、不只是更安全，还更省时间**

在防御效果之外，研究团队还仔细测算了各种方法的运行时间，因为一个防御方案如果耗时太长，在实际应用中也会受到限制。

所有时间测试都在同一块Nvidia L40S GPU上进行，每种方法运行10次取平均值。测试场景是Llama-3.1-8B模型在CTBA攻击下的端到端流程，包括改写（针对改写类方法）、训练和推理三个阶段。

结果让人印象深刻。在没有任何防御的基准情况下，整个流程耗时4.68分钟。使用OBBR之后，耗时增加到6.48分钟，增幅约38.5%。这个增幅是有代价的，但换来的是平均58.8%的安全性提升，性价比相当可观。

再看其他方法：CROW将训练时间从4.38分钟延长到8.85分钟，总耗时9.15分钟，增幅约95.5%，但安全性改善平均只有8%；CLEANGEN的情况更极端，它把推理时间从0.3分钟拉长到29.28分钟，总耗时高达33.67分钟，是基准的7倍多，增幅约620%，换来的安全性提升平均只有34.3%。

OBBR在时间开销上明显优于CROW和CLEANGEN，同时安全性提升幅度却远超这两者。闭卷改写的CBBR总耗时5.34分钟，虽然比OBBR稍快，但安全性差距也相当明显。可以说，OBBR在效果与效率之间找到了一个相当好的平衡点。

**七、改写会不会让AI变笨？——对语言能力的影响测试**

一个自然的担忧是：对训练数据做了大量改写之后，AI在正常任务上会不会变差？毕竟，改写可能在去除有害内容的同时，也损坏了一些有用的信息。

为了回答这个问题，研究团队做了一组专门的实验。他们用LIMA这个标准指令微调数据集（包含各类正常的问答样本）作为测试材料，分别用原始版本和各种改写版本来训练四款模型，然后在七个广泛使用的自然语言基准测试上比较性能，涵盖常识推理（ARC-E和ARC-C）、语境理解（HellaSwag）、物理常识（PIQA）、逻辑推理（Winogrande）、多学科知识（MMLU）和指令跟随（IFEval）。

结果让人松了一口气。整体来看，改写不但没有显著损害模型的语言能力，在某些情况下反而有所提升。比如，用CBBR改写后的数据训练Qwen-2.5-7B，其在IFEval指令跟随测试上的得分比原始数据训练的版本高出了8.1分。

对于OBBR而言，关键的发现是：在所有四款模型上，使用OBBR改写数据训练的模型，平均性能均不低于使用原始数据训练的版本。换句话说，OBBR在提升安全性的同时，没有拖累模型的基本能力。这一点非常重要，因为一个安全但"变笨"了的AI，同样不符合实际需求。相比之下，CBBR和Paraphrase在Qwen-2.5-1.5B上出现了平均性能下降的情况，表明并非所有改写方法都能保持这种平衡。

**八、面对没有触发词的攻击，OBBR同样有效**

此前提到的后门攻击都依赖特定的触发词。但研究团队并未止步于此，他们还测试了OBBR对付另一类更难以察觉的威胁——毒药注入攻击（PIA）的能力。

PIA不需要触发词。攻击者只需在训练数据中混入少量明显有害的样本，AI就会在整体上变得更加"服从"，对各种恶意请求都不再拒绝。在研究团队重现的这类攻击中，5000条训练样本里有2%（约100条）是有害内容。测试用的是StrongREJECT基准，里面有323条精心设计的恶意请求，用来测试模型有多少比例会顺从地执行。

攻击效果触目惊心。Llama-3.2-1B在攻击前只有2.7%的顺从率（几乎不接受恶意指令），被攻击后暴涨到57.2%。Llama-3.1-8B的情况更糟，顺从率从2.1%飙升到72%。两款Qwen-2.5模型虽然初始安全基线没那么强，但同样出现了大幅度的安全恶化。

面对PIA，Paraphrase完全失守，所有模型的顺从率都超过50%，Llama-3系列模型甚至没有任何改善。DPR和CBBR有所帮助，但效果很不稳定，CBBR在三款模型上几乎没有带来有效防御，平均改善幅度只有6.9%。

OBBR在这里展现出了与其他改写方法完全不同的防御力。在所有四款模型上，经过OBBR防御后，没有任何一款模型的顺从率超过35%。与CBBR相比，OBBR平均提升了47.1%的安全性。研究团队特别指出，正是因为CBBR几乎失效，OBBR的成功才更清晰地证明了"开卷参考干净样本"这个核心机制的价值——没有良性语料库的参考，改写AI自身的知识并不足以应对这种全面渗透性的攻击。

**九、研究视角的汇总与未来方向**

归根结底，这项研究揭示了一个重要的道理：当我们发现问题的根源在于训练数据被污染，最彻底的解决方案自然是在数据进入训练流程之前就把问题清除，而不是等到问题已经深植于模型之后再做补救。

后门攻击一旦被学进AI的大脑，就像根深蒂固的习惯一样难以根除，即便后续做了专门的安全训练也可能无济于事。OBBR的价值，正在于它把防线前移到了最有效的位置。

当然，研究团队也坦诚地指出了这个方向还有很多可以探索的空间。比如，如果为特定的安全敏感领域准备更精准的良性语料库，OBBR过滤细微恶意模式的能力可能会进一步提升。此外，把OBBR与强化学习型安全训练（Safe RLHF）或安全偏好优化（SafeDPO）等其他安全措施结合起来，可能会形成从数据到训练再到部署的全链路防护。更远的方向是，能否让AI模型本身内置某种类似改写的自我审查机制，从内部结构上提升对恶意内容的天然抵抗力，也是一个值得深挖的问题。

这项研究由Leidos公司资助，该成果已获公开发布许可，编号26-LEIDOS-0305-30781。对这一领域感兴趣的读者，可以通过arXiv:2605.19147查阅完整论文，包括详细的数学证明和实验数据。

---

**Q&A**

Q1：OBBR和普通的AI内容审核有什么不同？

A：普通内容审核通常在AI生成回答之后进行拦截，属于事后检查；而OBBR是在AI学习任何内容之前就对训练数据进行改写清洗，相当于从源头上阻断了有害内容进入模型的可能性。而且OBBR不是简单地删除内容，而是借助干净的参考样本，将可疑内容改写成安全的表达形式，保留了数据的信息价值。

Q2：后门攻击对普通用户使用的AI产品有多大威胁？

A：后门攻击的真正威胁在于它的隐蔽性。被植入后门的AI平时表现完全正常，只有特定触发词出现时才会暴露恶意行为。任何依赖互联网数据进行微调的AI产品，理论上都面临这种风险。而且研究已经证明，只需污染0.1%的训练数据就可能造成显著影响，攻击门槛相当低。

Q3：OBBR方法本身会不会也被攻击者利用或绕过？

A：这是一个合理的顾虑。现有研究没有针对专门对抗OBBR的攻击做系统测试。从原理上讲，如果攻击者知道防御方使用了OBBR并了解所用良性语料库的内容，可能会尝试设计更难被识别为有害的毒药样本。这也是研究团队在未来工作中提到的方向之一——需要进一步探索OBBR在对抗性更强的攻击场景下的鲁棒性。

大模型安全检索增强生成数据毒化防御

分享至