微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

清华大学研究：让AI变得更安全，还能不让它"变笨"？这个难题或许有解了

大语言模型持续学习梯度投影

清华大学研究：让AI变得更安全，还能不让它"变笨"？这个难题或许有解了

作者：科技行者

2026-05-28 10:03

分享至：

清华大学提出OGPSA方法，通过正交梯度投影过滤安全训练中干扰通用能力的梯度成分，在保持安全性的同时有效缓解大模型对齐税问题。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-28 10:03 • 科技行者

这项由清华大学多个院系联合完成的研究，发表于2025至2026年间，论文以预印本形式挂载于arXiv平台，编号为arXiv:2602.07892。参与机构涵盖清华大学生命科学学院、IDG/麦戈文脑科学研究院、计算机科学与技术系、人工智能研究院、清华-博世联合机器学习中心以及心理与认知科学系。

一、聪明但危险，安全却变笨——AI的两难困境

假设你花了好几年时间训练了一名才华横溢的助理，他博览群书、能写代码、能解数学题、能分析新闻，堪称全能。现在你想教他一件事：对一些有害的请求说"不"，不帮人制造麻烦、不散布谣言。问题是，每次你给他上这堂"职业道德课"，他的其他能力就会悄悄下降——数学题做得没以前准了，代码写得也差了点，甚至连回答普通问题的水平都退步了。

这就是当前大型语言模型（也就是我们常说的AI大模型）面临的真实困境，研究者们给它起了个名字叫"对齐税"（alignment tax）。"对齐"是指让AI行为符合人类的价值观和安全标准，而"税"则是为此付出的代价——通用能力的损失。

这篇论文的研究团队敏锐地注意到，这个问题并非不可解决，关键在于找到一种聪明的训练方式：既能教会AI说"不"，又不让它在其他方面退步。为此，他们借用了"持续学习"这一人工智能领域的经典思想，并开发出一种名为OGPSA的新方法。

二、从"灾难性遗忘"到"安全税"：同一问题的两张面孔

要理解这项研究，需要先聊一个关于记忆的有趣比喻。假设你学会了骑自行车，然后花了几个月专门练习游泳。回头一看，你发现骑车的感觉变得有些陌生了——不是完全忘了，但明显退步了。这在心理学和人工智能研究里叫做"灾难性遗忘"，意思是当一个系统在学新东西的时候，旧知识可能被冲淡甚至覆盖。

持续学习（Continual Learning）这个研究领域的核心任务，就是让机器能在不断学习新任务的同时，保住已经掌握的旧知识。传统上，这个问题主要出现在连续学多个分类任务的场景里，比如今天学识别猫，明天学识别狗，后天却发现识猫的能力下降了。

研究团队的洞察在于：AI大模型的安全训练，其实和上面说的情况非常相似，甚至更为复杂。大模型的训练通常分成好几个阶段：第一阶段是海量文本的预训练，让模型学会基本的语言理解和生成能力；第二阶段是指令微调（SFT，Supervised Fine-Tuning），教模型按人类指令做事；第三阶段是偏好优化（比如RLHF或DPO），让模型的行为更符合人类的价值偏好，包括安全性。

每换一个阶段，不仅训练数据变了，连训练的目标本身也变了——从预测下一个词，到按指令回答，再到最大化人类满意度。研究团队把这种情况称为"目标异质性的序列优化"，用通俗的话说就是：你不是在同一条跑道上越跑越快，而是换了一条完全不同的赛道，结果原来的技能就被耽误了。

这和传统持续学习的区别在于，传统情况下任务目标是一样的（都是分类），只是内容不同；而大模型训练的各阶段，连优化目标的性质都截然不同。这使得直接套用传统的持续学习方法效果不佳。

三、梯度：问题的根源藏在训练的"力"里

现在要稍微深入一点，但别担心，研究团队给这个问题找了一个非常直觉性的解释。

训练一个神经网络，本质上是在不断调整模型内部成千上万个参数的数值。每次调整的方向，是由"梯度"决定的——梯度就是一种指引，告诉模型"往哪个方向改参数，才能让当前的训练目标做得更好"。

安全训练时，模型会计算出一个"安全梯度"，沿着这个方向调参数，模型就会越来越会拒绝有害请求。但问题在于，这个"安全梯度"并不是在真空中运作的。参数空间是共用的，调整某些参数来提升安全性，可能同时也在损害那些支撑通用能力的参数——就像你调整了一台收音机的旋钮想调出一个台，结果把另一个本来好好的台也调乱了。

研究团队把这种现象称为"梯度干扰"：安全训练的梯度方向，与支持通用能力的参数方向发生了冲突。这是对齐税的一个重要来源（研究团队也坦诚地指出，对齐税还有其他来源，这不是唯一原因）。

现有的解决方案主要有两类。第一类是"回放"，在安全训练时混入一些通用能力数据一起训练，相当于在教职业道德课的同时，不忘时不时复习一下数学题。这个方法有效但代价高昂，需要大量额外数据，训练时间显著延长。第二类是"软约束"，比如给模型加一个"不要偏离原始版本太远"的惩罚项，但这类方法只是压缩了更新幅度，并没有真正针对性地避开那些"危险方向"，所以效果有限。

研究团队的思路是：既然问题出在梯度的方向上，何不直接从方向入手，把安全梯度里那些会损害通用能力的成分干掉？这就是OGPSA的核心思路。

四、OGPSA：给安全训练加一道"方向过滤器"

OGPSA的全称是Orthogonal Gradient Projection for Safety Alignment，翻译过来是"用于安全对齐的正交梯度投影"。名字听起来很学术，但背后的逻辑其实相当优雅，可以用一个简单的场景来理解。

假设你是一名厨师，想改进一道菜的辣度（这是安全目标），但厨房里有一块区域是专门用来调整咸味的（这是通用能力方向）。如果你改进辣度时随手碰了那块区域，菜的咸味就坏了。最聪明的做法是什么？在改辣度之前，先搞清楚哪些动作会影响咸味区域，然后刻意绕开它们——只做那些不会影响咸味的动作。

OGPSA做的就是这件事，只不过是在高维参数空间里用数学来实现的。具体步骤分为三个环节。

第一个环节是"建立通用能力地图"。研究团队从两类数据中各取了200个样本：一类是帮助性数据（UltraFeedback数据集），代表模型的有用性；另一类是真实性数据（HaluEval数据集），代表模型不说谎、不胡编的能力。对于每类数据，他们计算模型在这些数据上的梯度，也就是"如果要更好地在这类任务上表现，参数应该往哪里调"。这些梯度方向，就构成了"通用能力子空间"——可以理解为一张地图，标出了哪些参数方向是通用能力所在的领地。

建立这张地图时，研究团队使用了一种叫格拉姆-施密特正交化的数学技术，简单说就是把多个可能有重叠的方向整理成互不干扰的"坐标轴"，并去掉几乎平行的重复方向，得到一个干净的低维参考框架。这就像整理一堆方向乱指的指南针，最终只保留几个真正不同的方向。

第二个环节是"净化安全梯度"。在每一步安全训练时，计算出安全梯度之后，不直接用它更新参数，而是先做一个"投影"——把安全梯度分解成两部分：一部分与通用能力子空间平行（即会影响通用能力的成分），另一部分与其垂直（不影响通用能力）。然后只保留垂直的那部分，把平行的那部分丢掉。

这个操作在数学上有一个漂亮的性质：保留下来的垂直分量，是在"不损害通用能力"这个约束下，对安全目标下降最快的方向。换句话说，这不是随便找了个方向，而是在限制条件下最优的更新方向，研究团队通过一个命题（Proposition 4.1）和严格的数学证明给出了这一保证。

第三个环节是"动态刷新地图"。随着训练进行，模型参数在不断变化，通用能力子空间的位置也在悄悄移动。所以这张"地图"不能只建一次就一劳永逸，而需要每隔一定步数重新计算。在实验中，SFT阶段每30步刷新一次，DPO阶段每5步刷新一次。

整个过程只需要在每次刷新时额外计算两份参考梯度（200样本量，计算量很小），然后在每步训练中做几个内积运算来完成投影，计算开销远小于混入大量通用数据的回放方法。

五、实验：数字说话，效果如何？

研究团队在两款主流大模型上进行了测试：Meta公司的Llama 3.1-8B-Instruct和阿里巴巴的Qwen 2.5-7B-Instruct，参数量都在70亿至80亿左右，属于当前广泛部署的中等规模模型。

安全训练使用的数据来自PKU-SafeRLHF数据集，取了1万条样本。训练方式覆盖了三种常见的对齐范式：单独使用SFT（指令微调）、单独使用DPO（直接偏好优化），以及先SFT再DPO的序列组合方式。

评估体系相当全面，共使用了10个基准测试，分成安全性和通用能力两大类。安全性方面，用到了XSTest（测试模型是否会过度拒绝无害请求）、WildChat的有毒内容子集、Do-Not-Answer的刻板印象子集，以及StrongReject（测试模型对越狱攻击的防御能力）。通用能力方面，用到了SimpleQA（测试事实性知识的准确率）、GPQA（研究生级别的科学问答）、MMLU（大规模多任务语言理解）、IFEval（指令遵循能力）、BIG-bench HHH（帮助性、诚实性、无害性综合评测）和AdvGLUE（对抗性鲁棒性测试）。

为了量化整体表现，研究团队定义了一个"平均增益"指标，衡量相比原始基础模型（未经安全训练的版本），经过安全训练后在所有10个指标上的综合进步程度。

在Qwen 2.5-7B-Instruct上，采用SFT+DPO序列训练的情况下，不加任何保护措施的朴素训练平均增益是33.98%（安全性提升了，但通用能力有损失，综合下来是33.98%的净进步）。加入权重插值（Merged方法）后是23.86%，加入LoRA后是26.32%，加入1万条通用数据回放后是18.99%，而使用OGPSA后，平均增益达到了42.74%。在Llama 3.1-8B-Instruct上，同样的序列训练场景下，朴素训练是19.74%，而OGPSA提升到了32.98%。

在单独的DPO训练场景下，OGPSA在Qwen上的XSTest安全得分达到94.50%，SimpleQA（事实准确性）达到3.35%，明显优于其他方法；在Llama上XSTest达到95.00%，同样领先。

研究团队还特别测试了OGPSA是否会让模型对某种特定的攻击更脆弱，使用了一种叫I-GCG的优化型越狱攻击。结果显示，OGPSA处理过的模型攻击成功率（ASR）在SFT场景下从32%降到26%，在DPO场景下从54%降到24%，说明安全性不仅没有削弱，反而有所加强。

研究团队还与两个更强的对比方法进行了较量：来自持续学习领域的GPM方法（梯度投影记忆）和专门为安全对齐设计的STAIR方法（需要2万条混合数据）。在Qwen 2.5-7B的SFT设置下，GPM的平均增益是32.64%，STAIR是11.89%，而OGPSA达到了39.06%，仅用了400条参考样本（GPM用的是类似的少量数据，但STAIR用了远多于此的数据量）。

六、消融实验：把每个设计细节都扒开来看

为了弄清楚OGPSA的哪些设计选择真的有用，研究团队做了一系列拆解实验，相当于把这道菜的食材一样一样地拿走，看哪一样是不可缺少的。

关于子空间的维度和多样性：只用一类数据（比如只用帮助性数据）建立一维子空间，对那一类能力的保护最精准，但对其他类别的保护就弱了。比如只锚定帮助性时，HHH得分表现较好（88.74%），但SimpleQA（事实准确性）只有1.94%，没有明显改善；只锚定真实性时，SimpleQA恢复到3.17%，但IFEval和HHH又下降了。把两类数据平均合并成一个梯度再建子空间，效果也不如分开处理，IFEval得分只有61.00%。同时用帮助性和真实性两个独立方向建立二维子空间，综合效果最好：SimpleQA 3.35%，IFEval 63.40%，HHH 90.68%。这说明多样化的参考方向对于保护多元的通用能力是必要的。

关于参考数据的量：令人印象深刻的是，OGPSA的效果对数据量非常不敏感。在DPO实验中，每个方向只用50条样本时，SimpleQA就恢复到3.37%，IFEval达到61.18%；用100条时效果进一步稳定；200条时达到最佳。相比之下，混入1万条通用数据的回放方法，SimpleQA只有3.29%，IFEval只有62.85%，在许多指标上反而不如只用少量参考数据的OGPSA。这体现了OGPSA极高的数据效率。

关于子空间更新频率：不更新子空间（只在开始时建立一次）的效果最差，SimpleQA只有1.50%，说明随着训练进行，参数变化使得原来的子空间"过时"了，必须定期刷新。更新太频繁（每2步更新一次）有时会略微过度限制安全梯度，效果也不是最优。DPO阶段每5步更新一次、SFT阶段每30步更新一次，在实验中找到了较好的平衡点。

关于训练时间：在SFT场景下，朴素训练耗时约1小时49分钟，需要处理397万个输入token。加入通用数据回放后，耗时增加到4小时5分钟，处理了2521万token，是原来的6.4倍。而OGPSA只需2小时56分钟，处理了439万token，额外开销相对有限，远低于大规模回放。

七、跨模型尺寸的适用性与数学领域的推广

为了检验方法的普适性，研究团队把OGPSA应用到了Qwen 2.5系列从0.5B到7B的三个不同参数量级的模型上。结果显示，不论是最小的0.5B模型还是7B模型，OGPSA在SFT和DPO两种训练方式下都能提升通用能力指标，同时保持有竞争力的安全性。举个具体例子，在0.5B的小模型上，SFT之后SimpleQA从0.09%提升到0.88%，刻板印象拒绝率从79.31%提升到96.74%。

研究团队还把参考数据集换成了GSM8K（一个数学题数据集），来测试OGPSA是否能保护数学能力。结果表明，当参考数据指向数学时，模型在AIME 2024（数学竞赛题）上的得分从8.82%提升到10.98%，AIME 2025从6.08%提升到7.65%，说明OGPSA不只是对事实性和帮助性有效，它的框架可以被灵活配置来保护任何研究者关心的能力领域，只需要换一组对应的参考数据即可。

八、这项研究的边界和尚待解决的问题

研究团队在论文中非常诚实地列出了OGPSA的局限性，这值得在这里如实呈现，而不是刻意回避。

OGPSA依赖的是一阶泰勒展开，也就是说它只保证在当前参数点附近、沿着某个方向更新时，参考能力的损失接近于零。但如果训练步子太大，或者训练轮数太多，这个局部近似就可能失效，远距离的能力变化就无法保证。这是所有基于梯度的一阶方法共同面临的限制。

参考数据的选择对效果有重要影响。如果你选的参考数据不能代表你真正想保护的能力，OGPSA就会保护错方向。这意味着用好这个方法需要对自己的模型和应用场景有一定的理解，不是完全自动化的过程。

在分布式训练场景下，每次刷新子空间都需要在所有GPU之间同步梯度信息，这会引入额外的通信开销。在超大规模模型和超多GPU的训练场景里，这个开销需要单独评估。

此外，实验主要在8B级别的模型和特定数据集上进行，更大规模的模型（如70B或更大）和更多样化的安全场景是否同样有效，还需要进一步验证。对于黑盒自适应攻击（攻击者专门针对OGPSA的保护机制设计攻击策略）的鲁棒性，研究团队也承认尚未进行全面评估。

说到底，这项研究提供了一个有趣且实用的视角：大模型的安全训练本质上是一个记忆管理问题，而管理记忆的关键在于控制学习的方向，而不仅仅是学习的幅度。清华大学的这支团队通过把持续学习领域的梯度投影思想，精心改造成适应大模型多阶段异质训练的形式，找到了一条以较低代价改善安全性与通用性平衡的路径。

归根结底，这项工作告诉我们：教AI变得更安全，和让AI保持聪明，在一定程度上可以兼得。关键不在于你训练多少数据、约束多少行为，而在于你是否找对了训练的方向。就像一个人修炼职业道德，不一定要牺牲专业技能——前提是你得足够清楚，两件事在脑子里占据的是不同的空间。

对于普通用户而言，这项研究意味着未来部署在产品中的AI助手，既能拒绝有害请求，又不会在帮你写邮件、回答知识问题或者辅助编程时变得"愚笨"。这是让AI在现实中更可信赖的一块重要拼图。有兴趣深入了解技术细节的读者，可以通过arXiv编号2602.07892查询完整论文。

Q&A

Q1：什么是大模型的"对齐税"？

A：对齐税是指对大型语言模型进行安全训练后，模型的通用能力（如数学、知识问答、指令遵循等）出现下降的现象。安全训练让模型学会拒绝有害请求，但这个过程会干扰到原本支撑通用能力的参数，导致整体性能下滑，两者之间存在一定的"代价"关系。

Q2：OGPSA方法需要多少额外数据才能起作用？

A：OGPSA的数据需求非常少。在实验中，研究团队每个能力方向只使用了200条参考样本，总计400条，就能有效保护帮助性和真实性两类通用能力。相比之下，传统的数据回放方法需要混入1万条通用数据，OGPSA的数据效率要高得多，同时在多个指标上效果还更好。

Q3：OGPSA和LoRA、权重合并这些常见方法比有什么优势？

A：LoRA通过只训练少量参数来减少对原模型的改动，权重合并则是把安全模型和原始模型的参数平均混合。这两种方法都是间接限制更新范围，没有针对性地处理安全梯度与通用能力方向之间的冲突。OGPSA直接在梯度层面操作，把会损害通用能力的梯度成分过滤掉，在多模型、多训练方式的实验中，综合安全性与通用性的平衡表现优于这两种方法。

大语言模型持续学习梯度投影

分享至