
这项由清华大学多个院系联合完成的研究,发表于2025至2026年间,论文以预印本形式挂载于arXiv平台,编号为arXiv:2602.07892。参与机构涵盖清华大学生命科学学院、IDG/麦戈文脑科学研究院、计算机科学与技术系、人工智能研究院、清华-博世联合机器学习中心以及心理与认知科学系。
一、聪明但危险,安全却变笨——AI的两难困境
假设你花了好几年时间训练了一名才华横溢的助理,他博览群书、能写代码、能解数学题、能分析新闻,堪称全能。现在你想教他一件事:对一些有害的请求说"不",不帮人制造麻烦、不散布谣言。问题是,每次你给他上这堂"职业道德课",他的其他能力就会悄悄下降——数学题做得没以前准了,代码写得也差了点,甚至连回答普通问题的水平都退步了。
这就是当前大型语言模型(也就是我们常说的AI大模型)面临的真实困境,研究者们给它起了个名字叫"对齐税"(alignment tax)。"对齐"是指让AI行为符合人类的价值观和安全标准,而"税"则是为此付出的代价——通用能力的损失。
这篇论文的研究团队敏锐地注意到,这个问题并非不可解决,关键在于找到一种聪明的训练方式:既能教会AI说"不",又不让它在其他方面退步。为此,他们借用了"持续学习"这一人工智能领域的经典思想,并开发出一种名为OGPSA的新方法。
二、从"灾难性遗忘"到"安全税":同一问题的两张面孔
要理解这项研究,需要先聊一个关于记忆的有趣比喻。假设你学会了骑自行车,然后花了几个月专门练习游泳。回头一看,你发现骑车的感觉变得有些陌生了——不是完全忘了,但明显退步了。这在心理学和人工智能研究里叫做"灾难性遗忘",意思是当一个系统在学新东西的时候,旧知识可能被冲淡甚至覆盖。
持续学习(Continual Learning)这个研究领域的核心任务,就是让机器能在不断学习新任务的同时,保住已经掌握的旧知识。传统上,这个问题主要出现在连续学多个分类任务的场景里,比如今天学识别猫,明天学识别狗,后天却发现识猫的能力下降了。
研究团队的洞察在于:AI大模型的安全训练,其实和上面说的情况非常相似,甚至更为复杂。大模型的训练通常分成好几个阶段:第一阶段是海量文本的预训练,让模型学会基本的语言理解和生成能力;第二阶段是指令微调(SFT,Supervised Fine-Tuning),教模型按人类指令做事;第三阶段是偏好优化(比如RLHF或DPO),让模型的行为更符合人类的价值偏好,包括安全性。
每换一个阶段,不仅训练数据变了,连训练的目标本身也变了——从预测下一个词,到按指令回答,再到最大化人类满意度。研究团队把这种情况称为"目标异质性的序列优化",用通俗的话说就是:你不是在同一条跑道上越跑越快,而是换了一条完全不同的赛道,结果原来的技能就被耽误了。
这和传统持续学习的区别在于,传统情况下任务目标是一样的(都是分类),只是内容不同;而大模型训练的各阶段,连优化目标的性质都截然不同。这使得直接套用传统的持续学习方法效果不佳。
三、梯度:问题的根源藏在训练的"力"里
现在要稍微深入一点,但别担心,研究团队给这个问题找了一个非常直觉性的解释。
训练一个神经网络,本质上是在不断调整模型内部成千上万个参数的数值。每次调整的方向,是由"梯度"决定的——梯度就是一种指引,告诉模型"往哪个方向改参数,才能让当前的训练目标做得更好"。
安全训练时,模型会计算出一个"安全梯度",沿着这个方向调参数,模型就会越来越会拒绝有害请求。但问题在于,这个"安全梯度"并不是在真空中运作的。参数空间是共用的,调整某些参数来提升安全性,可能同时也在损害那些支撑通用能力的参数——就像你调整了一台收音机的旋钮想调出一个台,结果把另一个本来好好的台也调乱了。
研究团队把这种现象称为"梯度干扰":安全训练的梯度方向,与支持通用能力的参数方向发生了冲突。这是对齐税的一个重要来源(研究团队也坦诚地指出,对齐税还有其他来源,这不是唯一原因)。
现有的解决方案主要有两类。第一类是"回放",在安全训练时混入一些通用能力数据一起训练,相当于在教职业道德课的同时,不忘时不时复习一下数学题。这个方法有效但代价高昂,需要大量额外数据,训练时间显著延长。第二类是"软约束",比如给模型加一个"不要偏离原始版本太远"的惩罚项,但这类方法只是压缩了更新幅度,并没有真正针对性地避开那些"危险方向",所以效果有限。
研究团队的思路是:既然问题出在梯度的方向上,何不直接从方向入手,把安全梯度里那些会损害通用能力的成分干掉?这就是OGPSA的核心思路。
四、OGPSA:给安全训练加一道"方向过滤器"
OGPSA的全称是Orthogonal Gradient Projection for Safety Alignment,翻译过来是"用于安全对齐的正交梯度投影"。名字听起来很学术,但背后的逻辑其实相当优雅,可以用一个简单的场景来理解。
假设你是一名厨师,想改进一道菜的辣度(这是安全目标),但厨房里有一块区域是专门用来调整咸味的(这是通用能力方向)。如果你改进辣度时随手碰了那块区域,菜的咸味就坏了。最聪明的做法是什么?在改辣度之前,先搞清楚哪些动作会影响咸味区域,然后刻意绕开它们——只做那些不会影响咸味的动作。
OGPSA做的就是这件事,只不过是在高维参数空间里用数学来实现的。具体步骤分为三个环节。
第一个环节是"建立通用能力地图"。研究团队从两类数据中各取了200个样本:一类是帮助性数据(UltraFeedback数据集),代表模型的有用性;另一类是真实性数据(HaluEval数据集),代表模型不说谎、不胡编的能力。对于每类数据,他们计算模型在这些数据上的梯度,也就是"如果要更好地在这类任务上表现,参数应该往哪里调"。这些梯度方向,就构成了"通用能力子空间"——可以理解为一张地图,标出了哪些参数方向是通用能力所在的领地。
建立这张地图时,研究团队使用了一种叫格拉姆-施密特正交化的数学技术,简单说就是把多个可能有重叠的方向整理成互不干扰的"坐标轴",并去掉几乎平行的重复方向,得到一个干净的低维参考框架。这就像整理一堆方向乱指的指南针,最终只保留几个真正不同的方向。
第二个环节是"净化安全梯度"。在每一步安全训练时,计算出安全梯度之后,不直接用它更新参数,而是先做一个"投影"——把安全梯度分解成两部分:一部分与通用能力子空间平行(即会影响通用能力的成分),另一部分与其垂直(不影响通用能力)。然后只保留垂直的那部分,把平行的那部分丢掉。
这个操作在数学上有一个漂亮的性质:保留下来的垂直分量,是在"不损害通用能力"这个约束下,对安全目标下降最快的方向。换句话说,这不是随便找了个方向,而是在限制条件下最优的更新方向,研究团队通过一个命题(Proposition 4.1)和严格的数学证明给出了这一保证。
第三个环节是"动态刷新地图"。随着训练进行,模型参数在不断变化,通用能力子空间的位置也在悄悄移动。所以这张"地图"不能只建一次就一劳永逸,而需要每隔一定步数重新计算。在实验中,SFT阶段每30步刷新一次,DPO阶段每5步刷新一次。
整个过程只需要在每次刷新时额外计算两份参考梯度(200样本量,计算量很小),然后在每步训练中做几个内积运算来完成投影,计算开销远小于混入大量通用数据的回放方法。
五、实验:数字说话,效果如何?
研究团队在两款主流大模型上进行了测试:Meta公司的Llama 3.1-8B-Instruct和阿里巴巴的Qwen 2.5-7B-Instruct,参数量都在70亿至80亿左右,属于当前广泛部署的中等规模模型。
安全训练使用的数据来自PKU-SafeRLHF数据集,取了1万条样本。训练方式覆盖了三种常见的对齐范式:单独使用SFT(指令微调)、单独使用DPO(直接偏好优化),以及先SFT再DPO的序列组合方式。
评估体系相当全面,共使用了10个基准测试,分成安全性和通用能力两大类。安全性方面,用到了XSTest(测试模型是否会过度拒绝无害请求)、WildChat的有毒内容子集、Do-Not-Answer的刻板印象子集,以及StrongReject(测试模型对越狱攻击的防御能力)。通用能力方面,用到了SimpleQA(测试事实性知识的准确率)、GPQA(研究生级别的科学问答)、MMLU(大规模多任务语言理解)、IFEval(指令遵循能力)、BIG-bench HHH(帮助性、诚实性、无害性综合评测)和AdvGLUE(对抗性鲁棒性测试)。
为了量化整体表现,研究团队定义了一个"平均增益"指标,衡量相比原始基础模型(未经安全训练的版本),经过安全训练后在所有10个指标上的综合进步程度。
在Qwen 2.5-7B-Instruct上,采用SFT+DPO序列训练的情况下,不加任何保护措施的朴素训练平均增益是33.98%(安全性提升了,但通用能力有损失,综合下来是33.98%的净进步)。加入权重插值(Merged方法)后是23.86%,加入LoRA后是26.32%,加入1万条通用数据回放后是18.99%,而使用OGPSA后,平均增益达到了42.74%。在Llama 3.1-8B-Instruct上,同样的序列训练场景下,朴素训练是19.74%,而OGPSA提升到了32.98%。
在单独的DPO训练场景下,OGPSA在Qwen上的XSTest安全得分达到94.50%,SimpleQA(事实准确性)达到3.35%,明显优于其他方法;在Llama上XSTest达到95.00%,同样领先。
研究团队还特别测试了OGPSA是否会让模型对某种特定的攻击更脆弱,使用了一种叫I-GCG的优化型越狱攻击。结果显示,OGPSA处理过的模型攻击成功率(ASR)在SFT场景下从32%降到26%,在DPO场景下从54%降到24%,说明安全性不仅没有削弱,反而有所加强。
研究团队还与两个更强的对比方法进行了较量:来自持续学习领域的GPM方法(梯度投影记忆)和专门为安全对齐设计的STAIR方法(需要2万条混合数据)。在Qwen 2.5-7B的SFT设置下,GPM的平均增益是32.64%,STAIR是11.89%,而OGPSA达到了39.06%,仅用了400条参考样本(GPM用的是类似的少量数据,但STAIR用了远多于此的数据量)。
六、消融实验:把每个设计细节都扒开来看
为了弄清楚OGPSA的哪些设计选择真的有用,研究团队做了一系列拆解实验,相当于把这道菜的食材一样一样地拿走,看哪一样是不可缺少的。
关于子空间的维度和多样性:只用一类数据(比如只用帮助性数据)建立一维子空间,对那一类能力的保护最精准,但对其他类别的保护就弱了。比如只锚定帮助性时,HHH得分表现较好(88.74%),但SimpleQA(事实准确性)只有1.94%,没有明显改善;只锚定真实性时,SimpleQA恢复到3.17%,但IFEval和HHH又下降了。把两类数据平均合并成一个梯度再建子空间,效果也不如分开处理,IFEval得分只有61.00%。同时用帮助性和真实性两个独立方向建立二维子空间,综合效果最好:SimpleQA 3.35%,IFEval 63.40%,HHH 90.68%。这说明多样化的参考方向对于保护多元的通用能力是必要的。
关于参考数据的量:令人印象深刻的是,OGPSA的效果对数据量非常不敏感。在DPO实验中,每个方向只用50条样本时,SimpleQA就恢复到3.37%,IFEval达到61.18%;用100条时效果进一步稳定;200条时达到最佳。相比之下,混入1万条通用数据的回放方法,SimpleQA只有3.29%,IFEval只有62.85%,在许多指标上反而不如只用少量参考数据的OGPSA。这体现了OGPSA极高的数据效率。
关于子空间更新频率:不更新子空间(只在开始时建立一次)的效果最差,SimpleQA只有1.50%,说明随着训练进行,参数变化使得原来的子空间"过时"了,必须定期刷新。更新太频繁(每2步更新一次)有时会略微过度限制安全梯度,效果也不是最优。DPO阶段每5步更新一次、SFT阶段每30步更新一次,在实验中找到了较好的平衡点。
关于训练时间:在SFT场景下,朴素训练耗时约1小时49分钟,需要处理397万个输入token。加入通用数据回放后,耗时增加到4小时5分钟,处理了2521万token,是原来的6.4倍。而OGPSA只需2小时56分钟,处理了439万token,额外开销相对有限,远低于大规模回放。
七、跨模型尺寸的适用性与数学领域的推广
为了检验方法的普适性,研究团队把OGPSA应用到了Qwen 2.5系列从0.5B到7B的三个不同参数量级的模型上。结果显示,不论是最小的0.5B模型还是7B模型,OGPSA在SFT和DPO两种训练方式下都能提升通用能力指标,同时保持有竞争力的安全性。举个具体例子,在0.5B的小模型上,SFT之后SimpleQA从0.09%提升到0.88%,刻板印象拒绝率从79.31%提升到96.74%。
研究团队还把参考数据集换成了GSM8K(一个数学题数据集),来测试OGPSA是否能保护数学能力。结果表明,当参考数据指向数学时,模型在AIME 2024(数学竞赛题)上的得分从8.82%提升到10.98%,AIME 2025从6.08%提升到7.65%,说明OGPSA不只是对事实性和帮助性有效,它的框架可以被灵活配置来保护任何研究者关心的能力领域,只需要换一组对应的参考数据即可。
八、这项研究的边界和尚待解决的问题
研究团队在论文中非常诚实地列出了OGPSA的局限性,这值得在这里如实呈现,而不是刻意回避。
OGPSA依赖的是一阶泰勒展开,也就是说它只保证在当前参数点附近、沿着某个方向更新时,参考能力的损失接近于零。但如果训练步子太大,或者训练轮数太多,这个局部近似就可能失效,远距离的能力变化就无法保证。这是所有基于梯度的一阶方法共同面临的限制。
参考数据的选择对效果有重要影响。如果你选的参考数据不能代表你真正想保护的能力,OGPSA就会保护错方向。这意味着用好这个方法需要对自己的模型和应用场景有一定的理解,不是完全自动化的过程。
在分布式训练场景下,每次刷新子空间都需要在所有GPU之间同步梯度信息,这会引入额外的通信开销。在超大规模模型和超多GPU的训练场景里,这个开销需要单独评估。
此外,实验主要在8B级别的模型和特定数据集上进行,更大规模的模型(如70B或更大)和更多样化的安全场景是否同样有效,还需要进一步验证。对于黑盒自适应攻击(攻击者专门针对OGPSA的保护机制设计攻击策略)的鲁棒性,研究团队也承认尚未进行全面评估。
说到底,这项研究提供了一个有趣且实用的视角:大模型的安全训练本质上是一个记忆管理问题,而管理记忆的关键在于控制学习的方向,而不仅仅是学习的幅度。清华大学的这支团队通过把持续学习领域的梯度投影思想,精心改造成适应大模型多阶段异质训练的形式,找到了一条以较低代价改善安全性与通用性平衡的路径。
归根结底,这项工作告诉我们:教AI变得更安全,和让AI保持聪明,在一定程度上可以兼得。关键不在于你训练多少数据、约束多少行为,而在于你是否找对了训练的方向。就像一个人修炼职业道德,不一定要牺牲专业技能——前提是你得足够清楚,两件事在脑子里占据的是不同的空间。
对于普通用户而言,这项研究意味着未来部署在产品中的AI助手,既能拒绝有害请求,又不会在帮你写邮件、回答知识问题或者辅助编程时变得"愚笨"。这是让AI在现实中更可信赖的一块重要拼图。有兴趣深入了解技术细节的读者,可以通过arXiv编号2602.07892查询完整论文。
Q&A
Q1:什么是大模型的"对齐税"?
A:对齐税是指对大型语言模型进行安全训练后,模型的通用能力(如数学、知识问答、指令遵循等)出现下降的现象。安全训练让模型学会拒绝有害请求,但这个过程会干扰到原本支撑通用能力的参数,导致整体性能下滑,两者之间存在一定的"代价"关系。
Q2:OGPSA方法需要多少额外数据才能起作用?
A:OGPSA的数据需求非常少。在实验中,研究团队每个能力方向只使用了200条参考样本,总计400条,就能有效保护帮助性和真实性两类通用能力。相比之下,传统的数据回放方法需要混入1万条通用数据,OGPSA的数据效率要高得多,同时在多个指标上效果还更好。
Q3:OGPSA和LoRA、权重合并这些常见方法比有什么优势?
A:LoRA通过只训练少量参数来减少对原模型的改动,权重合并则是把安全模型和原始模型的参数平均混合。这两种方法都是间接限制更新范围,没有针对性地处理安全梯度与通用能力方向之间的冲突。OGPSA直接在梯度层面操作,把会损害通用能力的梯度成分过滤掉,在多模型、多训练方式的实验中,综合安全性与通用性的平衡表现优于这两种方法。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。