微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港科技大学等机构揭秘:你以为AI对齐的"捷径",其实藏着一个危险的隐患

香港科技大学等机构揭秘:你以为AI对齐的"捷径",其实藏着一个危险的隐患

2026-05-27 17:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-27 17:45 科技行者

这项由香港科技大学、LIGHTSPEED及香港浸会大学联合开展的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2605.20834v1,发布于2026年5月20日。对论文全文感兴趣的读者可通过上述编号在arXiv平台查阅完整内容。

当人们谈到"让AI变得更听话、更安全"这件事,背后其实有一场旷日持久的技术探索。这篇研究揭示的,是这场探索中一个长期被忽视的裂缝——一个看起来无懈可击的理论基础,其实暗藏着一个随时可能让AI走偏的隐患。

一、从"驯服AI"说起:为什么AI对齐这么难

要理解这项研究,先得聊聊"AI对齐"这个概念。所谓对齐,就是让AI的行为符合人类的期望和价值观——简单说,就是让AI"听话"。

以大语言模型(比如ChatGPT这类能聊天的AI)为例,它们在训练完成后并不天然地知道什么叫"好的回答"。于是研究者们想出了一套叫做"基于人类反馈的强化学习"的方法,英文缩写是RLHF。这套方法的思路是:让真实的人类评估AI给出的各种回答,选出更好的那个,然后用这些"人类偏好"来训练AI,让它慢慢学会什么样的回答更受欢迎。

这套方法有效,但代价高昂。训练过程需要一个独立的"打分员"模型(称为奖励模型),还需要复杂的强化学习算法,整个流程不仅计算量庞大,而且稳定性堪忧——就像同时雇了一个打分员和一个教练,还得保证他们的评判标准始终一致,工程难度可想而知。

正因如此,一种名为"直接偏好优化"(DPO)的方法在2023年横空出世,迅速成为学术界和工业界的宠儿。DPO的核心卖点是:通过一个数学上的重新推导,完全省掉独立的打分员和强化学习过程,直接用人类的偏好数据来训练AI,而且据称在理论上与RLHF等价——也就是说,效果一样,但简单得多。

这项联合研究的出发点,就是对这个"等价"声明提出质疑。研究团队发现,DPO和RLHF之间的等价关系并不是无条件成立的,而是有一个关键前提,而这个前提在实际应用中经常被违反,却没有人认真注意过。

二、一个被藏起来的假设:数学推导中的隐形地雷

要理解研究团队发现了什么,可以用一个"厨师食谱"的比喻来理解整件事。

RLHF就像一套完整的烹饪流程:先有一位专业评审(奖励模型),他品尝每道菜后打分,然后厨师(AI策略)根据评审的反馈不断调整自己的做法,目标是烹饪出评审最满意的菜肴。这套流程严格、专业,但繁琐。

DPO则声称:其实不需要评审,直接给厨师看一堆"哪道菜比哪道菜更受食客欢迎"的记录,厨师就能自己学会做出好菜。数学上,DPO通过一个巧妙的变量替换,把"评审打分"这个中间环节彻底消掉了。

问题出在这个"变量替换"的时候。研究团队发现,这个替换成立的前提是:那个假想中的"最优厨师"(RLHF训练出的最优策略)必须本身就更喜欢食客偏爱的那道菜——也就是说,最优厨师的直觉和食客的口味必须方向一致。

用更精确的语言说:当我们有一对比较(食客更喜欢A菜而不是B菜),RLHF的最优策略必须给A菜分配比B菜更高的概率。这个条件在论文中被称为"DPO的隐含假设"。

听起来这似乎是理所当然的——一个最优的厨师,当然应该更擅长做食客喜欢的菜。但研究团队通过严密的数学推导证明,这个"理所当然"其实根本不能保证成立。

原因在于,RLHF的优化目标有两个分量:一方面要最大化奖励(让厨师做出食客喜欢的菜),另一方面要控制厨师"偏离自己原有风格的程度"(用KL散度来衡量,确保训练过程稳定)。当参考策略(厨师的原有风格,通常是经过初步训练的模型)本身就特别不擅长做A菜时,第二个约束会把厨师拉回原点,导致最终的最优策略依然更倾向于给B菜分配更高概率——即使奖励函数告诉它A菜更好。

换句话说,当参考策略的"偏见"足够深的时候,即便是RLHF训练出来的最优策略,也可能在某些具体问题上选错答案。而DPO的整个推导建立在"最优策略一定选对了"这个假设上,一旦这个假设不成立,DPO的理论依据就出现了裂缝。

三、假设失效时会发生什么:AI悄悄走上歧途

研究团队不仅指出了这个假设可能失效,还详细分析了失效之后会发生什么,结论令人警觉。

继续用厨师的比喻。当参考厨师原本就严重偏爱B菜(参考策略的"对数概率比"δ_ref严重为负),而RLHF的最优策略因为要平衡"不偏离原有风格太多"这个约束,最终也倾向于给B菜更高概率时,DPO面临的情况就变成了:它需要最大化"学习策略相对参考策略的相对优势",而不是"学习策略对A菜的绝对偏好"。

这是两个根本不同的目标。绝对对齐要求AI学会"A比B好",相对优势只要求AI做得"比参考策略稍微好一点点"。当参考策略本身就是反面典型时,"比参考策略好一点点"可能仍然是糟糕的。

更糟糕的是,研究团队从梯度的角度分析了DPO的优化过程,发现在这种情况下会出现一种"渐进性梯度消失"的现象。DPO的训练信号(梯度)强度,由sigmoid函数控制,当策略逐渐从参考策略的错误偏好向正确方向移动时,梯度反而变得越来越弱。到最后,策略可能卡在一个"半途而废"的位置——它确实比参考策略稍好,但仍然对人类不喜欢的答案给出更高的概率,而DPO的损失函数却在持续下降,看起来训练一切正常。

研究团队给这个危险区域起了一个名字:不良解空间(U)。处于这个区域的策略同时满足两个条件:它比参考策略更偏向人类喜欢的答案,但绝对意义上仍然选错了。DPO的梯度会把策略推进这个区域,然后因为梯度消失而把它困在里面,无法逃脱。

用一个类比来理解:这就好像你在训练一个徒弟厨师,他的老师傅(参考策略)特别不会做鱼,于是你告诉徒弟"只要比老师傅做的鱼好一点就行"。徒弟努力改进,确实做得比老师傅好——但老师傅做的鱼实在太难吃,所以"比老师傅好一点"仍然是难以下咽的。而你的评估标准(DPO损失)却一直在说"进步了,进步了",给你营造出一切向好的假象。

四、到底有多普遍:这不是角落里的极端情况

有人可能会想:这种参考策略严重偏离的情况,在实际训练中有多常见呢?毕竟参考策略通常是经过初步微调的模型,应该已经有一定质量了。

研究团队在这里提供了一个令人清醒的实验数据。他们在Llama-3-8B-Instruct(Meta发布的80亿参数指令跟随模型,一个已经经过大量优化的成熟模型)上,使用llama3-ultrafeedback-armorm数据集,实际测量了DPO隐含假设的违反频率。

结果是:即使对于这样一个经过充分训练的指令跟随模型,DPO的隐含假设仍然在45.5%的偏好对上被违反。

也就是说,将近一半的训练样本,都处于DPO理论不成立的情况。这不是边缘案例,而是普遍现象。研究团队还进一步分析了原因:奖励信号对参考策略偏差的修正能力(?r*/β)均值只有0.20,而参考策略的对数概率比(δ_ref)的标准差高达46.69——意味着奖励信号远远不足以补偿参考策略的偏差。

此外,研究团队还主动制造了不同程度"刻意劣化"的参考策略来验证理论。他们分别用20%、30%和40%的"坏样本"(把偏好数据中的好答案和坏答案对调,强制训练模型学坏)来污染参考策略,然后测量假设违反率。结果显示,随着污染比例从20%上升到40%,假设违反率从52.9%上升到60.0%,与DPO性能的下降高度吻合。用DPO在这些劣化参考策略上训练,AlpacaEval 2基准上的长度控制胜率从17.23%下降到15.48%再到15.98%,始终处于低位。

这组实验清晰地验证了理论预测:参考策略质量越差,DPO的假设越频繁地被违反,实际训练效果也越差。

五、CPO登场:给RLHF装上一个保险装置

研究团队在诊断出问题之后,提出了自己的解决方案,叫做"约束偏好优化"(CPO)。

CPO的核心思路是:既然DPO的问题在于RLHF的最优策略可能"选错答案",那就直接在RLHF的优化目标里加一条硬性要求——最优策略必须对人类喜欢的答案给出更高的概率,不允许例外。

回到厨师的比喻:CPO就是在原有"做出最受食客欢迎的菜"目标之外,额外加了一条规定:无论如何,做A菜的概率必须高于做B菜的概率,不得打折扣。这条规定用数学语言描述,就是在RLHF的优化目标上增加了一个"对数概率差"的惩罚项,用参数γ控制惩罚力度。

CPO从理论上保证了一个"绝对优势":当γ足够大时,CPO训练出的最优策略一定满足"对人类喜欢的答案给出更高概率"这个条件。具体来说,γ的阈值取决于参考策略的偏差程度和奖励信号的强度——如果参考策略越偏,需要的γ越大。这个阈值有明确的数学公式,可以从参考策略的属性中计算出来。

与此同时,CPO的梯度行为也得到了根本改善。CPO的梯度中包含一个额外的边距项(γ_ref),这个边距项在参考策略偏差严重时会变得很大,从而保证即使策略处于"不良解空间"的边界,梯度依然足够强,能够把策略推过去、逃离困境。

在实现上,CPO相当优雅。每个训练样本都有一个预先计算的"自适应边距"γ_ref,它等于γ乘以参考策略对两个答案概率的倒数之和。这个边距对"难样本"(参考策略对好答案的概率非常低)自动变大,对"易样本"(参考策略对两个答案的概率都比较高)自动缩小,实现了一种自然的"难样本优先"机制。

计算这个边距只需要在训练前对参考策略做一次前向推理,之后每次迭代只需要从预计算的值中减去这个边距,几乎不增加额外计算开销。因此,CPO在实现上几乎和DPO一样简单。

六、E-CPOC:更进一步的"保守派"方案

CPO解决了DPO的核心问题,但它仍然依赖于参数γ的选取,以及用参考策略概率来近似最优策略概率这一步(即把π*(y|x)替换为π_ref(y|x)来计算边距)。研究团队在CPO的基础上,进一步推导出了一个更完备的变体,称为"保守显式约束偏好优化"(E-CPOC)。

E-CPOC的出发点是:与其像CPO那样"软性鼓励"策略偏好好答案,不如直接用硬约束强制要求——用数学上的约束优化(KKT条件和拉格朗日乘数法)来严格保证δ_π(A比B好的对数概率差)不低于某个正数γ。

这个硬约束导出了一个非常优雅的结论:RLHF最优策略的"对数概率差"可以分解为三项之和。第一项是参考策略的对数概率差,第二项是奖励差异除以β,第三项是一个自适应边距函数Φ,它由参考策略的偏差和约束强度共同决定。这个Φ函数有一个很好的解析形式,是softplus函数(一种平滑的最大值函数)。

问题在于,第三项Φ的精确计算需要知道真实奖励差异Δr,而这通常是未知的。研究团队巧妙地利用了一个单调性:Φ关于Δr是单调不增的——奖励差异越大,所需的边距修正越小。既然偏好数据要求Δr > 0,那么Φ的最大值在Δr趋近于0时取得。

于是,可以用Δr=0时的Φ值作为保守上界,得到Φ_cons。这个保守边距完全不需要奖励模型,只依赖参考策略的属性。使用Φ_cons替换精确的Φ,得到的策略的对数概率差会大于等于真实约束RLHF的最优策略,即E-CPOC是"比最优更保守"的。

从梯度加权的角度看,E-CPOC实现了一种自然的"难样本聚焦"机制。参考策略偏差越严重(δ_ref越负),Φ_cons越大,梯度权重越高,模型在这些困难样本上的学习信号越强。参考策略已经做得很好的样本,Φ_cons趋近于0,行为退化到标准DPO,避免对容易样本的过度正则化。

七、几何视角:DPO到底在优化什么"形状"

研究团队还提供了一个颇为直观的几何解读,帮助我们从另一个角度理解DPO的问题和CPO的修复。

在机器学习的排序任务中,有一类经典的"边距排序损失"。它的核心想法是:好答案的得分应该比坏答案的得分高出至少m(目标边距);如果差值不足m,就产生损失;如果已经超过m,损失为零。这就像要求两个选手之间的分差必须超过一定值才算"明显胜出"。

研究团队证明,当温度参数β趋向无穷大时,DPO实际上等价于这样一个边距排序损失,而它的目标边距正好等于δ_ref(参考策略的对数概率差)。

这个发现揭示了DPO问题的几何本质:当参考策略对坏答案更有把握(δ_ref < 0)时,DPO实际上在要求学习策略"让坏答案比好答案好出δ_ref那么多"才触发损失,而这个目标边距是负数。负目标边距意味着,即使学习策略仍然给坏答案更高的概率,只要差值还没有超过这个负数,DPO的损失就已经降到零,训练就"满足"了。

CPO通过引入额外的γ参数,把目标边距从可能为负的δ_ref,提升到δ_ref + 2γ/β,并且证明当γ选取足够大时,这个有效边距一定是正数。E-CPOC则通过Φ_cons函数提供了一个自适应边距,同样保证最终的有效目标边距为正,且对难样本自动给出更大的边距。

通俗地说,DPO可能在要求"坏答案允许比好答案差一点"时就停止优化,而CPO和E-CPOC始终要求"好答案必须明显优于坏答案",才算训练到位。

八、实验成果:理论落地,表现达到最优

理论分析之后,研究团队在标准基准上验证了CPO的实际效果。

实验使用Llama-3-8B-Instruct作为基础模型,用princeton-nlp/llama3-ultrafeedback-armorm数据集进行偏好对齐训练,然后在AlpacaEval 2和Arena-Hard两个基准上评估。这两个基准都是用真实用户问题评估模型的对话质量,前者由GPT-4评判胜负,后者包含更多有挑战性和区分度的复杂问题。

在AlpacaEval 2上,CPO取得了25.15%的胜率和26.57%的长度控制胜率。相比之下,DPO的胜率是24.60%,长度控制胜率是25.09%,SimPO(另一种流行的无参考策略方法)的长度控制胜率是25.91%。CPO在保持与DPO相近的平均回答长度(1879 tokens,而非用更长的回答来刷分)的同时,胜率实现了全面超越。

在Arena-Hard上,优势更为明显。CPO取得了32.6%的胜率,90%置信区间为±约2%。相比之下,SimPO是30.0%,DPO是28.9%。CPO比排名第二的SimPO高出2.6个百分点,比DPO高出3.7个百分点。研究团队指出,Arena-Hard的题目更难、更有区分度,在这个基准上的优势说明CPO对复杂问题的处理能力有实质性提升。

研究团队还额外测试了CPO在IFEval(指令跟随评估)基准上的表现,CPO取得了35.12%的严格准确率和43.99%的宽松准确率,同样优于DPO(34.01%/40.67%)、RDPO(34.57%/43.62%)和SimPO(33.83%/42.81%),验证了性能提升并不局限于对话质量,也延伸到了遵循具体指令的能力。

在超参数灵敏度测试中,γ在0.20到0.40的范围内,CPO的长度控制胜率稳定在31%到34%之间,0.25时达到峰值33.97%。低于0.20时性能明显下降,因为边距修正力度不足以应对假设违反的情况。研究团队在所有主实验中统一使用γ=0.25。

研究团队还特别对比了一个"裁剪参考策略"的基线方法——直接把δ_ref裁剪为非负值再用标准DPO训练。这种朴素方法的长度控制胜率只有23.86%,远低于CPO的33.97%,说明CPO的自适应边距机制带来的收益,远超过简单地防止负边距。

九、等价性的数学保证:E-CPOC与约束RLHF的严格等价

这项研究在理论层面还提出并证明了一个重要的等价定理,建立了E-CPOC与显式约束RLHF之间的严格对应关系。

这个等价定理(论文定理L.17)的成立只需要四个条件,而且都是标准且温和的。第一,偏好数据服从Bradley-Terry模型,即人类偏好可以用一个潜在的奖励函数通过logistic函数来建模——这是整个RLHF领域的标准假设。第二,策略函数类的近似误差(模型能力的有限性)在合理范围内。第三,训练数据是有限但足够多的独立同分布样本。第四,训练得到的策略在对数概率差空间中足够接近类最优策略——用均方误差(l?)来度量,而不是要求每个样本都精确(逐点误差l∞)。

第四个条件表面上难以验证(因为涉及到未知的类最优策略),但研究团队通过一个"损失-误差桥接命题"(Proposition L.3)解决了这个问题:当训练损失与最优值之间的差距ε_loss很小时,只要偏好数据不退化(每个样本的偏好概率不等于0或1),就可以推导出l?-δ接近性成立,且对应的误差上界ε_opt,2 = √(2ε_loss / (β? κ?)),这个界与数据集大小N无关。这意味着,从训练过程中直接观测到的损失值,就可以验证等价定理的条件是否满足。

等价定理的核心结论是:E-CPOC的最优策略给好答案分配的概率,一定大于等于真实约束RLHF最优策略的概率,对任意正的奖励差异Δr*均成立。换句话说,E-CPOC在不需要奖励模型的情况下,提供了比约束RLHF更保守(更安全)的对齐保证——不是近似,而是严格的上界。

说到底,这项研究告诉我们的,是一件在工程领域司空见惯的事情:便捷的工具背后往往有隐藏的约束条件,当这些条件不满足时,工具依然"看起来在工作",却悄悄偏离了它应该达成的目标。DPO就是这样一个工具——在绝大多数情况下它很好用,但它的理论保证是有条件的,而且这个条件在接近一半的实际情况下都不满足。

归根结底,这项研究的贡献不在于否定DPO,而在于把它的适用边界说清楚,并提供了一套成本几乎相同、但保证更强的替代方案。CPO和E-CPOC在实现上与DPO几乎无异——预计算一次边距,训练时做一个减法——但从根本上封堵了DPO可能让AI悄悄走偏的漏洞。

对于普通用户来说,这项研究意味着:未来的AI对齐技术可以更可靠,在不增加计算成本的前提下,给"让AI听话"这件事增加一层数学层面的保障。而对于研究者和工程师来说,这提醒我们:在采用任何"等价但更简单"的方法之前,都应该仔细检查它依赖的假设,以及这些假设在实际中的满足程度。

有兴趣深入了解这项研究的读者,可以通过arXiv编号2605.20834查阅完整论文,其中包含所有数学推导、实验细节以及完整的理论证明。

Q&A

Q1:DPO和RLHF理论上等价,为什么实际中DPO会出问题?

A:DPO的等价推导依赖一个隐含假设:RLHF最优策略必须对人类偏好的答案给出更高概率。但RLHF在优化时要同时平衡"获取高奖励"和"不偏离参考策略太多"两个目标,当参考策略本身就严重偏向坏答案时,最优策略可能仍然选错,导致DPO的推导基础失效。实验测量显示,即使在成熟的指令跟随模型上,这个假设在接近一半的训练样本中都被违反。

Q2:CPO比DPO多了哪些额外计算开销?

A:CPO的额外开销几乎可以忽略不计。唯一的额外步骤是在训练开始前,用参考策略对每个训练样本做一次前向推理,计算并缓存自适应边距γ_ref。标准DPO本身也需要这次前向推理来计算参考策略的对数概率,因此CPO只是在这个已有步骤上额外做两次除法和一次加法。训练过程中,每次迭代只需从logits中减去预缓存的边距值,与DPO的计算量完全相同。

Q3:E-CPOC和CPO有什么区别,应该选哪个?

A:两者都解决了DPO的核心问题,但侧重不同。CPO使用软约束(用惩罚项鼓励策略偏向好答案),边距是固定的γ乘以参考概率的倒数,实现最简单,有一个超参数γ需要调整。E-CPOC使用硬约束(通过KKT条件强制要求策略对好答案的概率差超过阈值),边距是自适应的softplus函数,对难样本自动给出更大修正,理论保证更强,且与显式约束RLHF之间有严格的等价关系。如果追求简单,选CPO;如果需要更严格的理论保证和自动难样本聚焦,选E-CPOC。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-