微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

香港科技大学等机构揭秘：你以为AI对齐的"捷径"，其实藏着一个危险的隐患

人工智能强化学习新型算法

香港科技大学等机构揭秘：你以为AI对齐的"捷径"，其实藏着一个危险的隐患

作者：科技行者

2026-05-27 17:45

分享至：

这项研究揭示DPO与RLHF的等价关系是有条件的，提出CPO和E-CPOC两种方法，在几乎不增加计算开销的前提下，为大语言模型偏好对齐提供更可靠的理论保证。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-27 17:45 • 科技行者

这项由香港科技大学、LIGHTSPEED及香港浸会大学联合开展的研究，发表于2026年第43届国际机器学习大会（ICML 2026），论文编号为arXiv:2605.20834v1，发布于2026年5月20日。对论文全文感兴趣的读者可通过上述编号在arXiv平台查阅完整内容。

当人们谈到"让AI变得更听话、更安全"这件事，背后其实有一场旷日持久的技术探索。这篇研究揭示的，是这场探索中一个长期被忽视的裂缝——一个看起来无懈可击的理论基础，其实暗藏着一个随时可能让AI走偏的隐患。

一、从"驯服AI"说起：为什么AI对齐这么难

要理解这项研究，先得聊聊"AI对齐"这个概念。所谓对齐，就是让AI的行为符合人类的期望和价值观——简单说，就是让AI"听话"。

以大语言模型（比如ChatGPT这类能聊天的AI）为例，它们在训练完成后并不天然地知道什么叫"好的回答"。于是研究者们想出了一套叫做"基于人类反馈的强化学习"的方法，英文缩写是RLHF。这套方法的思路是：让真实的人类评估AI给出的各种回答，选出更好的那个，然后用这些"人类偏好"来训练AI，让它慢慢学会什么样的回答更受欢迎。

这套方法有效，但代价高昂。训练过程需要一个独立的"打分员"模型（称为奖励模型），还需要复杂的强化学习算法，整个流程不仅计算量庞大，而且稳定性堪忧——就像同时雇了一个打分员和一个教练，还得保证他们的评判标准始终一致，工程难度可想而知。

正因如此，一种名为"直接偏好优化"（DPO）的方法在2023年横空出世，迅速成为学术界和工业界的宠儿。DPO的核心卖点是：通过一个数学上的重新推导，完全省掉独立的打分员和强化学习过程，直接用人类的偏好数据来训练AI，而且据称在理论上与RLHF等价——也就是说，效果一样，但简单得多。

这项联合研究的出发点，就是对这个"等价"声明提出质疑。研究团队发现，DPO和RLHF之间的等价关系并不是无条件成立的，而是有一个关键前提，而这个前提在实际应用中经常被违反，却没有人认真注意过。

二、一个被藏起来的假设：数学推导中的隐形地雷

要理解研究团队发现了什么，可以用一个"厨师食谱"的比喻来理解整件事。

RLHF就像一套完整的烹饪流程：先有一位专业评审（奖励模型），他品尝每道菜后打分，然后厨师（AI策略）根据评审的反馈不断调整自己的做法，目标是烹饪出评审最满意的菜肴。这套流程严格、专业，但繁琐。

DPO则声称：其实不需要评审，直接给厨师看一堆"哪道菜比哪道菜更受食客欢迎"的记录，厨师就能自己学会做出好菜。数学上，DPO通过一个巧妙的变量替换，把"评审打分"这个中间环节彻底消掉了。

问题出在这个"变量替换"的时候。研究团队发现，这个替换成立的前提是：那个假想中的"最优厨师"（RLHF训练出的最优策略）必须本身就更喜欢食客偏爱的那道菜——也就是说，最优厨师的直觉和食客的口味必须方向一致。

用更精确的语言说：当我们有一对比较（食客更喜欢A菜而不是B菜），RLHF的最优策略必须给A菜分配比B菜更高的概率。这个条件在论文中被称为"DPO的隐含假设"。

听起来这似乎是理所当然的——一个最优的厨师，当然应该更擅长做食客喜欢的菜。但研究团队通过严密的数学推导证明，这个"理所当然"其实根本不能保证成立。

原因在于，RLHF的优化目标有两个分量：一方面要最大化奖励（让厨师做出食客喜欢的菜），另一方面要控制厨师"偏离自己原有风格的程度"（用KL散度来衡量，确保训练过程稳定）。当参考策略（厨师的原有风格，通常是经过初步训练的模型）本身就特别不擅长做A菜时，第二个约束会把厨师拉回原点，导致最终的最优策略依然更倾向于给B菜分配更高概率——即使奖励函数告诉它A菜更好。

换句话说，当参考策略的"偏见"足够深的时候，即便是RLHF训练出来的最优策略，也可能在某些具体问题上选错答案。而DPO的整个推导建立在"最优策略一定选对了"这个假设上，一旦这个假设不成立，DPO的理论依据就出现了裂缝。

三、假设失效时会发生什么：AI悄悄走上歧途

研究团队不仅指出了这个假设可能失效，还详细分析了失效之后会发生什么，结论令人警觉。

继续用厨师的比喻。当参考厨师原本就严重偏爱B菜（参考策略的"对数概率比"δ_ref严重为负），而RLHF的最优策略因为要平衡"不偏离原有风格太多"这个约束，最终也倾向于给B菜更高概率时，DPO面临的情况就变成了：它需要最大化"学习策略相对参考策略的相对优势"，而不是"学习策略对A菜的绝对偏好"。

这是两个根本不同的目标。绝对对齐要求AI学会"A比B好"，相对优势只要求AI做得"比参考策略稍微好一点点"。当参考策略本身就是反面典型时，"比参考策略好一点点"可能仍然是糟糕的。

更糟糕的是，研究团队从梯度的角度分析了DPO的优化过程，发现在这种情况下会出现一种"渐进性梯度消失"的现象。DPO的训练信号（梯度）强度，由sigmoid函数控制，当策略逐渐从参考策略的错误偏好向正确方向移动时，梯度反而变得越来越弱。到最后，策略可能卡在一个"半途而废"的位置——它确实比参考策略稍好，但仍然对人类不喜欢的答案给出更高的概率，而DPO的损失函数却在持续下降，看起来训练一切正常。

研究团队给这个危险区域起了一个名字：不良解空间（U）。处于这个区域的策略同时满足两个条件：它比参考策略更偏向人类喜欢的答案，但绝对意义上仍然选错了。DPO的梯度会把策略推进这个区域，然后因为梯度消失而把它困在里面，无法逃脱。

用一个类比来理解：这就好像你在训练一个徒弟厨师，他的老师傅（参考策略）特别不会做鱼，于是你告诉徒弟"只要比老师傅做的鱼好一点就行"。徒弟努力改进，确实做得比老师傅好——但老师傅做的鱼实在太难吃，所以"比老师傅好一点"仍然是难以下咽的。而你的评估标准（DPO损失）却一直在说"进步了，进步了"，给你营造出一切向好的假象。

四、到底有多普遍：这不是角落里的极端情况

有人可能会想：这种参考策略严重偏离的情况，在实际训练中有多常见呢？毕竟参考策略通常是经过初步微调的模型，应该已经有一定质量了。

研究团队在这里提供了一个令人清醒的实验数据。他们在Llama-3-8B-Instruct（Meta发布的80亿参数指令跟随模型，一个已经经过大量优化的成熟模型）上，使用llama3-ultrafeedback-armorm数据集，实际测量了DPO隐含假设的违反频率。

结果是：即使对于这样一个经过充分训练的指令跟随模型，DPO的隐含假设仍然在45.5%的偏好对上被违反。

也就是说，将近一半的训练样本，都处于DPO理论不成立的情况。这不是边缘案例，而是普遍现象。研究团队还进一步分析了原因：奖励信号对参考策略偏差的修正能力（?r*/β）均值只有0.20，而参考策略的对数概率比（δ_ref）的标准差高达46.69——意味着奖励信号远远不足以补偿参考策略的偏差。

此外，研究团队还主动制造了不同程度"刻意劣化"的参考策略来验证理论。他们分别用20%、30%和40%的"坏样本"（把偏好数据中的好答案和坏答案对调，强制训练模型学坏）来污染参考策略，然后测量假设违反率。结果显示，随着污染比例从20%上升到40%，假设违反率从52.9%上升到60.0%，与DPO性能的下降高度吻合。用DPO在这些劣化参考策略上训练，AlpacaEval 2基准上的长度控制胜率从17.23%下降到15.48%再到15.98%，始终处于低位。

这组实验清晰地验证了理论预测：参考策略质量越差，DPO的假设越频繁地被违反，实际训练效果也越差。

五、CPO登场：给RLHF装上一个保险装置

研究团队在诊断出问题之后，提出了自己的解决方案，叫做"约束偏好优化"（CPO）。

CPO的核心思路是：既然DPO的问题在于RLHF的最优策略可能"选错答案"，那就直接在RLHF的优化目标里加一条硬性要求——最优策略必须对人类喜欢的答案给出更高的概率，不允许例外。

回到厨师的比喻：CPO就是在原有"做出最受食客欢迎的菜"目标之外，额外加了一条规定：无论如何，做A菜的概率必须高于做B菜的概率，不得打折扣。这条规定用数学语言描述，就是在RLHF的优化目标上增加了一个"对数概率差"的惩罚项，用参数γ控制惩罚力度。

CPO从理论上保证了一个"绝对优势"：当γ足够大时，CPO训练出的最优策略一定满足"对人类喜欢的答案给出更高概率"这个条件。具体来说，γ的阈值取决于参考策略的偏差程度和奖励信号的强度——如果参考策略越偏，需要的γ越大。这个阈值有明确的数学公式，可以从参考策略的属性中计算出来。

与此同时，CPO的梯度行为也得到了根本改善。CPO的梯度中包含一个额外的边距项（γ_ref），这个边距项在参考策略偏差严重时会变得很大，从而保证即使策略处于"不良解空间"的边界，梯度依然足够强，能够把策略推过去、逃离困境。

在实现上，CPO相当优雅。每个训练样本都有一个预先计算的"自适应边距"γ_ref，它等于γ乘以参考策略对两个答案概率的倒数之和。这个边距对"难样本"（参考策略对好答案的概率非常低）自动变大，对"易样本"（参考策略对两个答案的概率都比较高）自动缩小，实现了一种自然的"难样本优先"机制。

计算这个边距只需要在训练前对参考策略做一次前向推理，之后每次迭代只需要从预计算的值中减去这个边距，几乎不增加额外计算开销。因此，CPO在实现上几乎和DPO一样简单。

六、E-CPOC：更进一步的"保守派"方案

CPO解决了DPO的核心问题，但它仍然依赖于参数γ的选取，以及用参考策略概率来近似最优策略概率这一步（即把π*(y|x)替换为π_ref(y|x)来计算边距）。研究团队在CPO的基础上，进一步推导出了一个更完备的变体，称为"保守显式约束偏好优化"（E-CPOC）。

E-CPOC的出发点是：与其像CPO那样"软性鼓励"策略偏好好答案，不如直接用硬约束强制要求——用数学上的约束优化（KKT条件和拉格朗日乘数法）来严格保证δ_π(A比B好的对数概率差)不低于某个正数γ。

这个硬约束导出了一个非常优雅的结论：RLHF最优策略的"对数概率差"可以分解为三项之和。第一项是参考策略的对数概率差，第二项是奖励差异除以β，第三项是一个自适应边距函数Φ，它由参考策略的偏差和约束强度共同决定。这个Φ函数有一个很好的解析形式，是softplus函数（一种平滑的最大值函数）。

问题在于，第三项Φ的精确计算需要知道真实奖励差异Δr，而这通常是未知的。研究团队巧妙地利用了一个单调性：Φ关于Δr是单调不增的——奖励差异越大，所需的边距修正越小。既然偏好数据要求Δr > 0，那么Φ的最大值在Δr趋近于0时取得。

于是，可以用Δr=0时的Φ值作为保守上界，得到Φ_cons。这个保守边距完全不需要奖励模型，只依赖参考策略的属性。使用Φ_cons替换精确的Φ，得到的策略的对数概率差会大于等于真实约束RLHF的最优策略，即E-CPOC是"比最优更保守"的。

从梯度加权的角度看，E-CPOC实现了一种自然的"难样本聚焦"机制。参考策略偏差越严重（δ_ref越负），Φ_cons越大，梯度权重越高，模型在这些困难样本上的学习信号越强。参考策略已经做得很好的样本，Φ_cons趋近于0，行为退化到标准DPO，避免对容易样本的过度正则化。

七、几何视角：DPO到底在优化什么"形状"

研究团队还提供了一个颇为直观的几何解读，帮助我们从另一个角度理解DPO的问题和CPO的修复。

在机器学习的排序任务中，有一类经典的"边距排序损失"。它的核心想法是：好答案的得分应该比坏答案的得分高出至少m（目标边距）；如果差值不足m，就产生损失；如果已经超过m，损失为零。这就像要求两个选手之间的分差必须超过一定值才算"明显胜出"。

研究团队证明，当温度参数β趋向无穷大时，DPO实际上等价于这样一个边距排序损失，而它的目标边距正好等于δ_ref（参考策略的对数概率差）。

这个发现揭示了DPO问题的几何本质：当参考策略对坏答案更有把握（δ_ref < 0）时，DPO实际上在要求学习策略"让坏答案比好答案好出δ_ref那么多"才触发损失，而这个目标边距是负数。负目标边距意味着，即使学习策略仍然给坏答案更高的概率，只要差值还没有超过这个负数，DPO的损失就已经降到零，训练就"满足"了。

CPO通过引入额外的γ参数，把目标边距从可能为负的δ_ref，提升到δ_ref + 2γ/β，并且证明当γ选取足够大时，这个有效边距一定是正数。E-CPOC则通过Φ_cons函数提供了一个自适应边距，同样保证最终的有效目标边距为正，且对难样本自动给出更大的边距。

通俗地说，DPO可能在要求"坏答案允许比好答案差一点"时就停止优化，而CPO和E-CPOC始终要求"好答案必须明显优于坏答案"，才算训练到位。

八、实验成果：理论落地，表现达到最优

理论分析之后，研究团队在标准基准上验证了CPO的实际效果。

实验使用Llama-3-8B-Instruct作为基础模型，用princeton-nlp/llama3-ultrafeedback-armorm数据集进行偏好对齐训练，然后在AlpacaEval 2和Arena-Hard两个基准上评估。这两个基准都是用真实用户问题评估模型的对话质量，前者由GPT-4评判胜负，后者包含更多有挑战性和区分度的复杂问题。

在AlpacaEval 2上，CPO取得了25.15%的胜率和26.57%的长度控制胜率。相比之下，DPO的胜率是24.60%，长度控制胜率是25.09%，SimPO（另一种流行的无参考策略方法）的长度控制胜率是25.91%。CPO在保持与DPO相近的平均回答长度（1879 tokens，而非用更长的回答来刷分）的同时，胜率实现了全面超越。

在Arena-Hard上，优势更为明显。CPO取得了32.6%的胜率，90%置信区间为±约2%。相比之下，SimPO是30.0%，DPO是28.9%。CPO比排名第二的SimPO高出2.6个百分点，比DPO高出3.7个百分点。研究团队指出，Arena-Hard的题目更难、更有区分度，在这个基准上的优势说明CPO对复杂问题的处理能力有实质性提升。

研究团队还额外测试了CPO在IFEval（指令跟随评估）基准上的表现，CPO取得了35.12%的严格准确率和43.99%的宽松准确率，同样优于DPO（34.01%/40.67%）、RDPO（34.57%/43.62%）和SimPO（33.83%/42.81%），验证了性能提升并不局限于对话质量，也延伸到了遵循具体指令的能力。

在超参数灵敏度测试中，γ在0.20到0.40的范围内，CPO的长度控制胜率稳定在31%到34%之间，0.25时达到峰值33.97%。低于0.20时性能明显下降，因为边距修正力度不足以应对假设违反的情况。研究团队在所有主实验中统一使用γ=0.25。

研究团队还特别对比了一个"裁剪参考策略"的基线方法——直接把δ_ref裁剪为非负值再用标准DPO训练。这种朴素方法的长度控制胜率只有23.86%，远低于CPO的33.97%，说明CPO的自适应边距机制带来的收益，远超过简单地防止负边距。

九、等价性的数学保证：E-CPOC与约束RLHF的严格等价

这项研究在理论层面还提出并证明了一个重要的等价定理，建立了E-CPOC与显式约束RLHF之间的严格对应关系。

这个等价定理（论文定理L.17）的成立只需要四个条件，而且都是标准且温和的。第一，偏好数据服从Bradley-Terry模型，即人类偏好可以用一个潜在的奖励函数通过logistic函数来建模——这是整个RLHF领域的标准假设。第二，策略函数类的近似误差（模型能力的有限性）在合理范围内。第三，训练数据是有限但足够多的独立同分布样本。第四，训练得到的策略在对数概率差空间中足够接近类最优策略——用均方误差（l?）来度量，而不是要求每个样本都精确（逐点误差l∞）。

第四个条件表面上难以验证（因为涉及到未知的类最优策略），但研究团队通过一个"损失-误差桥接命题"（Proposition L.3）解决了这个问题：当训练损失与最优值之间的差距ε_loss很小时，只要偏好数据不退化（每个样本的偏好概率不等于0或1），就可以推导出l?-δ接近性成立，且对应的误差上界ε_opt,2 = √(2ε_loss / (β? κ?))，这个界与数据集大小N无关。这意味着，从训练过程中直接观测到的损失值，就可以验证等价定理的条件是否满足。

等价定理的核心结论是：E-CPOC的最优策略给好答案分配的概率，一定大于等于真实约束RLHF最优策略的概率，对任意正的奖励差异Δr*均成立。换句话说，E-CPOC在不需要奖励模型的情况下，提供了比约束RLHF更保守（更安全）的对齐保证——不是近似，而是严格的上界。

说到底，这项研究告诉我们的，是一件在工程领域司空见惯的事情：便捷的工具背后往往有隐藏的约束条件，当这些条件不满足时，工具依然"看起来在工作"，却悄悄偏离了它应该达成的目标。DPO就是这样一个工具——在绝大多数情况下它很好用，但它的理论保证是有条件的，而且这个条件在接近一半的实际情况下都不满足。

归根结底，这项研究的贡献不在于否定DPO，而在于把它的适用边界说清楚，并提供了一套成本几乎相同、但保证更强的替代方案。CPO和E-CPOC在实现上与DPO几乎无异——预计算一次边距，训练时做一个减法——但从根本上封堵了DPO可能让AI悄悄走偏的漏洞。

对于普通用户来说，这项研究意味着：未来的AI对齐技术可以更可靠，在不增加计算成本的前提下，给"让AI听话"这件事增加一层数学层面的保障。而对于研究者和工程师来说，这提醒我们：在采用任何"等价但更简单"的方法之前，都应该仔细检查它依赖的假设，以及这些假设在实际中的满足程度。

有兴趣深入了解这项研究的读者，可以通过arXiv编号2605.20834查阅完整论文，其中包含所有数学推导、实验细节以及完整的理论证明。

Q&A

Q1：DPO和RLHF理论上等价，为什么实际中DPO会出问题？

A：DPO的等价推导依赖一个隐含假设：RLHF最优策略必须对人类偏好的答案给出更高概率。但RLHF在优化时要同时平衡"获取高奖励"和"不偏离参考策略太多"两个目标，当参考策略本身就严重偏向坏答案时，最优策略可能仍然选错，导致DPO的推导基础失效。实验测量显示，即使在成熟的指令跟随模型上，这个假设在接近一半的训练样本中都被违反。

Q2：CPO比DPO多了哪些额外计算开销？

A：CPO的额外开销几乎可以忽略不计。唯一的额外步骤是在训练开始前，用参考策略对每个训练样本做一次前向推理，计算并缓存自适应边距γ_ref。标准DPO本身也需要这次前向推理来计算参考策略的对数概率，因此CPO只是在这个已有步骤上额外做两次除法和一次加法。训练过程中，每次迭代只需从logits中减去预缓存的边距值，与DPO的计算量完全相同。

Q3：E-CPOC和CPO有什么区别，应该选哪个？

A：两者都解决了DPO的核心问题，但侧重不同。CPO使用软约束（用惩罚项鼓励策略偏向好答案），边距是固定的γ乘以参考概率的倒数，实现最简单，有一个超参数γ需要调整。E-CPOC使用硬约束（通过KKT条件强制要求策略对好答案的概率差超过阈值），边距是自适应的softplus函数，对难样本自动给出更大修正，理论保证更强，且与显式约束RLHF之间有严格的等价关系。如果追求简单，选CPO；如果需要更严格的理论保证和自动难样本聚焦，选E-CPOC。

人工智能强化学习新型算法

分享至