微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Nash Mirror Prox：加速人类反馈中的Nash学习

人工智能对齐Nash学习大语言模型微调

Nash Mirror Prox：加速人类反馈中的Nash学习

作者：科技行者

2025-05-30 10:03

分享至：

这篇研究论文介绍了一种名为"Nash Mirror Prox"(NashMP)的创新算法，旨在解决传统强化学习从人类反馈(RLHF)中存在的局限性。研究团队发现，传统方法常用的Bradley-Terry模型假设人类偏好具有传递性，而实际上人类偏好常常是非传递的。NashMP算法通过将问题建模为偏好游戏并寻找Nash均衡，实现了显著更快的收敛速度—KL散度到最优策略以(1+2β)^(-N/2)的速率减小，且不依赖于动作空间大小。研究团队不仅提供了理论证明，还开发了实用版本用于大型语言模型的微调，实验结果表明该算法在理论和实践上都优于现有方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 10:03 • 科技行者

当今，大型语言模型（LLMs）如何更好地与人类价值观保持一致，已成为人工智能安全与发展的关键挑战。来自法国巴黎综合理工学院、巴黎-萨克雷大学、谷歌DeepMind、杜伊斯堡-埃森大学、俄罗斯高等经济学院、穆罕默德·本·扎耶德人工智能大学、Hugging Face、法国国家信息与自动化研究所（Inria）以及里昂高等师范学院的研究团队，在2025年5月发表于arXiv的一篇论文中，提出了一种名为"Nash Mirror Prox"（NashMP）的创新算法，旨在解决人类偏好对齐中的关键问题。这篇题为《通过Mirror Prox加速基于人类反馈的Nash学习》的研究论文（arXiv:2505.19731v1）展示了如何更高效地将大型语言模型调整为符合人类偏好的方向。

想象一下，你在教一个聪明但不了解人类价值观的外星人如何适应地球生活。传统方法是给这个外星人一个"分数表"，告诉它每个行为的好坏程度。但问题是，人类价值观复杂多变，很难用简单的分数来表达。有时我们的偏好甚至是矛盾的——比如，在某些情况下我们可能更喜欢诚实，而在其他情况下可能更看重善意。这就像是告诉外星人"红灯停绿灯行"，但当有紧急情况时，这条规则又需要被打破。

研究人员们面临的关键挑战是，如何设计一种学习系统，能够捕捉人类偏好的全部复杂性，而不仅仅依赖于简化后的奖励函数。这就是本文提出的Nash学习框架（NLHF）的核心思想，它将问题视为一个对称的双人游戏，通过寻找这个游戏的Nash均衡来学习最佳行为策略。

在这项突破性研究中，研究团队引入了Nash Mirror Prox（NashMP）算法，这是一种基于Mirror Prox优化方案的在线学习算法，能够更快、更稳定地找到基于人类偏好游戏的Nash均衡。他们的理论分析表明，NashMP算法在寻找正则化Nash均衡时展现出了线性收敛的特性，收敛速度为(1+2β)^(-N/2)，其中N是人类偏好询问的次数，β是正则化参数。这比现有方法要快得多，而且算法的收敛速度不受动作空间大小的影响，这对于大型语言模型的调整特别有利。

研究团队不仅提供了理论证明，还进行了实用化设计，使NashMP算法能够应用于大型语言模型的微调过程。通过实验证明，他们的方法不仅理论上优越，在实际应用中也表现出色，能够有效地将模型行为与人类偏好对齐。

让我们一起深入了解这项研究，看看它如何改变我们训练AI系统理解并遵循人类价值观的方式。

一、从传统RLHF到Nash学习：理解问题的本质

想象你正在教一个孩子如何做出好决定。传统的强化学习从人类反馈（RLHF）方法就像是给孩子一个评分表——"这样做得10分，那样做得5分"。但实际上，人类价值观远比简单的数字评分复杂得多。

传统的RLHF方法主要依赖于所谓的"奖励模型"，最常见的是Bradley-Terry（BT）模型。在这个模型中，每个行动都有一个标量奖励值，两个行动之间的偏好由它们的奖励差异决定。如果行动A的奖励值高于行动B，那么人类更可能偏好A而非B。这种方法的目标是找到一个"Condorcet赢家"——一个能在平均意义上胜过所有其他行动的选择。

然而，研究人员们指出，这种基于奖励模型的方法存在严重局限性。最根本的问题是它假设人类偏好具有传递性：如果我们偏好A胜过B，偏好B胜过C，那么我们必然偏好A胜过C。但现实中，人类偏好常常是非传递的。想象一下，你可能在口味A和口味B之间更喜欢A，在口味B和口味C之间更喜欢B，但当直接比较A和C时，你却可能更喜欢C——这在心理学中被称为"循环偏好"，是完全正常的人类判断现象。

此外，即使个人偏好是传递的，当我们聚合一群人的偏好时，集体偏好也可能出现非传递性。这就像是民主投票中可能出现的"投票悖论"——没有一个选项能让所有人都满意。这种非传递偏好意味着可能不存在一个一致的奖励函数或Condorcet赢家能够符合所有比较结果。

为了解决这个问题，研究人员转向了Nash学习框架（NLHF）。这个框架不再试图构建一个简单的奖励函数，而是直接将问题建模为一个对称的双人游戏：两名玩家同时选择行动，然后根据人类偏好判断哪个行动更好。在这个游戏中，自然的目标是找到一个对称的Nash均衡，也称为von Neumann赢家（VNW）。

与Condorcet赢家（单一最佳行动）不同，VNW通常是行动上的一个概率分布（混合策略），代表在面对潜在非传递偏好时的一个稳定结果。这就像是制定一个灵活的行为指南，而不是简单的"一刀切"规则。

在实际的RLHF设置中，特别是当调整预训练的大型语言模型时，我们希望学习一个既符合人类偏好又与原始参考策略（例如预训练模型）相近的策略。为了满足这一约束，研究者考虑寻找正则化偏好游戏的Nash均衡。这是通过添加一个与当前策略到参考策略之间KL散度成比例的惩罚项来实现的。这种正则化不仅鼓励与参考策略的相似性，还能为优化提供理论上的好处，比如Nash均衡的唯一性。

二、Nash Mirror Prox算法：创新的优化方法

找到这样一个游戏的Nash均衡可能是一项挑战。此前，Munos等人提出了NashMD算法，它是Mirror Descent（镜像下降）的一种改编，用于近似正则化偏好游戏的von Neumann赢家。NashMD首先通过将当前策略与参考策略混合来正则化当前策略，然后对这个正则化策略执行镜像下降步骤。他们证明，NashMD的最后一次迭代以O((β?N)??)的速率收敛到正则化Nash均衡，其中N是偏好查询的数量，β是正则化参数。

那么，我们能否开发出一种算法，基于更强大的优化原则，为NLHF实现更快的收敛速率呢？这就是本研究的核心问题。

研究者们提出了Nash Mirror Prox（NashMP）算法，这是一种新方法，灵感来自于Mirror Prox优化方案，旨在实现更快、更稳定的Nash均衡收敛。想象一下，如果传统RLHF方法就像是在地图上按照指南针一步步前进寻找目的地，那么NashMP就像是一个先侦察前方地形，然后根据侦察结果规划更佳路线的探险团队。

NashMP算法的迭代是这样定义的：

首先，算法计算一个"改进的"对手策略： π???/? = arg min[P(π? ? π) + β·KL(π∥π???) + (β/η)·KL(π∥π?)]

然后，它通过对这个改进的对手执行另一个镜像下降步骤来更新当前策略： π??? = arg min[P(π???/? ? π) + β·KL(π∥π???) + (β/η)·KL(π∥π?)]

其中，π是策略，P(π? ? π?)表示π?胜过π?的偏好，KL是Kullback-Leibler散度（衡量两个概率分布之间的差异），η是学习率，β是正则化参数。

简单来说，这个算法的独特之处在于它的两步结构：首先计算一个"前瞻"步骤，然后基于这个前瞻信息执行实际更新。这就像是国际象棋玩家先在脑中模拟几步可能的走法，然后基于这种前瞻分析做出最终决策。

NashMP与近似点方法（Proximal Point method）有着密切的联系。实际上，Mirror Prox最初的动机就是近似点法，而近似点法为Nash均衡提供了一个自然的视角。如果我们将学习率η设为无穷大（这意味着近似项(β/η)·KL(π∥π?)消失），那么近似点法的解会收敛到β-正则化的von Neumann赢家π*β。在实践中，由于近似步骤只能被近似计算，所以需要有限的学习率η。一般来说，对近似点步骤的更准确近似允许使用更大的学习率。

研究者们的理论分析证明，在合适的条件下，NashMP算法的最后一次迭代以线性速率收敛到正则化Nash均衡：O((1+2β)??/?/β)，这比NashMD的O((β?N)??)快得多。重要的是，这种线性收敛适用于最后一次迭代，这在实际深度学习设置中非常理想，因为在这种情况下计算或存储策略平均值可能很困难。

此外，研究者们还分析了NashMP找到的正则化Nash均衡与原始非正则化游戏的VNW之间的关系，提供了次优性差距的上界。他们的分析表明，NashMP可以以O(1/ε)的查询复杂度找到原始游戏的ε-VNW，与最近的最先进方法相匹配，同时为正则化问题提供最后一次迭代的收敛保证。

三、从理论到实践：近似Nash Mirror Prox

在实际应用中，精确计算NashMP迭代是不可行的，因为这需要解决高维参数化策略类上的优化问题。为了克服这一挑战，研究者们提出了一种近似算法，其中迭代通过随机策略梯度方法进行不精确更新。

具体来说，他们对策略进行参数化，使用softmax函数：π_θ(y) = exp(θ_y)/∑_y'∈Y exp(θ_y')，然后使用随机梯度下降优化参数θ。这种方法使得NashMP的应用更接近实际大型语言模型的调整场景。

为了进行理论分析，他们首先建立了近似NashMP的收敛保证。如果我们能以span半范数ε的精度近似每个迭代，那么在K = ?(1+β)/(2β) · log(1/ε)?次迭代后，最终策略将是β-正则化游戏中的4√(ε/β)-VNW。

研究者们还提供了一个关键的技术贡献：在熵正则化多臂赌博机环境中，softmax策略梯度的改进分析。与Mei等人先前的工作相比，他们的策略梯度分析在Y（动作空间大小）的依赖性上实现了exp(√Y)因子的改进，使最终复杂度仅依赖于最优策略和初始参数，而非动作数量或奖励函数的尺度。

对于深度学习实现，研究者们提出了一个更实用的NashMP变体。他们注意到简化版的NashMP对每个全局镜像步骤进行T个梯度步。然而，由于Mirror Prox本身也是近似点法的近似，因此可能需要重新平衡外部和内部近似步骤。

他们考虑了以下策略：在线策略π_t（参数θ_t），目标π^target_t（参数θ^target_t），以及固定的参考策略π^ref。参数更新定义为： θ_t+1 = arg min_θ L_NashMP(θ; θ_t, θ^target_t, π^ref)

要获得NashMP，需要每两步更新一次目标策略参数θ^target_t。如果每n步更新一次，就会得到一个更接近近似点法的算法。

在实际应用中，用T个内部梯度步骤优化到收敛可能非常不切实际。相反，研究者们发现更实用优雅的方法是用一个（或少量）梯度更新更新在线参数，并用指数移动平均缓慢更新目标： θ_t+1 = θ_t - α·?_θ L_NashMP(θ_t; θ_t, θ^target_t) θ^target_t+1 = κ·θ_t + (1-κ)·θ^target_t

其中α是学习率，参数κ∈[0,1]隐式控制一个近似点更新的步数。因此，我们用n≈1/κ梯度步骤近似一个近似点子问题的解决方案。这种策略在深度强化学习中很常见。

对于梯度估计，研究者们使用了一种与DPO类似但更具对比性的形式：如果从偏好模型的角度看，两个响应y_i和y'_i相同，则P(y_i ? y'_i|x_i)≈1/2，不提供任何梯度信号。但如果一个响应比另一个好，就会增加其似然并减少较差答案的似然。如果只有对决反馈，可以用对决结果替换偏好模型。

四、实验验证：理论与实践的结合

为了验证NashMP算法的有效性，研究者们进行了两类实验：一是在简单的上下文对决赌博机问题上，二是在大型语言模型的调整上。

在简单的矩阵游戏实验中，他们固定了动作数Y=100和β=0.01，参考策略为均匀分布。他们将NashMP与几个基线方法进行比较：在线DPO、在线IPO、Nash MD，以及具有自适应κ的NashMP。结果显示，对于500步优化，NashMP并未提供比在线IPO更好的改进；然而，从约1000优化步开始，具有自适应κ = 10/(k+10)的NashMP开始优于所有基线，并且随着优化继续，相对改进增加。此外，他们观察到NashMP方法的置信区间要小得多，表明额外稳定化的影响。

在大型语言模型对齐实验中，研究者们使用Gemma-2B预训练模型检查点，并在RLHFlow数据集上进行训练。具体来说，他们首先在RLHFlow SFT数据集上执行SFT（监督微调），然后对所有NLHF实验使用结果检查点，使用RLHFlow Prompt集合的子集。成对判断模型是通过Robust Reward Models方法训练的Gemma-2B。

实验结果令人鼓舞，表明NashMP以κ=0.1的实用版本胜过所有基线，包括"正则化自对弈"（实质上是η=+∞的NashMP）。NashMP与正则化自对弈之间唯一的区别是增加了相对于目标模型的正则化，研究结果表明这种正则化的价值。

这些实验结果不仅验证了理论分析的正确性，还展示了NashMP在实际应用中的优越性。特别是，NashMP在处理大动作空间（如语言模型生成）时的独立性尤为重要，这使其成为大型语言模型调整的理想选择。

五、研究意义与未来方向

这项研究的重要性在于它提供了一种更有效、更稳定的方法来解决基于人类偏好的AI对齐问题。传统RLHF方法依赖的奖励模型可能无法捕捉人类偏好的全部复杂性，特别是当这些偏好表现出非传递性时。相比之下，NLHF框架通过将问题建模为一个偏好游戏，可以找到即使在复杂、非传递偏好情况下也保持稳定的策略。

NashMP算法的创新之处在于它显著加速了这一学习过程。通过利用Mirror Prox优化方案，它能够实现线性收敛率，这比现有方法要快得多。重要的是，这种收敛适用于最后一次迭代，消除了计算策略平均值的需要，这在深度学习背景下尤为重要。

此外，NashMP的收敛率不依赖于动作空间的大小，这对于大型语言模型的调整是一个关键优势，因为这些模型的输出空间极其庞大。这使得NashMP成为大型语言模型对齐的特别有吸引力的选择。

从更广泛的角度看，这项研究代表了将先进优化技术应用于AI对齐问题的重要一步。它展示了理论优化和实际应用之间的桥梁，提供了不仅理论上优越而且在实践中可行的解决方案。

关于未来的方向，这项研究提出了几个有趣的问题。一个关键问题是确定最佳收敛率。尽管NashMP显示出显著改进，但研究者们指出，他们不知道这一特定设置的任何已确立的下界，这留下了进一步改进的可能性。

另一个有前途的方向是探索NashMP在多轮规划等需要多轮决策的设置中的应用。当前的方法主要关注单轮决策点的偏好，但许多实际应用需要长期规划和序列决策。拓展NashMP以处理这类场景可能是一个valuable的研究方向。

此外，进一步研究如何更有效地近似NashMP步骤，特别是在大型语言模型的背景下，也是值得探索的。当前的近似方法使用随机策略梯度，但可能存在更高效或更稳定的近似技术。

最后，将NashMP应用于更广泛的人类偏好学习场景，超出语言模型的范围，也是一个有前途的方向。例如，它可能在机器人学习、推荐系统和其他依赖人类偏好的AI应用中发挥作用。

总的来说，这项研究在AI对齐的理论和实践前沿迈出了重要一步，提供了一种更有效地从人类反馈中学习的方法，有可能为更安全、更有益的AI系统铺平道路。