当今,大型语言模型(LLMs)如何更好地与人类价值观保持一致,已成为人工智能安全与发展的关键挑战。来自法国巴黎综合理工学院、巴黎-萨克雷大学、谷歌DeepMind、杜伊斯堡-埃森大学、俄罗斯高等经济学院、穆罕默德·本·扎耶德人工智能大学、Hugging Face、法国国家信息与自动化研究所(Inria)以及里昂高等师范学院的研究团队,在2025年5月发表于arXiv的一篇论文中,提出了一种名为"Nash Mirror Prox"(NashMP)的创新算法,旨在解决人类偏好对齐中的关键问题。这篇题为《通过Mirror Prox加速基于人类反馈的Nash学习》的研究论文(arXiv:2505.19731v1)展示了如何更高效地将大型语言模型调整为符合人类偏好的方向。
想象一下,你在教一个聪明但不了解人类价值观的外星人如何适应地球生活。传统方法是给这个外星人一个"分数表",告诉它每个行为的好坏程度。但问题是,人类价值观复杂多变,很难用简单的分数来表达。有时我们的偏好甚至是矛盾的——比如,在某些情况下我们可能更喜欢诚实,而在其他情况下可能更看重善意。这就像是告诉外星人"红灯停绿灯行",但当有紧急情况时,这条规则又需要被打破。
研究人员们面临的关键挑战是,如何设计一种学习系统,能够捕捉人类偏好的全部复杂性,而不仅仅依赖于简化后的奖励函数。这就是本文提出的Nash学习框架(NLHF)的核心思想,它将问题视为一个对称的双人游戏,通过寻找这个游戏的Nash均衡来学习最佳行为策略。
在这项突破性研究中,研究团队引入了Nash Mirror Prox(NashMP)算法,这是一种基于Mirror Prox优化方案的在线学习算法,能够更快、更稳定地找到基于人类偏好游戏的Nash均衡。他们的理论分析表明,NashMP算法在寻找正则化Nash均衡时展现出了线性收敛的特性,收敛速度为(1+2β)^(-N/2),其中N是人类偏好询问的次数,β是正则化参数。这比现有方法要快得多,而且算法的收敛速度不受动作空间大小的影响,这对于大型语言模型的调整特别有利。
研究团队不仅提供了理论证明,还进行了实用化设计,使NashMP算法能够应用于大型语言模型的微调过程。通过实验证明,他们的方法不仅理论上优越,在实际应用中也表现出色,能够有效地将模型行为与人类偏好对齐。
让我们一起深入了解这项研究,看看它如何改变我们训练AI系统理解并遵循人类价值观的方式。
一、从传统RLHF到Nash学习:理解问题的本质
想象你正在教一个孩子如何做出好决定。传统的强化学习从人类反馈(RLHF)方法就像是给孩子一个评分表——"这样做得10分,那样做得5分"。但实际上,人类价值观远比简单的数字评分复杂得多。
传统的RLHF方法主要依赖于所谓的"奖励模型",最常见的是Bradley-Terry(BT)模型。在这个模型中,每个行动都有一个标量奖励值,两个行动之间的偏好由它们的奖励差异决定。如果行动A的奖励值高于行动B,那么人类更可能偏好A而非B。这种方法的目标是找到一个"Condorcet赢家"——一个能在平均意义上胜过所有其他行动的选择。
然而,研究人员们指出,这种基于奖励模型的方法存在严重局限性。最根本的问题是它假设人类偏好具有传递性:如果我们偏好A胜过B,偏好B胜过C,那么我们必然偏好A胜过C。但现实中,人类偏好常常是非传递的。想象一下,你可能在口味A和口味B之间更喜欢A,在口味B和口味C之间更喜欢B,但当直接比较A和C时,你却可能更喜欢C——这在心理学中被称为"循环偏好",是完全正常的人类判断现象。
此外,即使个人偏好是传递的,当我们聚合一群人的偏好时,集体偏好也可能出现非传递性。这就像是民主投票中可能出现的"投票悖论"——没有一个选项能让所有人都满意。这种非传递偏好意味着可能不存在一个一致的奖励函数或Condorcet赢家能够符合所有比较结果。
为了解决这个问题,研究人员转向了Nash学习框架(NLHF)。这个框架不再试图构建一个简单的奖励函数,而是直接将问题建模为一个对称的双人游戏:两名玩家同时选择行动,然后根据人类偏好判断哪个行动更好。在这个游戏中,自然的目标是找到一个对称的Nash均衡,也称为von Neumann赢家(VNW)。
与Condorcet赢家(单一最佳行动)不同,VNW通常是行动上的一个概率分布(混合策略),代表在面对潜在非传递偏好时的一个稳定结果。这就像是制定一个灵活的行为指南,而不是简单的"一刀切"规则。
在实际的RLHF设置中,特别是当调整预训练的大型语言模型时,我们希望学习一个既符合人类偏好又与原始参考策略(例如预训练模型)相近的策略。为了满足这一约束,研究者考虑寻找正则化偏好游戏的Nash均衡。这是通过添加一个与当前策略到参考策略之间KL散度成比例的惩罚项来实现的。这种正则化不仅鼓励与参考策略的相似性,还能为优化提供理论上的好处,比如Nash均衡的唯一性。
二、Nash Mirror Prox算法:创新的优化方法
找到这样一个游戏的Nash均衡可能是一项挑战。此前,Munos等人提出了NashMD算法,它是Mirror Descent(镜像下降)的一种改编,用于近似正则化偏好游戏的von Neumann赢家。NashMD首先通过将当前策略与参考策略混合来正则化当前策略,然后对这个正则化策略执行镜像下降步骤。他们证明,NashMD的最后一次迭代以O((β?N)??)的速率收敛到正则化Nash均衡,其中N是偏好查询的数量,β是正则化参数。
那么,我们能否开发出一种算法,基于更强大的优化原则,为NLHF实现更快的收敛速率呢?这就是本研究的核心问题。
研究者们提出了Nash Mirror Prox(NashMP)算法,这是一种新方法,灵感来自于Mirror Prox优化方案,旨在实现更快、更稳定的Nash均衡收敛。想象一下,如果传统RLHF方法就像是在地图上按照指南针一步步前进寻找目的地,那么NashMP就像是一个先侦察前方地形,然后根据侦察结果规划更佳路线的探险团队。
NashMP算法的迭代是这样定义的:
首先,算法计算一个"改进的"对手策略: π???/? = arg min[P(π? ? π) + β·KL(π∥π???) + (β/η)·KL(π∥π?)]
然后,它通过对这个改进的对手执行另一个镜像下降步骤来更新当前策略: π??? = arg min[P(π???/? ? π) + β·KL(π∥π???) + (β/η)·KL(π∥π?)]
其中,π是策略,P(π? ? π?)表示π?胜过π?的偏好,KL是Kullback-Leibler散度(衡量两个概率分布之间的差异),η是学习率,β是正则化参数。
简单来说,这个算法的独特之处在于它的两步结构:首先计算一个"前瞻"步骤,然后基于这个前瞻信息执行实际更新。这就像是国际象棋玩家先在脑中模拟几步可能的走法,然后基于这种前瞻分析做出最终决策。
NashMP与近似点方法(Proximal Point method)有着密切的联系。实际上,Mirror Prox最初的动机就是近似点法,而近似点法为Nash均衡提供了一个自然的视角。如果我们将学习率η设为无穷大(这意味着近似项(β/η)·KL(π∥π?)消失),那么近似点法的解会收敛到β-正则化的von Neumann赢家π*β。在实践中,由于近似步骤只能被近似计算,所以需要有限的学习率η。一般来说,对近似点步骤的更准确近似允许使用更大的学习率。
研究者们的理论分析证明,在合适的条件下,NashMP算法的最后一次迭代以线性速率收敛到正则化Nash均衡:O((1+2β)??/?/β),这比NashMD的O((β?N)??)快得多。重要的是,这种线性收敛适用于最后一次迭代,这在实际深度学习设置中非常理想,因为在这种情况下计算或存储策略平均值可能很困难。
此外,研究者们还分析了NashMP找到的正则化Nash均衡与原始非正则化游戏的VNW之间的关系,提供了次优性差距的上界。他们的分析表明,NashMP可以以O(1/ε)的查询复杂度找到原始游戏的ε-VNW,与最近的最先进方法相匹配,同时为正则化问题提供最后一次迭代的收敛保证。
三、从理论到实践:近似Nash Mirror Prox
在实际应用中,精确计算NashMP迭代是不可行的,因为这需要解决高维参数化策略类上的优化问题。为了克服这一挑战,研究者们提出了一种近似算法,其中迭代通过随机策略梯度方法进行不精确更新。
具体来说,他们对策略进行参数化,使用softmax函数:π_θ(y) = exp(θ_y)/∑_y'∈Y exp(θ_y'),然后使用随机梯度下降优化参数θ。这种方法使得NashMP的应用更接近实际大型语言模型的调整场景。
为了进行理论分析,他们首先建立了近似NashMP的收敛保证。如果我们能以span半范数ε的精度近似每个迭代,那么在K = ?(1+β)/(2β) · log(1/ε)?次迭代后,最终策略将是β-正则化游戏中的4√(ε/β)-VNW。
研究者们还提供了一个关键的技术贡献:在熵正则化多臂赌博机环境中,softmax策略梯度的改进分析。与Mei等人先前的工作相比,他们的策略梯度分析在Y(动作空间大小)的依赖性上实现了exp(√Y)因子的改进,使最终复杂度仅依赖于最优策略和初始参数,而非动作数量或奖励函数的尺度。
对于深度学习实现,研究者们提出了一个更实用的NashMP变体。他们注意到简化版的NashMP对每个全局镜像步骤进行T个梯度步。然而,由于Mirror Prox本身也是近似点法的近似,因此可能需要重新平衡外部和内部近似步骤。
他们考虑了以下策略:在线策略π_t(参数θ_t),目标π^target_t(参数θ^target_t),以及固定的参考策略π^ref。参数更新定义为: θ_t+1 = arg min_θ L_NashMP(θ; θ_t, θ^target_t, π^ref)
其中损失函数为: L_NashMP(θ; θ', θ^target) = E[P(y ? y'|x) + β·log(π_θ(y|x)/π^ref(y|x)) + (β/η)·log(π_θ(y|x)/π_θ^target(y|x))]
要获得NashMP,需要每两步更新一次目标策略参数θ^target_t。如果每n步更新一次,就会得到一个更接近近似点法的算法。
在实际应用中,用T个内部梯度步骤优化到收敛可能非常不切实际。相反,研究者们发现更实用优雅的方法是用一个(或少量)梯度更新更新在线参数,并用指数移动平均缓慢更新目标: θ_t+1 = θ_t - α·?_θ L_NashMP(θ_t; θ_t, θ^target_t) θ^target_t+1 = κ·θ_t + (1-κ)·θ^target_t
其中α是学习率,参数κ∈[0,1]隐式控制一个近似点更新的步数。因此,我们用n≈1/κ梯度步骤近似一个近似点子问题的解决方案。这种策略在深度强化学习中很常见。
对于梯度估计,研究者们使用了一种与DPO类似但更具对比性的形式:如果从偏好模型的角度看,两个响应y_i和y'_i相同,则P(y_i ? y'_i|x_i)≈1/2,不提供任何梯度信号。但如果一个响应比另一个好,就会增加其似然并减少较差答案的似然。如果只有对决反馈,可以用对决结果替换偏好模型。
四、实验验证:理论与实践的结合
为了验证NashMP算法的有效性,研究者们进行了两类实验:一是在简单的上下文对决赌博机问题上,二是在大型语言模型的调整上。
在简单的矩阵游戏实验中,他们固定了动作数Y=100和β=0.01,参考策略为均匀分布。他们将NashMP与几个基线方法进行比较:在线DPO、在线IPO、Nash MD,以及具有自适应κ的NashMP。结果显示,对于500步优化,NashMP并未提供比在线IPO更好的改进;然而,从约1000优化步开始,具有自适应κ = 10/(k+10)的NashMP开始优于所有基线,并且随着优化继续,相对改进增加。此外,他们观察到NashMP方法的置信区间要小得多,表明额外稳定化的影响。
在大型语言模型对齐实验中,研究者们使用Gemma-2B预训练模型检查点,并在RLHFlow数据集上进行训练。具体来说,他们首先在RLHFlow SFT数据集上执行SFT(监督微调),然后对所有NLHF实验使用结果检查点,使用RLHFlow Prompt集合的子集。成对判断模型是通过Robust Reward Models方法训练的Gemma-2B。
实验结果令人鼓舞,表明NashMP以κ=0.1的实用版本胜过所有基线,包括"正则化自对弈"(实质上是η=+∞的NashMP)。NashMP与正则化自对弈之间唯一的区别是增加了相对于目标模型的正则化,研究结果表明这种正则化的价值。
这些实验结果不仅验证了理论分析的正确性,还展示了NashMP在实际应用中的优越性。特别是,NashMP在处理大动作空间(如语言模型生成)时的独立性尤为重要,这使其成为大型语言模型调整的理想选择。
五、研究意义与未来方向
这项研究的重要性在于它提供了一种更有效、更稳定的方法来解决基于人类偏好的AI对齐问题。传统RLHF方法依赖的奖励模型可能无法捕捉人类偏好的全部复杂性,特别是当这些偏好表现出非传递性时。相比之下,NLHF框架通过将问题建模为一个偏好游戏,可以找到即使在复杂、非传递偏好情况下也保持稳定的策略。
NashMP算法的创新之处在于它显著加速了这一学习过程。通过利用Mirror Prox优化方案,它能够实现线性收敛率,这比现有方法要快得多。重要的是,这种收敛适用于最后一次迭代,消除了计算策略平均值的需要,这在深度学习背景下尤为重要。
此外,NashMP的收敛率不依赖于动作空间的大小,这对于大型语言模型的调整是一个关键优势,因为这些模型的输出空间极其庞大。这使得NashMP成为大型语言模型对齐的特别有吸引力的选择。
从更广泛的角度看,这项研究代表了将先进优化技术应用于AI对齐问题的重要一步。它展示了理论优化和实际应用之间的桥梁,提供了不仅理论上优越而且在实践中可行的解决方案。
关于未来的方向,这项研究提出了几个有趣的问题。一个关键问题是确定最佳收敛率。尽管NashMP显示出显著改进,但研究者们指出,他们不知道这一特定设置的任何已确立的下界,这留下了进一步改进的可能性。
另一个有前途的方向是探索NashMP在多轮规划等需要多轮决策的设置中的应用。当前的方法主要关注单轮决策点的偏好,但许多实际应用需要长期规划和序列决策。拓展NashMP以处理这类场景可能是一个valuable的研究方向。
此外,进一步研究如何更有效地近似NashMP步骤,特别是在大型语言模型的背景下,也是值得探索的。当前的近似方法使用随机策略梯度,但可能存在更高效或更稳定的近似技术。
最后,将NashMP应用于更广泛的人类偏好学习场景,超出语言模型的范围,也是一个有前途的方向。例如,它可能在机器人学习、推荐系统和其他依赖人类偏好的AI应用中发挥作用。
总的来说,这项研究在AI对齐的理论和实践前沿迈出了重要一步,提供了一种更有效地从人类反馈中学习的方法,有可能为更安全、更有益的AI系统铺平道路。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。