
当我们试图教会一个机器人同时学会多项技能时,就像让一个学生同时学习数学、英语和体育一样,往往会遇到"顾此失彼"的问题。英伟达公司的研究团队在2026年1月发表的最新研究中,提出了一种名为GDPO(群组奖励解耦归一化策略优化)的创新方法,有效解决了人工智能在多重目标学习中的核心难题。这项研究发表在arXiv预印本平台,论文编号为arXiv:2601.05242v1,为AI训练领域带来了重要突破。
想象一下,如果你要训练一个AI助手,希望它既能准确回答问题,又能保持回答的简洁性,还要确保格式规范。传统的训练方法就像一个糊涂的老师,会把所有的评分标准混在一起,结果导致AI搞不清楚到底哪个方面更重要,最终可能在某些技能上表现出色,但在其他方面却一塌糊涂。英伟达团队发现了这个问题的根源,并提出了一个聪明的解决方案。
目前主流的AI训练方法叫做GRPO(群组相对策略优化),它就像一个只会简单算总分的评分系统。当AI需要同时掌握多种技能时,GRPO会把所有技能的得分加起来,然后基于这个总分来指导学习。但这种做法存在严重缺陷,就好比一个学生数学考了90分,英语考了10分,总分是100分;另一个学生数学50分,英语50分,总分也是100分。按照GRPO的逻辑,这两个学生表现一样好,但实际上他们的能力结构完全不同。
研究团队通过深入分析发现,GRPO在处理多重奖励时会出现"奖励信号坍缩"的现象。用更通俗的话说,就是原本不同的表现模式被错误地归为了同一类,导致AI无法区分它们的差异。这就像把苹果、橙子和香蕉都简单地称为"水果",虽然分类没错,但丢失了很多重要的细节信息。
为了解决这个问题,研究团队开发了GDPO方法。如果说GRPO像一个粗糙的评分员,那么GDPO就像一个细致入微的专业教练。GDPO的核心思想是"分而治之"——它不是简单地把所有技能得分加在一起,而是先分别评估每个技能,然后再进行综合考量。
具体来说,GDPO的工作过程分为两个步骤。首先是"分项评估"阶段,就像体操比赛中裁判分别给出技术分和艺术分一样,GDPO会单独计算每个技能的表现分数。然后是"统一标准"阶段,它会将这些分项分数调整到同一个评价标准下,确保最终的综合评价既考虑了各项技能的具体表现,又保持了评价体系的一致性。
为了验证GDPO的效果,研究团队在三个不同的AI应用场景中进行了大量实验。第一个场景是工具调用任务,就像训练AI学会正确使用计算器、搜索引擎等工具,既要保证调用正确,又要确保输出格式规范。第二个场景是数学推理任务,要求AI既能得出正确答案,又能控制解答篇幅不过于冗长。第三个场景是代码编程任务,需要AI生成的代码既能正确运行,又要简洁高效,还要尽量避免错误。
在工具调用实验中,研究团队使用了包含4000个训练样本的数据集,训练了不同规模的AI模型。结果显示,采用GDPO方法训练的模型在准确性和格式规范性方面都明显优于传统GRPO方法。具体而言,GDPO训练的模型在工具调用准确率上提升了约2.7%,在格式正确率上提升了超过4%。这种改进对于实际应用来说意义重大,因为格式错误往往会导致整个AI系统的功能失效。
数学推理实验的结果更加令人印象深刻。研究团队发现,传统GRPO方法在训练过程中经常出现不稳定现象,表现为模型性能在训练后期突然下降。这就像一个学生原本学得好好的,但越学越糊涂。而GDPO方法则展现出了卓越的稳定性,不仅避免了性能倒退,还在准确率上实现了显著提升。在具有挑战性的AIME数学竞赛题目上,GDPO训练的模型比GRPO方法最多提升了6.3%的准确率,同时在控制答案长度方面也表现出色。
编程任务的三重目标实验进一步证明了GDPO的通用性。当AI需要同时优化代码正确性、简洁性和错误率时,GDPO能够在所有三个维度上都取得平衡的提升。这种能力对于实际的软件开发AI助手来说至关重要,因为用户既希望得到能正常运行的代码,也希望代码简洁易懂且尽量不出错。
研究团队还深入探讨了如何在多目标训练中体现不同优先级。在现实应用中,用户往往对不同技能有不同的重视程度。比如在某些场景下,准确性比简洁性更重要;而在其他场景下,可能更看重格式规范性。传统方法通常通过调整权重来处理这种需求,但研究团队发现,当不同技能的学习难度差异很大时,简单的权重调整往往不够有效。
为此,研究团队提出了"条件化奖励"的概念。这种方法就像设置前置条件一样,比如只有在回答正确的前提下,简洁性才能得分。这样可以确保AI优先掌握最重要的技能,然后再在这个基础上优化其他方面。实验结果表明,这种方法在引导AI学习优先级方面非常有效。
值得注意的是,GDPO方法的优势不仅体现在最终性能上,更体现在训练过程的稳定性上。传统GRPO方法在多目标训练中经常出现训练崩溃或性能震荡的问题,就像一个学生的成绩忽高忽低,难以预测。而GDPO则展现出了令人印象深刻的稳定性,训练曲线平滑上升,很少出现突然的性能下降。
从技术角度来看,GDPO的成功在于它更准确地保留了不同奖励信号之间的差异信息。在传统方法中,不同的行为模式可能会被错误地归为同一类,导致学习信号变得模糊。而GDPO通过分别处理各个奖励维度,然后再进行合理的归一化,成功避免了这种信息损失。
研究团队在论文中还提供了详细的理论分析,解释了为什么GDPO能够产生更多样化的优势值组合。他们用一个简单的例子说明了这个问题:在两个二进制奖励的情况下,传统GRPO方法只能产生2种不同的优势值组合,而GDPO则能产生3种。随着奖励数量和候选答案数量的增加,这种差异会变得更加明显,GDPO能够提供指数级增长的信息丰富度。
这项研究的意义远不止于技术层面的改进。随着AI系统变得越来越复杂,需要同时满足多种要求的场景也越来越多。无论是聊天机器人需要既准确又友好,还是自动驾驶需要既安全又高效,多目标优化都是AI发展的必然趋势。GDPO为这类问题提供了一个通用而有效的解决框架。
从实际应用的角度来看,GDPO的引入可能会显著改善用户体验。以智能客服为例,传统训练方法可能让AI要么回答非常准确但过于冗长枯燥,要么回答简洁友好但准确性不足。而采用GDPO训练的AI客服则更有可能在准确性、简洁性和友好性之间找到良好的平衡点。
研究团队还特别强调了GDPO在处理相互冲突目标时的优势。在许多实际场景中,不同的优化目标往往存在天然的矛盾。比如在数学解题中,给出详细解答步骤有助于准确性,但会增加答案长度;而简化答案虽然简洁,但可能降低准确性。GDPO能够更好地处理这种矛盾,找到各个目标之间的最佳平衡点。
值得一提的是,这项研究还为AI训练的可解释性提供了新的思路。传统的单一奖励训练往往让人难以理解AI为什么做出某个决定,而多目标训练配合GDPO方法,可以让我们更清楚地看到AI在不同维度上的考量。这对于建立用户对AI系统的信任具有重要意义。
从更广阔的perspective来看,GDPO代表了AI训练方法学的一个重要进步。它表明,简单地将复杂问题归约为单一目标优化可能会丢失重要信息,而采用更精细的多目标处理方法则能够获得更好的结果。这种思路可能会影响整个AI领域的发展方向。
研究团队还开源了GDPO的实现代码,并在多个主流的AI训练框架中提供了支持,包括HF-TRL、verl和Nemo-RL等。这意味着研究人员和开发者可以很容易地将这种方法应用到自己的项目中,加速整个领域的发展。
总的来说,英伟达团队的这项研究不仅解决了AI多目标训练中的一个重要技术问题,更为整个领域提供了新的思考角度。随着AI应用场景的不断扩展和复杂化,像GDPO这样能够处理多重约束和目标的训练方法将变得越来越重要。这项研究为构建更加智能、平衡和可靠的AI系统奠定了重要的技术基础。
Q&A
Q1:GDPO相比传统GRPO方法有什么具体优势?
A:GDPO的主要优势是能够避免"奖励信号坍缩"问题。传统GRPO会把所有技能得分简单相加,导致不同表现模式被错误归为同一类,就像把不同水果都称为"水果"一样丢失重要信息。而GDPO先分别评估每个技能,再进行综合,能更准确地区分不同表现,提供更丰富的学习信号。
Q2:GDPO方法在哪些AI应用场景中表现出色?
A:GDPO在工具调用、数学推理和代码编程三大场景中都表现优异。在工具调用中,准确率提升2.7%,格式正确率提升超过4%;在数学推理中,避免了传统方法的训练崩溃问题,AIME竞赛题准确率最多提升6.3%;在编程任务中,能同时优化代码正确性、简洁性和错误率。
Q3:普通开发者如何使用GDPO技术?
A:英伟达团队已将GDPO开源,并在HF-TRL、verl和Nemo-RL等主流AI训练框架中提供支持。开发者可以直接调用这些框架中的GDPO实现,应用到自己的多目标AI训练项目中,无需从零开发就能享受这种先进训练方法带来的性能提升。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。