微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

阿里云团队破解AI训练"多目标困境"：让大模型同时学会准确答题又懂得简洁表达

强化学习多目标优化动态权重自适应

阿里云团队破解AI训练"多目标困境"：让大模型同时学会准确答题又懂得简洁表达

作者：科技行者

2026-06-01 10:15

分享至：

阿里云团队提出DVAO方法，通过动态方差自适应权重解决大模型多目标强化学习中的训练不稳定与目标割裂问题，在数学推理和工具调用任务上全面超越现有基线。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-01 10:15 • 科技行者

这项由阿里云计算团队完成的研究以预印本形式于2026年5月25日发布，论文编号为arXiv:2605.25604，感兴趣的读者可通过该编号查阅原始论文。

一位真正优秀的助理应该是什么样子？他不仅要给出准确的答案，还要言简意赅，不啰嗦；不仅要解决你的问题，还要格式规范、便于阅读；不仅要专业，还要懂得调用合适的工具。换句话说，一个好助理需要同时做好很多件事，而不是只把一件事做到极致却把其他的事情搞砸。

大语言模型（AI助理背后的核心技术）也面临同样的挑战。研究人员在训练这类模型时，往往需要它同时优化多个目标——比如既要回答正确，又要控制回答长度，又要格式规范，又要正确调用工具。然而现有的训练方法在处理这类"多任务"需求时，要么训练过程剧烈震荡难以稳定，要么各个目标之间相互割裂、无法协同进步。

正是为了解决这个棘手问题，阿里云团队提出了一种名为DVAO（动态方差自适应优势优化）的新方法，并通过严格的数学证明和大量实验验证了其有效性。这项工作的核心贡献在于：它找到了一种让AI在多个训练目标之间自动协调权重、保持训练稳定的方法，而且完全不需要人工手动调参。

一、大模型是怎么被"训练"成一个好助理的

要理解这项研究解决的问题，首先需要了解大模型是如何学习变得更好的。

当一个学生写完一篇作文，老师会给出分数和评语，学生根据反馈调整自己的写作方式。大模型的训练过程与此非常类似——模型生成一段回答之后，有一套评分机制（称为"奖励函数"）给这段回答打分，模型再根据分数调整自己的参数，争取下次生成更好的回答。这个不断生成、评分、调整的循环，就是强化学习（Reinforcement Learning，RL）的基本逻辑。

在诸多强化学习方法中，有一种叫做GRPO（组相对策略优化）的方法近年来大放异彩。它的聪明之处在于：与其费尽心思为每一段回答估算一个绝对"价值"，不如直接让模型针对同一个问题生成一批回答，然后在这一批回答中比较谁好谁差——好的回答得到正向激励，差的回答受到负向约束。这种"组内比较"的方式既节省计算资源，又不需要一个额外的"评判员模型"，因此被DeepSeek-R1、DAPO等一系列主流大模型训练框架广泛采用。

GRPO的关键计算是"优势值"——简单说，就是某段回答比同批回答的平均水平好多少或差多少。这个数值会直接影响模型参数的调整幅度：优势值越大，参数调整越猛烈；优势值越小，调整越温和。

然而，现实中的AI助理很少只有一个评分标准。一个数学辅导助理既要保证答案正确（准确性奖励），又不能写出几万字的长篇大论（长度奖励）。一个工具调用助理既要调用正确的工具（准确性奖励），又要输出格式规范的JSON指令（格式奖励）。当存在多个评分标准时，GRPO该如何处理？这就是这项研究要解决的核心问题。

二、现有的两种做法，各有各的"毛病"

研究人员在面对多目标训练问题时，通常采用两种直观的解决方案。

第一种方案叫做"奖励合并"（Reward Combination，简称RC）。思路很简单：把多个评分标准的分数加权平均，得到一个综合分数，然后用这个综合分数来计算优势值。就好比一个老师把语文、数学、英语的成绩按照一定比例加权，算出一个总分，再用总分来决定学生的奖惩。这种方法简单直接，容易实现。

但问题在于，当多个科目的分数分布差异很大时，这种简单加权会引发严重问题。阿里云团队通过数学推导（即论文中的命题1）证明了一个重要结论：用综合奖励分数计算出来的优势值，其平均平方大小，要大于或等于另一种方案计算出来的优势值。换句话说，奖励合并方法倾向于产生幅度很大的优势值。优势值过大意味着模型参数每次调整的幅度过大，就像一个学生每次考试后把自己的学习计划大幅推翻重来，这种剧烈震荡会导致训练过程不稳定，模型难以收敛到好的状态。

第二种方案叫做"优势合并"（Advantage Combination，简称AC）。思路是先对每个目标分别计算各自的优势值——每个目标内部先做标准化处理，再把各目标的优势值按比例加权。这样做的好处是每个目标的优势值都被控制在一个合理范围内，避免了某个目标的分数过大"压制"其他目标。

然而这种方法有另一个根本性的缺陷：它把多个目标完全割裂处理了。数学上可以证明（论文命题1及方程8），优势合并方法的梯度，等于各个独立目标梯度的加权平均。这意味着模型在调整参数时，只是在同时独立地优化每个目标，完全没有考虑不同目标之间的关联。

更棘手的是，优势合并方法的权重参数（每个目标各占多大比例）是人工事先指定的固定值，训练过程中不会自动调整。这就好比教练在赛季开始前就规定"体能训练占60%时间，战术训练占40%时间"，然后整个赛季都不根据球队实际情况做任何调整——即使球队的体能已经非常充足、战术还很薄弱，仍然死板地按照原计划执行。

三、DVAO：让训练强度自动跟着"学习空间"走

阿里云团队提出的DVAO方法，核心思想可以用一个直觉来理解：哪个目标现在"变化最大"，就给哪个目标更多关注。

回到学生学习的比喻：一个学生如果数学成绩在每次模拟考中忽高忽低（方差大），说明他在数学上还有很大的提升空间，学习方法也还不稳定；而他的语文成绩每次都稳定在90分左右（方差小），说明语文已经学得相当扎实，再多花时间在语文上收益有限。聪明的学习规划应该是：此时把更多精力放在数学上，而不是平均分配时间。

DVAO的做法正是如此。在每一轮训练中，模型针对同一个问题生成一批回答，DVAO会计算这批回答在每个目标上的奖励分数的标准差（可以理解为"波动程度"或"分散程度"）。某个目标的奖励分数波动越大，说明模型在这个目标上的表现还很不稳定，还有很多东西可以学；某个目标的奖励分数几乎没有波动，说明模型在这个目标上已经表现得非常一致了，继续大力强化这个目标的意义不大。

具体而言，DVAO将每个目标的权重替换为"动态方差自适应权重"——原始权重乘以该目标的标准差，再除以所有目标的加权标准差之和（见论文方程9）。这个权重在每一轮训练中都会根据当批数据实时计算，完全由数据驱动，不需要人工干预。最终的综合优势值，就是各目标优势值按这套动态权重加权求和的结果。

四、DVAO为什么在数学上更合理：两个重要定理

研究团队不仅提出了这个方法，还给出了严格的数学证明，解释了DVAO为什么在两个关键维度上优于现有方法。

第一个关键性质是"优势值幅度有界"（命题2）。研究团队证明，对于同一批回答中的任意一条回答，DVAO计算出的优势值绝对值，一定小于或等于奖励合并方法计算出的优势值绝对值。这个证明用到了数学上的柯西-施瓦茨不等式——简单说，就是多个有相关性的分数加权后，其整体波动不会超过各自波动的加权和。DVAO相当于在分子和分母上都做了恰当的缩放，使得最终的优势值被压缩在一个更合理的范围内。这从根本上保证了训练过程不会因为某次极端的优势值而发生剧烈震荡。

第二个关键性质更加微妙，也更加深刻——"跨目标隐式正则化"（命题3）。这个性质通过对比DVAO和优势合并方法的"敏感度"来揭示。所谓敏感度，是指当某个目标的奖励分数发生变化时，综合优势值会如何响应。

对于优势合并方法，当第k个目标的奖励分数发生变化时，综合优势值的变化量，只取决于第k个目标自己的孤立优势值（见论文方程11）。每个目标各自为政，互不干扰。

而对于DVAO，综合优势值的变化量取决于一个交叉项——DVAO的综合优势值乘以第k个目标的孤立优势值（见论文方程12）。这个交叉项蕴含了深刻的含义：当模型在这批回答中的综合多目标表现很好时（综合优势值为正），对某个目标的学习信号会被放大；当综合多目标表现很差时，学习信号会被压缩。换句话说，模型在调整某个单一目标时，会自动考虑自己在所有目标上的整体表现。

这就像一个运动员在调整某个技术动作时，不只看这个动作本身的分数，还会参考自己在整场比赛中的综合表现——如果整体发挥很好，对这个动作的调整会更积极；如果整体发挥很差，就会更谨慎，不轻易大幅修改。这种跨目标的信息流动，使得DVAO能够自动协调不同目标的优化进程，避免某个容易的目标被过度优化而牺牲较难的目标。

五、实验验证：在数学推理和工具调用两个战场上全面领先

理论推导固然重要，但研究的最终价值还是要落到实验数据上。阿里云团队在两类典型任务上进行了全面测试。

第一类是数学推理任务。使用Qwen3-4B-Base和Qwen3-8B-Base两个不同规模的基础模型，在AIME-2024、AIME-2025、MATH500、OlympiadBench、AMC23五个数学基准上评测。这类任务有两个训练目标：答案准确性和输出长度控制（要求回答不超过4000个token）。研究团队对比了五种方法：单目标GRPO（只优化准确性）、奖励合并（RC）、优势合并（AC）、GDPO（一种已发表的多目标优化方法）和DVAO。

结果相当清晰。以Qwen3-4B-Base模型为例，单目标GRPO的平均准确率39.91%、长度达标率77.84%；奖励合并的平均准确率38.99%、长度达标率96.39%；优势合并的平均准确率38.75%、长度达标率96.23%；GDPO表现最差，准确率仅13.41%，虽然长度达标率高达97.81%；而DVAO的平均准确率42.19%、长度达标率高达99.91%。DVAO是唯一同时在准确性和长度控制两个维度都达到最优的方法。

在Qwen3-8B-Base上，这种优势更为明显：DVAO平均准确率47.49%、长度达标率99.92%，而奖励合并为46.26%和98.71%，优势合并为45.42%和98.84%。

第二类是工具调用任务。使用Qwen2.5-3B-Instruct和Qwen2.5-7B-Instruct两个模型，在BFCL-v4基准（Berkeley Function Call Leaderboard v4）上评测，该基准涵盖单步推理、多步工具使用、实时执行、无关工具拒绝、同步多工具选择等多种复杂场景。训练目标是工具调用准确性和输出格式合规性。

结果同样令人印象深刻。以Qwen2.5-7B-Instruct为例，基础模型本身的准确率47.83%但格式合规率为0%（完全不符合格式要求）；单目标GRPO准确率52.26%、格式合规率仍为0%；奖励合并准确率58.38%、格式合规率76.42%；优势合并准确率却下滑到44.25%（低于基础模型），格式合规率68.04%；GDPO准确率60.13%、格式合规率68.12%；而DVAO准确率63.00%、格式合规率79.21%，两个维度均为最优。

特别值得一提的是Qwen2.5-7B-Instruct上优势合并方法的表现——其准确率44.25%竟然低于没有经过任何多目标训练的基础模型47.83%，这印证了研究团队在理论分析中指出的：固定权重的优势合并在某些情况下会导致优化目标相互干扰，反而使整体性能下降。

六、训练过程中的动态变化：三条曲线揭示的故事

除了最终评测数字，研究团队还详细记录了训练过程中的动态变化，通过可视化图表揭示了不同方法在训练稳定性上的本质差异。

在准确性奖励的变化曲线上，DVAO的均值曲线从训练开始就持续领先于奖励合并和优势合并，且随着训练步数增加，领先优势逐渐扩大。更值得关注的是标准差曲线——准确性奖励的标准差反映了模型在不同问题上表现的一致性，标准差越小说明模型的能力越稳定。在4B和8B两个规模的模型上，DVAO的准确性奖励标准差都下降得最快、最低，而优势合并方法的标准差在整个训练过程中始终是三种方法中最高的。高方差的梯度信号，正是优势合并导致训练不稳定的直接体现。

在长度奖励的变化曲线上，DVAO的均值曲线最快接近目标值1.0，而奖励合并的曲线则有更明显的波动，最终稳定在一个略低的水平。更戏剧性的是长度奖励的标准差：DVAO的标准差出现了急剧的"方差坍塌"——在8B模型上，DVAO的长度奖励标准差最终接近于零，而奖励合并和优势合并的标准差则保持在明显更高的水平。这种方差坍塌，正是研究团队在命题3中描述的"跨目标隐式正则化"效应的直接体现——准确性目标和长度目标通过DVAO的交叉项相互约束，避免了任何一方的奖励信号主导整个梯度更新。

在回答长度的变化曲线上，所有方法都从大约800个token出发，随着训练进行逐渐增长。DVAO的增长速度最快，最终稳定在最高的长度水平，显示出模型在DVAO训练下更积极地探索更长的推理链。奖励合并能达到与DVAO接近的最终长度，而优势合并的增长则相对迟缓。值得一提的是，DVAO的长度曲线比其他方法略有震荡，研究团队认为这反映了DVAO在探索较长推理路径时更为积极，但最终平均长度仍然稳定收敛，说明有界优势值确实在防止无限制的长度膨胀。

七、Pareto前沿分析：换不同权重也依然领先

仅仅比较单一权重配置（各目标权重相等）的结果，不足以全面评价一种方法的优劣，因为其他方法或许只是在这个特定权重下表现不好，换个权重就能超越DVAO。为此，研究团队进行了更全面的"Pareto前沿"分析。

Pareto前沿的概念可以这样理解：假设你在买一台手机，预算有限，只能在"价格更低"和"性能更好"之间权衡。所有"无法在不牺牲某一方面的情况下同时提升两方面"的选择，构成了Pareto前沿。在多目标优化中，Pareto前沿代表了不同权重配置下的最优权衡曲线——Pareto前沿越靠近"右上角"（两个目标都更好），方法越优秀。

研究团队将准确性权重在{0.1, 0.3, 0.5, 0.7, 0.9}五个值之间变化（长度/格式权重随之互补），分别训练模型并记录最终的准确率和长度/格式达标率，画出每种方法的Pareto前沿曲线。

结果显示，DVAO的Pareto曲线在数学推理任务（Qwen3-4B-Base）和工具调用任务（Qwen2.5-3B-Instruct）上都稳定地占据右上角区域，始终优于其他方法。奖励合并的曲线在高准确性权重时快速饱和，灵活性有限；优势合并的曲线出现严重的不规则波动，说明不同权重配置下的训练稳定性差异很大；GDPO的曲线则在不同权重间跳动，缺乏规律性。这意味着无论用户希望AI更偏向准确还是更偏向简洁，DVAO都能提供最好的权衡结果，而不只是在某个特定比例下才有优势。这一结论进一步印证了DVAO的优势来自其自适应机制本身，而非某个特定权重配置的"运气"。

八、局限性与未来的方向

研究团队在论文中坦诚地讨论了DVAO方法目前存在的几个边界条件。

DVAO的动态权重计算依赖于每批回答中各目标奖励的方差估计，而这个估计的质量取决于批次大小G。在实验中，G=16能够提供相当稳定可靠的方差估计信号。然而对于非常大的模型，硬件内存的限制可能迫使研究者将G缩减到极小（比如G≤4），此时批内方差估计可能变得噪声很大，DVAO的自适应机制就可能失效。未来的改进方向之一，是引入历史动量或跨批次移动平均来稳定方差估计，从而在内存极度受限的场景下仍能正常工作。

另一个局限是实验主要集中在双目标场景（准确性加长度，或准确性加格式）。虽然理论证明在数学上对任意n个目标都成立，但在超高维的目标空间中——比如同时优化帮助性、无害性、风格、长度、工具调用五个目标——各目标之间的相互作用会更加复杂，DVAO的实际表现还需要更多实验验证。

此外，DVAO本质上是一个信号放大器：哪个目标的方差大，就放大哪个目标的学习信号。这意味着，如果某个辅助目标的奖励函数本身设计得不好，其高方差来自奖励噪声而非真实的学习信号，DVAO可能会误把噪声当作强信号来放大。因此，DVAO虽然消除了权重手动调优的需求，但对单个奖励函数的质量仍有一定要求——奖励函数本身需要设计得相对合理，才能让DVAO的自适应机制发挥最大效果。

说到底，这项研究解决的是一个在AI工程实践中非常真实的痛点：当你需要AI同时学会多件事，如何让训练过程既稳定又高效？阿里云团队给出的答案是——不要让学生平均用力，而是根据每门功课当前的"提升空间"动态分配学习精力，同时让各科目的学习进展相互参考、协同推进。这个思路简洁而有力，既有严格的数学支撑，又在实验中表现出切实的性能提升。对于任何需要训练多目标AI系统的工程师而言，DVAO提供了一个值得认真参考的实践方案，而其背后的理论框架也为理解多目标强化学习的本质提供了新的视角。感兴趣的读者可通过arXiv:2605.25604查阅完整论文，深入了解所有数学推导和实验细节。

Q&A

Q1：DVAO和普通的多目标训练方法相比，核心区别是什么？

A：DVAO最大的区别在于权重是动态的。普通的奖励合并或优势合并方法需要人工预先设定每个目标各占多大比重，并且训练全程不变。DVAO则根据每批训练数据中各目标奖励分数的波动程度，自动实时调整权重——哪个目标当前波动大，就给它更大的权重，完全不需要手动调参。

Q2：DVAO训练出来的大模型，在实际使用中有什么明显变化？

A：以数学辅导场景为例，DVAO训练的模型在AIME等难题上的准确率更高，同时输出长度的控制也更好，几乎100%能把回答控制在目标长度以内，而不是像其他方法那样要么准确了但回答太长，要么长度控制住了但准确率下降。工具调用场景也类似，准确率和格式合规率同时领先其他方法。

Q3：DVAO方法需要额外的计算资源吗？

A：基本不需要。DVAO的动态权重计算只是对当批已有的奖励分数做标准差统计，这个计算量相对于模型推理和梯度更新来说微乎其微。整体训练框架和GRPO完全一致，只是把固定权重替换成了实时计算的动态权重，不引入额外的模型或大量额外的计算步骤。

强化学习多目标优化动态权重自适应

分享至