
这项由浙江大学、浙江工业大学与HiThink(海辰)联合完成的研究,以预印本形式于2026年5月7日发布在arXiv平台,论文编号为arXiv:2605.06507。有兴趣深入了解的读者可通过该编号检索完整论文。
**一切从一个令人头疼的问题说起**
假设你是一位餐厅老板,需要同时满足三位挑剔的评委:第一位只在乎菜品颜值,第二位只在乎口感,第三位只在乎是否符合食材描述。以往的做法是分别训练三位不同的厨师,每人专攻一位评委的口味——这样确实能让每位评委都满意,但你因此需要雇三个人,成本高昂,而且顾客点餐时永远只能选择一位厨师的风格,得不到一道既好看、又好吃、又名副其实的菜。
这正是人工智能图像生成领域面临的现实困境。近年来,用"强化学习微调"来让AI图像生成模型(比如Stable Diffusion这类扩散模型)更好地迎合人类喜好,已经成为业内的主流做法。然而,评判一张图好不好,从来都不是只看一件事。一张真正高质量的图,需要同时在审美、文字准确度、内容符合程度等多个维度上都表现出色。可现有的方法要么针对每个维度单独训练一个模型,无法合并成一个通用模型;要么把所有评判标准像做调料一样按比例混合在一起,结果往往是顾此失彼;要么像流水线一样,先专门学第一个标准,再学第二个,再学第三个……整个过程需要大量手工调参,而且学了新的就容易忘掉旧的。
研究团队将这个问题称为"专家样本困境",并为此提出了一套名为MARBLE(Multi-Aspect Reward BaLancE,多维度奖励均衡)的全新方法。这是目前已知的、第一个专门针对扩散模型强化学习中多奖励平衡问题的方法。
---
**一、当你把所有评判标准混在一起,究竟发生了什么**
回到餐厅的比喻。假设你决定不雇三位厨师,而是让一位厨师同时考虑三位评委的标准,方法是把他们的评分按比例加权求和,得到一个"综合分数"。听起来很合理,对吧?
但问题在于,每道菜(每张生成的图)对不同评委的意义是不同的。一道精心摆盘的沙拉,对"颜值评委"来说是一条宝贵的线索,但对"口感评委"来说几乎毫无参考价值——因为沙拉的口感本来就平平无奇。反过来,一道火候极佳的红烧肉,口感无可挑剔,但摆盘朴素,对颜值评委的参考价值也很有限。
当你把这两道菜的"综合分数"都压缩成一个数字,原本对"颜值评委"极有价值的摆盘信息,就被红烧肉平庸的颜值拖累了;而红烧肉对"口感评委"宝贵的火候信息,也被沙拉的普通口感稀释了。厨师学习时,拿到的是模糊的、被污染的信号,最终哪一方面都学不精。
研究团队用真实实验数据印证了这一点。他们在SD3.5 Medium(Stable Diffusion 3.5 Medium,一款主流扩散模型)上进行测试,发现当使用加权求和的奖励方式训练时,在80%的训练批次中,模型更新的方向与至少一个单独奖励维度的梯度方向是"反向对齐"的——用更直白的话说,这个更新步骤在帮助某些维度提升的同时,正在主动拖后腿、伤害另一些维度。这就好比你告诉厨师"综合提升一下",结果他改进了摆盘,却不知不觉把火候调差了。
研究团队把这种现象叫做"梯度方向反向对齐",本质上是因为不同奖励维度对同一张图的判断角度完全不同,把它们强行合并成一个数字,会掩盖每张图真正有价值的那部分信号。
另一种常见方法是"分阶段串行训练"。以DiffusionNFT这个方法为例,其手工设计的训练课表包括:先用奖励1训练800步,再用奖励2训练300步,再切回奖励1训练200步,再切回奖励2训练200步,最后用奖励3训练100步……整个过程完全依赖人工经验拍板,而且每增加一个新的奖励维度,课表就要重新设计。更糟的是,学了新内容之后,模型往往会逐渐"忘掉"之前学的东西,不得不反复回头复习,课表越来越复杂。
这两种主流方法都存在根本性缺陷。MARBLE的目标,正是在不手动调权重、不精心设计训练课表的前提下,让一个模型同时在所有评判维度上都进步。
---
**二、MARBLE的核心思路:不在最终分数上妥协,而在行动方向上协商**
MARBLE的关键洞察可以用一个委员会开会的场景来理解。
假设公司有五个部门负责人(对应五个奖励维度),每次开会时每位负责人都有自己想要推动的工作方向。以往的做法是会前把五个人的意见按权重混合,得出一份"综合意见书",然后按这份综合意见书行动——但这样做的问题是,某些部门的真实诉求被稀释了,甚至被完全压制。
MARBLE的做法是:开会时,让五位负责人各自提出完整的、独立的行动方案,然后专门找一个"协调员"来解决冲突——协调员的目标是找到一个所有人都能接受、没有人会觉得"这个方向在帮倒忙"的折中行动方案。这个折中方案不一定是任何一位负责人理想中的最优,但它保证了每位负责人的核心诉求都不会被忽视。
技术上,MARBLE分成三个步骤来实现这个思路。
第一步是"独立记账"。针对每一个奖励维度,MARBLE单独维护一套"优势估计器"——也就是说,对于同一张生成的图,MARBLE会分别问五个问题:这张图在颜值上比同类平均水平高多少?在文字准确度上呢?在内容符合程度上呢?每个问题都有独立的评分,而不是混合成一个数字。这样,一张精心摆盘但内容一般的图,在颜值维度上得到的是真实的高分信号,而不是被其他维度拉低后的模糊信号。
第二步是"独立求导"。基于每个维度独立的评分,MARBLE对每个奖励维度单独计算"这个方向上应该往哪里走"——用数学语言说,就是分别计算每个奖励维度的策略梯度。这一步生成了五个独立的"行进方向建议",每个建议都完全保留了该维度的真实信息,没有被其他维度污染。
第三步是"协调求解"。有了五个独立的方向建议之后,MARBLE通过求解一个数学优化问题(二次规划,Quadratic Programming)来找到最佳的折中方向。这个优化问题的目标是:找一组权重,使得五个方向加权之后的合力向量尽可能短(也就是尽可能接近"零冲突"),同时确保每个维度的权重都是非负数且加起来等于1。这个数学问题的解,就是那个"所有部门都不会觉得在帮倒忙"的协调方向。
在具体操作中,为了避免不同奖励模型产生的梯度在数值大小上差异悬殊(有的可能天然大一百倍,有的天然小),MARBLE在求解协调方向之前,会先把每个方向向量都缩放到单位长度——这相当于给五位负责人的发言权做了归一化,不让嗓门大的人压过嗓门小的人。完成协调之后,再把合力方向恢复到合理的更新步长,避免步子迈得太大或太小。此外,KL正则化(一种防止模型训练时偏离原始模型太远的机制)被单独处理,不参与五个奖励维度的协调过程,因为它扮演的是"安全边界"的角色,与"哪个维度该进步多少"是两件不同的事情。
实验数据显示,相比加权求和,MARBLE的更新方向与最差对齐的那个奖励维度之间的余弦相似度,从平均-0.1346(负值意味着方向相反)跃升到了+0.3721(正值意味着方向一致)。冲突率从80%降到了0%,同时五个方向之间的对齐差异也从0.1605大幅缩小到0.0058,意味着更新对五个维度的照顾更加均衡。
---
**三、但是五个方向各算一次,计算量不是翻了好几倍吗**
这是一个非常现实的问题。如果每训练一步都要跑五次完整的反向传播(神经网络的学习过程),再加上一次KL正则项的计算,那总计算量就是单奖励训练的六倍,代价太高了。
研究团队发现了一个巧妙的数学性质,让这个问题得以解决。
他们所用的基础训练框架DiffusionNFT,有一个特殊的数学结构:它的损失函数对参数的梯度,与"奖励信号如何换算成训练信号"的那个换算步骤,恰好是线性关系——准确说是仿射关系(线性加上一个常数偏置)。用通俗的话说,就是如果你把五个维度的训练信号按某个比例混合成一个数字,然后跑一次反向传播,得到的梯度,与分别算五次再按同样比例混合,在数学上是完全等价的。
这个等价性有一个前提:混合比例(也就是协调权重)要满足一个简单的约束,即五个权重加起来等于1,而且奖励信号不能超过某个上限(实验中设为5,实践中从未触发)。只要这两个条件满足,就可以直接计算"混合后的奖励信号",然后只跑一次反向传播,效果与分开算五次完全一致。
基于这个性质,MARBLE提出了"摊销梯度协调"方案:每隔N步,才跑一次完整的五路独立反向传播来刷新协调权重;在接下来的N-1步里,直接把当前缓存的权重拿来混合奖励信号,只跑一次反向传播。这样一来,平均每步的计算量从"K+1次反向传播"(K为奖励维度数),降到了接近"1次反向传播"的水平,具体是(K+N)/N倍。当K=5、N=10时,平均每步只需要1.5次,而不是6次。
实验测量显示,这种摊销方案使得MARBLE的实际训练速度达到了加权求和基线的0.97倍——也就是说,和最简单的基线跑得几乎一样快。显存占用从59G增加到67G,约增加了14%,代价非常小。作为对比,不使用摊销的完整版MARBLE,速度只有基线的0.56倍,代价明显偏高。
---
**四、还有一个小问题:权重估计可能不稳定**
摊销方案虽然解决了速度问题,但引入了另一个潜在隐患:协调权重是从一批训练数据中估算出来的,而一批数据样本量有限,估算出来的权重可能因为这批数据碰巧偏向某个方向而出现较大波动。
举一个具体场景:假设某一批训练图碰巧全都是纯风景照,没有任何文字内容,那么负责"文字准确度"的奖励维度在这批数据上产生的梯度就会非常微弱,协调求解器可能因此给这个维度分配一个接近零的权重。如果这个零权重被缓存并在接下来的9步中反复使用,等于在这9步里完全不管文字准确度,这会明显拖慢这个维度的训练进度。
MARBLE对此的解决方案是对协调权重做指数滑动平均(EMA)平滑处理。具体做法是:每次刷新权重时,新的权重不直接覆盖旧的,而是按照"旧权重×0.7 + 新权重×0.3"的方式混合(0.7就是EMA衰减系数ρ)。由于旧权重和新权重都满足"加起来等于1"的约束,它们的凸组合也自然满足这个约束。
这样做的好处是:一次碰巧偏差的批次不会把某个维度的权重直接压到零;历史上多个批次的信息被平滑保留下来,权重曲线更加稳定。实验发现,ρ=0.7是性能最好的设置,比ρ=0.1或ρ=0.9都明显更好,原因是0.1太容易受单批次噪声影响,0.9又太惰性以至于无法及时适应训练过程中难度分布的变化。
---
**五、在真实实验中,MARBLE究竟表现如何**
研究团队在Stable Diffusion 3.5 Medium上做了完整实验,同时优化五个奖励维度:PickScore(人类偏好打分)、HPSv2(人类偏好打分第二版)、CLIPScore(文本与图像的语义匹配程度)、OCR准确度(图中文字的可读性),以及GenEval(物体属性和空间关系的准确性)。前三个是通用型奖励,后两个是专业型奖励,要求模型在非常具体的细节上表现精准。
为了评估模型是否真的全面提升而不是专门针对这五个指标过拟合,研究团队还额外测量了三个从未在训练中出现过的指标:Aesthetic Score(审美评分)、ImageReward和UniReward,这三者全部没有参与训练,完全用于测试泛化能力。
与几个主要对比方案相比,结果非常清晰。加权求和同时训练版本(DiffusionNFT?)在OCR和GenEval这两个专业型奖励上表现明显拖后腿,综合评分远低于MARBLE。分阶段串行训练版本(DiffusionNFT+)在PickScore和CLIPScore上略高于MARBLE,但在HPSv2.1、审美评分、ImageReward和UniReward上都不如MARBLE,且这套方案需要手工设计复杂的训练课表(先训800步再训300步再切回200步……),而且随着奖励数量增加,课表的设计工作量会线性增长,根本不具备可扩展性。
MARBLE在将五个训练维度同时提升的同时,在四个测试维度上也取得了最高分,综合评分(Composite,即所有指标的z分数均值)为+1.116,明显高于分阶段方案的+1.015,更高于加权求和方案的+0.184。
消融实验(逐一去掉某个组件,观察性能变化)进一步验证了每个设计选择的必要性。去掉梯度归一化之后,训练直接失败,说明这一步对防止数值不稳定至关重要。换成固定均匀权重(每个维度0.2),在GenEval等难度高的维度上收敛更慢、最终分数也更低,说明自适应权重能有效向困难任务倾斜资源。去掉摊销、每步都刷新权重,速度明显下降,而且由于单批次估计的权重波动过大,训练稳定性变差,部分质量指标下滑。
在用户研究中,研究团队邀请20位与项目无关的匿名参与者,对匿名打乱的生成图像分别在"文图对齐度"和"图像质量"两个维度打1-5分。MARBLE在两个维度上均获得最高均分(文图对齐4.63分、图像质量4.41分),而分阶段方案分别是4.26和3.58,加权求和方案分别是3.60和2.79。
一个有意思的发现是:虽然分阶段方案在PickScore和CLIPScore这两个自动评估指标上略高于MARBLE,但在人工评分和其他自动指标上均不如MARBLE。这说明不同的自动指标衡量的是图像质量的不同侧面,没有任何单一指标能完整代表人类对图像的综合判断。Pearson相关分析也印证了这一点:在所有测试指标中,HPSv2.1与人工评分的相关性最高(与图像质量的相关系数达+0.66),而CLIPScore与人工图像质量评分的相关性几乎为零(+0.00)。
---
**六、协调权重会告诉我们什么**
研究团队还观察了训练过程中协调权重(经过EMA平滑后的α值)的变化曲线,发现了一个有趣的规律:权重的变化并不直接反映对应奖励指标分数的高低,而是更接近于反映该维度当前的"优化难度"。
HPSv2是五个维度中最"容易"的一个,因为SD3.5本身在这个维度上的表现已经比较好,继续提升的空间和难度都相对较小,因此在大多数训练时间里,HPSv2对应的协调权重低于均匀分配的基准值(0.2)。而GenEval是最"难"的一个,要求模型能准确处理物体数量、颜色属性、空间位置关系等高度结构化的内容,因此它的协调权重在训练中会经常升到0.3左右,反映出协调机制在主动向困难任务倾斜资源。
此外,实验还发现,在训练后期切换为固定均匀权重(每个维度0.2)进行短暂收尾,能进一步提升综合性能。研究团队的解释是:动态权重阶段帮助模型把能力扩展到困难维度,而最后的均匀权重阶段则让五个维度的成果得到统一巩固,达到最佳综合平衡。
---
**七、MARBLE在分布式多卡训练中如何工作**
在实际工程实现中,研究团队面临一个额外挑战:现代大模型训练通常要跨多张GPU同时运行(本文实验用了16张H200 GPU)。在分布式数据并行(DDP)训练中,每张卡处理不同的数据,各卡的梯度通常在反向传播结束时自动同步取平均。
但MARBLE需要在各卡之间同步之前就提取每个奖励维度的独立梯度,才能做协调计算。如果按照DDP默认流程,每次反向传播后梯度就被混合了,独立梯度就无法提取。
研究团队的解决方案是:在每个奖励维度的反向传播时,先用"no_sync()"把DDP的自动同步关闭,手动提取该维度的梯度后再清零,依次对五个维度分别做这个操作;然后统一对五套梯度向量做AllReduce同步(这是GPU集群中"取平均"的标准操作),使得所有卡上的五套梯度一致;之后在每张卡上独立求解协调权重(由于输入一致,结果也会一致);最后把协调后的梯度方向写回模型参数的梯度字段,正常执行优化器步骤。这套流程保证了分布式训练与单卡训练在梯度层面的等价性。
---
说到底,MARBLE解决的是一个非常朴素的问题:评判一张图好不好,本来就不应该只看一件事,而现有的训练方法却强迫模型只能从一个模糊的混合信号中学习。MARBLE的做法是把"应该往哪个方向改进"这件事,从混合在一起的分数层面,提升到了各自独立的改进方向层面,然后在方向层面上找共识——这个思路简单却有效,而且通过摊销和平滑机制,把额外的计算代价压缩到了几乎可以忽略不计的程度。
对于普通用户来说,这项研究意味着未来的AI图像生成工具将更有可能同时做到"画面好看"、"文字准确"、"内容符合描述"——而不是某一方面突出但其他方面一塌糊涂。对于研究者和工程师来说,MARBLE提供了一个可以直接在现有训练框架上扩展的工具,不需要手工调权重,不需要精心设计训练课程,几乎无额外计算代价。
当然,这项研究也坦承了自己的局限:目前只在图像生成领域做了验证,奖励维度也只有五个。更大的奖励集合(比如十几个甚至几十个维度)以及视频生成、世界模型等更复杂的生成任务,是研究团队接下来希望探索的方向。
有兴趣进一步了解的读者,可以通过arXiv编号2605.06507找到原论文,该论文同时提供了代码仓库,可以直接在DiffusionNFT代码库基础上复现实验。
---
Q&A
Q1:MARBLE是什么,和普通的多奖励训练方法有什么不同?
A:MARBLE是一种专门用于扩散模型强化学习微调的多奖励均衡方法。与普通方法直接把多个奖励分数加权求和不同,MARBLE对每个奖励维度独立计算训练方向,再通过求解一个优化问题找到所有维度都能接受的折中更新方向,从而避免某个维度的信号被其他维度稀释或抵消。
Q2:MARBLE训练速度会不会比普通方法慢很多?
A:通过摊销梯度协调方案,MARBLE的实际训练速度达到了加权求和基线方法的0.97倍,几乎没有速度损失。显存占用从59G增加到67G,增加约14%。不使用摊销的完整版才会降至0.56倍,因此摊销方案是MARBLE在实际应用中的默认选择。
Q3:MARBLE的协调权重是怎么决定的,会不会偏向某个奖励维度?
A:协调权重通过每隔N步运行一次完整的多路梯度计算来刷新,采用二次规划求解使五个方向的合力冲突最小。此外引入了指数滑动平均平滑机制(默认衰减系数ρ=0.7),防止某一批次数据的偶然偏差导致某个维度权重瞬间归零。权重会自然向优化难度较高的任务倾斜,而非简单均匀分配。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。