
这项由德克萨斯大学奥斯汀分校与加州大学伯克利分校联合开展的研究,发表于2026年国际学习表征会议(ICLR 2026),论文编号为arXiv:2604.14265,有兴趣深入了解的读者可以通过该编号查询完整论文。
强化学习这门学科,说白了就是教会机器"趋利避害"——通过不断试错,让AI学会在复杂环境中做出更好的决策。无论是让机器人学会走路,还是让AlphaGo学会下棋,抑或是让ChatGPT学会更好地回答问题,背后都有强化学习的影子。然而,这门技术在实际应用中长期面临一个棘手的困境:AI如果太"贪心"地追求高分,就容易"走火入魔"——它会找到一些在训练数据里得分很高、但在现实中根本行不通的"歪门邪道"。
研究团队把这个问题称为"价值过度优化"(value over-optimization)。打个比方,假设你要训练一个AI写总结,奖励标准是"读者满意度"。如果AI发现只要把每篇文章总结成"这篇文章写得很好,值得一读",就能骗过评估系统拿到高分,它就真的会这么干——完全偏离了"写出有用总结"的初衷。为了防止这种情况,研究人员需要给AI加上一条"安全绳":不能让它的行为偏离初始参考分布(比如人类示范数据)太远。
这条"安全绳"的技术名称叫"行为正则化强化学习"(behavior-regularized RL)。在离线强化学习(offline RL,即AI只能从固定历史数据中学习,不能与环境实时交互)中,这条绳子就是历史数据集;在用人类反馈训练大语言模型(RLHF,Reinforcement Learning from Human Feedback)的场景里,这条绳子就是预训练好的基础模型。
然而,现有的"安全绳"方案都有各自的短板。研究团队系统地梳理了两类主流方法的问题,并在此基础上提出了一个全新的解法——值梯度流(Value Gradient Flow,简称VGF)。
一、现有方法的两难困境:要么不稳,要么太保守
在深入了解VGF之前,有必要先弄清楚它究竟在解决什么问题。现有的行为正则化方法大体分为两类,每类都有让研究者头疼的缺陷。
第一类方法叫"带惩罚的策略梯度"(reparameterized policy gradient with penalty)。这种方法的思路很直接:在训练目标里加入一个惩罚项,如果AI的行为偏离参考分布太远,就扣分。这有点像给孩子设定规矩:"你可以追求高分,但是每次你做出奇奇怪怪的行为,就要被罚站。"这个惩罚的强度由一个叫做"系数β"的数字控制。
问题在于,这个系数非常难调。调得太大,AI变得极其保守,不敢尝试新事物;调得太小,AI又会"脱缰"。更麻烦的是,这个系数同时影响着"如何评估价值"和"如何改进策略"两个环节,但这两个环节其实需要不同程度的约束,一刀切的做法必然顾此失彼。
当这类方法遇到扩散模型(diffusion model)或流匹配模型(flow matching model)这样的现代大型生成模型时,问题更加棘手。这些模型生成一个动作需要经过好几十步迭代过程,要计算策略梯度就必须"穿越"这几十步的反向传播,计算量极其庞大,数值也极不稳定,就像试图沿着一根极细的线倒着走几十步而不摔跤一样困难。虽然可以把多步模型蒸馏成单步模型来解决这个问题,但这样做会牺牲模型的表达能力。
第二类方法叫"拒绝采样"(reject sampling),本质上就是加权行为克隆(weighted behavior cloning)。其逻辑是:从参考分布(比如历史数据)里大量采样,然后优先选择那些价值高的样本来学习。最简单的版本就是"最优N选一"(Best-of-N):每次从参考策略里采样N个候选方案,选价值最高的那个执行。
这类方法实现简单、稳定性好,但有一个致命弱点——它永远无法超越参考分布的"能力边界"。回到上面的例子:如果历史数据里所有的总结都写得一般般,那么不管你怎么选,选出来的"最好的一般般"还是一般般。AI被牢牢锁在参考分布的支撑集(support)内,发现不了真正高质量的新策略。用研究团队的话说,这类方法"过于保守"。
于是,研究团队面临一个两难选择:要么用策略梯度方法寻找更好的策略,但代价是训练不稳定且难以扩展;要么用拒绝采样方法保持稳定,但代价是永远跳不出参考分布的圈子。VGF的提出,正是为了走出这个两难困境。
二、VGF的核心思想:把"找最优策略"变成"搬运粒子"
VGF的核心创意,是把强化学习中"寻找最优策略"这个问题,重新用"最优传输"(optimal transport)的语言来描述。
最优传输理论研究的是这样一个问题:给定两堆沙子,分别堆成不同的形状,用最省力的方式把第一堆沙子移动成第二堆沙子的形状,应该怎么移?在VGF的框架里,第一堆沙子就是参考分布(比如历史行为数据),第二堆沙子就是由价值函数诱导的"最优策略分布"(也称玻尔兹曼分布,Boltzmann distribution),移动沙子的过程就是策略优化。
这个"最优策略分布"是怎么来的?研究团队借用了最大熵强化学习(MaxEnt RL)的思想。在标准强化学习里,最优策略就是"哪个动作价值最高就选哪个",是一个完全确定性的选择。加入熵最大化的目标之后,最优策略变成了一种"软选择"——价值高的动作被选中的概率高,但价值低的动作也有一定概率被选,整体分布是以价值函数为指数的概率分布,公式上写作π\*(a|s) ∝ exp(R(s,a)/α),其中α是温度参数,控制分布的"软硬程度"。当α趋近于0时,这个分布退化为确定性的贪心选择;当α很大时,分布变得均匀。
有了这两个分布,VGF的目标就清晰了:用最优传输的方式,把参考分布"运输"到这个玻尔兹曼最优策略分布。具体怎么做呢?研究团队采用了约旦-金德利尔-奥托(Jordan-Kinderlehrer-Otto,JKO)离散梯度流方案——把连续的"搬运沙子"过程离散化为一步一步的迭代更新。
但直接求解这个优化问题仍然非常困难,因为分布是无穷维的对象。研究团队进一步用"粒子"来近似分布:从参考分布里采样N个粒子(可以理解为N个候选动作),然后用斯坦变分梯度下降(Stein Variational Gradient Descent,SVGD)算法来迭代更新这些粒子的位置。
每一步更新,每个粒子都受到两种力的作用:一种是"引力",由价值函数的梯度提供,把粒子推向价值更高的区域;另一种是"斥力",由核函数(kernel function)的梯度提供,防止所有粒子堆在一起,保持粒子群的多样性。具体的更新公式是:新粒子位置 = 旧粒子位置 + 步长 × (核加权的价值梯度 + 核梯度的斥力项)。
在实际使用中,研究团队把MaxEnt的熵项去掉,回归到原始的价值最大化目标。这相当于令温度参数α趋向0,并把α吸收进步长参数里。此时更新公式简化为:新粒子位置 = 旧粒子位置 + 步长 × 核加权的价值梯度。这就像一群小船在价值函数构成的海浪里漂流,每艘船都被海浪推向更高的山峰,同时又通过相互排斥保持间距,最终形成一个既集中在高价值区域又保持多样性的分布。
三、"运输预算"的魔法:隐式正则化,一石二鸟
VGF最精妙的地方,在于它是如何处理"安全绳"问题的。它根本没有像传统方法那样显式地加入KL散度惩罚项或L2距离约束,而是通过控制"运输预算"来隐式地实现行为正则化。
所谓"运输预算",由三个要素决定:流步数L(即粒子被推动了多少步)、步长ε(每步移动多远)、以及粒子数N。这三个参数共同决定了粒子群从参考分布出发后,最终能跑多远。运输预算越小,最终策略离参考分布越近,正则化越强;运输预算越大,策略偏离参考分布越远,探索空间越大。
研究团队通过严格的数学证明(定理1)给出了这一直觉的定量保证:在价值函数R是c-Lipschitz(一种关于函数平滑性的技术条件,简单理解就是价值函数不会剧烈抖动)的条件下,VGF生成的隐式策略与参考策略之间的MMD距离(最大均值差异,一种衡量两个分布相似度的指标)不超过一个与流步数L、步长ε、以及价值函数梯度大小c成正比的上界。这个上界保证了VGF不会无限制地偏离参考分布。
更重要的是,研究团队还通过定理2证明了VGF生成的隐式策略的支撑集不包含在参考策略的支撑集里——换句话说,VGF能够发现参考分布范围之外的新行为。这一点正是拒绝采样方法做不到的地方。VGF既有"安全绳"的约束(通过控制运输预算),又有探索新领域的能力,两全其美。
这种设计还带来了一个令人眼前一亮的特性:VGF支持训练时和推理时使用不同的运输预算。训练时用较小的预算保持保守,推理时可以增大预算、用更多的梯度流步骤来压榨更高性能——这就是所谓的"测试时自适应缩放"(adaptive test-time scaling)。当把推理时的流步数设为0时,VGF退化为最优N选一的拒绝采样;当逐步增大流步数时,VGF可以超越参考分布找到更好的策略。整个过程无需重新训练,仅通过调整推理时的参数就能实现性能的灵活调控。
四、VGF如何处理语言模型:在词语之间的"潜空间"里漂流
在大语言模型的强化学习微调(RLHF)场景下,VGF面临一个特殊挑战:语言模型的输出是离散的词元(token),而VGF的粒子更新依赖于连续的梯度运算,两者天然不相容。
研究团队的解决方案是:在连续的代理空间(surrogate space)中执行VGF,只在最后才将连续表示解码回离散词元序列。这个连续代理空间可以是词元嵌入矩阵(token embedding matrix),也可以是扩散语言模型或流语言模型的潜变量空间(latent space)。
具体来说,对于一个完整的回复y,其在代理空间中的表示为u(比如词元嵌入矩阵)。奖励模型对嵌入矩阵是可微的(即可以对输入求梯度),因此可以通过链式法则将奖励对整个回复的梯度反向传播到代理表示上:?u log π*(y|x) = (1/α) × J^T × ?y R(x, y),其中J是解码器相对于代理表示u的雅可比矩阵。简单来说,就是先让奖励模型告诉我们"如何修改回复才能得到更高奖励",再把这个指示翻译回"如何修改词元嵌入",最后对嵌入做一步梯度更新,更新完毕后再解码出新的词元序列。
这种方法有一个显著优势:SFT(监督微调)策略的输出分布非常集中,大部分概率质量集中在少数高质量词元上。VGF利用奖励模型的一阶梯度信息来引导这些候选回复向更高奖励的方向移动,既避免了PPO这类方法的高方差梯度估计问题,又比单纯的最优N选一采样能探索到更广的高质量回复空间。
五、玩具实验:VGF如何在双峰奖励迷宫中脱颖而出
为了直观展示VGF的工作机制,研究团队设计了一个二维连续控制赌博机任务(bandit task),其中真实奖励分布是双峰的(即有两个高奖励区域),而离线数据集是从次优奖励区域生成的(即数据集里的行为都不在真正的高奖励区域)。
在这个实验中,研究团队对比了三种方法。FlowQL(流Q学习)代表带惩罚的策略梯度类方法:它额外训练了一个单步流模型作为策略,并通过调整惩罚系数β来平衡价值最大化和参考策略约束。实验结果显示,FlowQL被有误差的学习奖励模型误导,生成的动作落在了次优区域。FlowBC最优N选一代表拒绝采样类方法:从BC(行为克隆)流模型里采样20个动作,选奖励最高的那个。虽然它比原始数据集的最优动作略有提升,但仍然被死死锁在次优行为分布的支撑集内,无法探索到真正的高奖励区域。VGF则使用3个粒子、5步流、温度参数α=0.1,成功地将粒子从次优区域"漂流"到了真实高奖励区域附近,即便学习的奖励模型存在误差,VGF也展现出了更强的鲁棒性。
这个小实验清晰地展示了三类方法的本质区别:FlowQL找到了学习奖励模型认为最好的地方,但那里其实并不好;FlowBC找到了真实数据分布范围内最好的地方,但那里也不够好;VGF找到了真实高奖励区域,超越了数据分布的束缚。
六、算法实现的工程细节:如何让VGF在实际中运转
VGF的算法实现分为训练和评估两个阶段,两者共用同一个VGF函数,只是流步数不同(训练时用Ltrain,评估时用Ltest)。
在训练阶段,研究团队做了几个工程上的优化。首先,训练一个行为克隆(BC)策略来近似参考分布,用于生成初始粒子。其次,Q函数通过时序差分(TD)学习进行训练,目标Q值的计算中,对多个粒子的Q值取平均(而非简单取最大),这样能提供更稳健的价值估计。此外,为了加速训练和推理,研究团队额外训练了一个辅助网络f(s,a)来直接预测Q函数对动作的梯度?_a Q(s,a),而不是每次都通过自动微分实时计算,大大提高了效率。
在评估阶段,从当前状态出发,用VGF生成Ltest步之后的N个粒子,然后根据价值/奖励函数从这N个粒子中选出最好的那个来执行(即最优N选一)。粒子数N统一设为5,这个数量在性能和计算开销之间取得了良好的平衡。
需要注意的是,VGF使用的是不带MaxEnt的简化版更新公式,也就是纯粹的核加权价值梯度,没有斥力项。研究团队在实验中发现这一简化版本已经足够好用,无需保留熵项。
七、离线强化学习的战场:D4RL与OGBench的较量
研究团队在两个标准离线强化学习基准上评估了VGF的性能,对手阵容相当强大。
在D4RL基准上,VGF与六种方法展开竞争,覆盖了高斯策略类(TD3+BC、IQL、IVR)、扩散或流策略类(Diffusion-QL、SfBC、FQL)共三类基线方法,测试任务包括MuJoCo连续控制任务(半猎豹、跳跃者、步行者)和AntMaze导航任务(迷宫规模从小到大)。
实验结果颇为亮眼。VGF在大多数任务上取得了最优或并列最优的成绩,尤其在AntMaze这类需要长距离导航、稀疏奖励的挑战性任务上,VGF的领先优势非常显著。以antmaze-umaze为例,VGF得分98.0,远超同类最优方法的93.4;antmaze-medium-play任务上,VGF得分89.4,高于次优的81.3;antmaze-large-diverse任务上,VGF以83.8分超越FQL的83.0。FQL(流Q学习)在某些MuJoCo任务上性能甚至还不如简单的高斯策略方法,而VGF则保持了全面稳健的表现。
在OGBench基准上,任务难度进一步升级,包括超大尺寸的AntMaze(antmaze-giant,迷宫面积远大于D4RL版本)、21自由度人形机器人导航(humanoidmaze)、蚂蚁足球竞技(antsoccer)、方块搬运与堆叠(cube-single/double)、场景操控(scene)以及解谜(puzzle-3×3和4×4)等九大类任务。
VGF在这里的表现更加突出,尤其在那些传统方法表现很差的高难度任务上。humanoidmaze-medium任务上,VGF平均成功率72%,远超次优FQL的58%。humanoidmaze-large任务上,VGF达到15%,而FQL仅4%。cube-double任务上,VGF达到70%,FQL仅29%。puzzle-3×3任务上,VGF高达75%,FQL仅30%。puzzle-4×4任务上,VGF达到45%,FQL仅17%。这些数字说明,在需要多步推理、组合泛化能力的任务上,VGF相比依赖显式策略参数化的方法有显著优势。
八、从离线到在线:VGF的"续航"能力
除了纯离线设置,研究团队还评估了VGF在"离线到在线"微调(offline-to-online)场景下的表现:先用离线数据训练100万步,再让智能体与真实环境交互进行在线微调100万步。
实验结果显示,VGF提供了比FQL更强的离线初始化——离线阶段结束时,VGF的成功率在大多数任务上已经显著优于FQL。进入在线微调阶段后,VGF的学习曲线爬升速度也更快,最终收敛到更高的性能水平。这一结果表明,VGF在离线阶段学到了更高质量的价值表示和更好的探索起点,使得在线适应更加高效。
九、大语言模型对齐:VGF让Pythia在摘要和对话任务上全面领先
在RLHF任务上,研究团队使用Pythia-2.8B作为基础模型,在两个数据集上评估了VGF的表现:TL;DR文本摘要数据集(包含11.6万条人工撰写的指令和9.3万条人工标注的偏好对)以及Anthropic Helpful & Harmless对话数据集(包含11.2万条训练偏好对)。
评估指标采用GPT-4作为裁判,计算VGF输出相对于参考模型(SFT基线)和人类标注回复(chosen)的胜率(WR%)。对比方法包括Pythia-SFT基线(48.5%/46.2%)、PPO(57.3%/45.5%)、DPO(61.2%/51.5%)以及Best-of-N(58.3%/49.0%)。VGF在两个数据集上均取得了最高胜率:TL;DR上68.1%,Anthropic-HH上59.0%,大幅领先所有基线方法。这一结果验证了VGF在离散生成任务上的有效性,以及其作为推理时控制机制(类似Best-of-N但能超越参考支撑集)的价值。
十、消融实验:超参数如何影响VGF的表现
研究团队系统地分析了VGF三个关键超参数的影响。
训练流步数Ltrain是最重要的超参数。它直接控制了策略与参考分布的偏离程度,较大的L意味着更大的偏离。实验表明,最优的Ltrain因任务而异:MuJoCo任务上通常Ltrain=1到3已经足够,而AntMaze这类需要更大探索的任务则需要Ltrain=5甚至更大。对于OGBench的puzzle任务,Ltrain=5效果最佳。这意味着VGF需要针对具体任务做适当的超参数搜索,但搜索空间相对有限。
测试流步数Ltest则决定了推理时的探索力度。实验表明,当价值函数泛化能力强(即能准确预测数据分布外区域的价值)且离线数据质量较低时,增大Ltest能显著提升性能。例如,在antmaze-medium-diverse任务上,将Ltest从0增加到2,成功率从约70%提升到约93%。在puzzle-4×4任务上,Ltest=1时成功率约35%,比Ltest=0(纯拒绝采样)的约15%高出一倍多。然而,当价值函数有较大外推误差时,过大的Ltest反而会因被误导而性能下降,将Ltest设为0能自动回退到安全的拒绝采样模式。
粒子数N的影响相对次要。研究团队发现N=5在所有实验中都表现良好,增大N带来的性能提升边际递减,但计算开销线性增加,因此N=5是一个务实的选择。
---
Q&A
Q1:值梯度流(VGF)和传统的强化学习方法(如PPO)有什么本质区别?
A:传统的PPO等方法需要显式地参数化一个策略网络,并通过梯度更新来改变策略参数,这在大型生成模型上容易出现训练不稳定的问题。VGF则完全不需要参数化策略:它直接从参考分布(如历史数据或预训练模型)采样出若干粒子(候选动作),然后用价值函数的梯度把这些粒子推向更高价值的区域,最终的"策略"就是这些粒子组成的隐式分布。这种方式避免了穿越多步采样过程的反向传播,也不依赖于策略网络本身的可微性,天然适合扩散模型、流匹配模型等现代大型生成模型。
Q2:VGF在离线强化学习中为什么能超越最优N选一(Best-of-N)采样?
A:最优N选一采样只能在参考分布的覆盖范围内选择,就像只能在已有的菜单里点菜——如果菜单上所有菜都是普通水平,无论你多挑剔,最终吃到的也不过是普通水平里的最好的一道。VGF则能把候选动作沿着价值梯度方向推移,主动探索参考分布支撑集之外的更高价值区域,相当于厨师根据你的反馈即兴创作一道新菜。研究团队通过严格的数学定理证明,VGF生成的策略支撑集不包含在参考策略支撑集内,这从理论上保证了VGF突破参考分布约束的能力。
Q3:VGF的"测试时自适应缩放"具体是如何工作的,有什么实际意义?
A:VGF允许在推理时使用与训练时不同的流步数Ltest,而不需要重新训练模型。当把Ltest设为0时,VGF退化为普通的拒绝采样;随着Ltest增大,粒子在价值梯度的引导下移动更多步,能探索到更优的策略。这意味着在拥有更多计算资源时(比如高价值任务或需要更高精度的场景),可以直接增大Ltest来提升性能,无需重新训练,灵活性极高。这与大语言模型领域的"测试时计算缩放"(test-time compute scaling)理念一脉相承,为未来在推理阶段动态分配计算资源提供了新的可能性。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。