
这项由加州大学伯克利分校与Physical Intelligence(PI)联合开展的研究于2026年6月发布,论文编号为arXiv:2606.11087,题为《Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning》(强化学习中流策略的测试时梯度引导)。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。
先从一个日常场景说起。你学了好几年厨艺,积累了大量的烹饪经验,现在已经能做出像模像样的料理了。但有一天,你来到一个从未见过的比赛现场,发现台上摆着一套全新的食材和评分标准。此时有两条路:一条是回家把厨艺从头练过,另一条是在比赛现场,根据评委实时给出的打分反馈,当场调整你的操作手法。这篇论文的核心思路,正是第二条路——让AI在"上场比赛"的时候,就凭借实时反馈来改善自己的表现,而不是回去重新学习。
一、为什么AI训练这件事这么难搞
要理解这项研究的意义,得先知道现在的机器人和AI学习动作有多费劲。
目前,让机器人学会复杂的操控动作,主流方式是强化学习(RL)。你可以把强化学习理解成:AI反复试错,每次得到一个"分数",靠着这个分数来判断自己做得好不好,然后慢慢改进。这个过程就像一个孩子学骑自行车,摔了无数跤之后终于学会了平衡。
然而,这个方法在实际操作中非常不稳定。问题出在一个叫"演员-评论家"(actor-critic)的机制上。你可以把它理解成这样:AI里面有两个角色,一个"演员"负责决定做什么动作,一个"评论家"负责打分。麻烦在于,评论家的打分标准本身也在不断变化,演员要追着一个一直在移动的靶子来练习,这就导致整个训练过程极其不稳定,对参数设置非常敏感,稍有不慎就会崩溃。
近年来,研究者们开始用一种叫"流匹配"(flow matching)或"扩散模型"(diffusion model)的生成式方法来表达机器人的动作策略。这类方法能表达非常复杂、多样化的动作分布,而且在单纯学习模仿人类动作方面表现优秀、扩展性好。但一旦要把它们塞进强化学习流程里,麻烦就来了。原因在于,这类方法生成一个动作,需要经过好多步"去噪"(denoising)过程——类似于照片从一张模糊的噪点图一步步变清晰的过程。要在这个过程里插入强化学习的梯度优化,要么需要从头到尾反向传播(backpropagation through time,BPTT),计算量巨大且极不稳定,要么需要设计各种复杂的特殊目标函数,牺牲了简洁性。
研究团队因此提出了一个问题:既然"训练阶段让AI最大化奖励"这条路走得这么难,能不能换一条路——让AI在训练阶段只安安静静地学习模仿数据(这一步是稳定、成熟的),然后在"上场使用"(测试阶段)的时候,再借助一个打分系统来实时调整动作?这正是QGF(Q-Guided Flow,Q引导流)方法的出发点。
二、QGF的核心思路:把优化这件事留到最后一刻
如果说传统强化学习是"在厨艺学校里就把比赛策略练到极致",那QGF的策略是"先老老实实学基本厨艺,上台比赛时再根据评委的实时打分调整手法"。
具体来说,QGF分两个独立阶段:第一阶段,用标准的行为克隆(behavioral cloning,BC)来训练一个参考策略。行为克隆就是模仿——给AI看大量人类操作的数据,让它学着重现这些动作,整个过程稳定可靠,就像学生照着课本认认真真地做笔记。第二阶段,用一个叫IQL(隐式Q学习,Implicit Q-Learning)的方法单独训练一个评分函数,这个函数能给任意一个"状态+动作"组合打出一个分数,告诉你"这个动作在当前情况下值多少分"。
这两个阶段完全解耦——你不需要让评分函数和策略互相纠缠着学习,评分函数只是盯着离线数据里的奖励信号学习打分,不需要知道策略在做什么。
到了测试阶段(也就是真正让机器人执行任务的时候),QGF就开始发挥作用了。机器人从一堆随机噪声出发,按照参考策略的去噪流程一步步生成动作——就像一张模糊的照片逐渐变清晰。但在每一步变清晰的过程中,QGF都会问:如果按照当前轨迹走到底,最终动作的分数大概是多少?分数高的方向在哪里?然后,它把这个"往高分方向走"的梯度信号加到去噪过程里,让最终生成的动作更有可能是高价值的动作。整个过程不改变任何模型参数,只是在推理的时候改变了动作生成的方向。
三、为什么不直接用最简单的梯度方案——那些方案哪里出问题了
既然思路是"在去噪过程中引入评分梯度",为什么不直接用最朴素的方法呢?这里就有两个直觉上看似合理但实际上有问题的方案。
第一个方案:直接对去噪中间步骤的"噪声动作"求梯度,也就是?Q(s, a_t)。这叫OOD梯度(out-of-distribution gradient,分布外梯度)。问题在于,评分函数Q只见过干净的、完全去噪后的动作,从没见过中间那些半成品噪声动作。你让一个从没见过半熟鸡蛋的厨师评判半熟鸡蛋的质量,他的评分根本没有参考价值,甚至会把你带偏。论文用一个漂亮的一维例子展示了这一点:无论你把引导权重调大还是调小,OOD梯度引导的流始终无法收敛到最优动作,总是偏向一个次优位置。不仅如此,论文还测量了这个梯度在受到轻微扰动时的稳定性——用不同扰动下梯度方向的余弦相似度来衡量,OOD梯度的稳定性比其他方案都差,说明这个信号"很不靠谱"。
第二个方案:对完整去噪链反向传播,也就是BPTT梯度。这个方案在理论上更正确——毕竟你是对最终的干净动作求梯度,只是需要通过整条去噪链把这个梯度传回去。但代价极大:计算量随去噪步数成倍增加,而且这个梯度非常脆弱——同样用余弦相似度测量,BPTT梯度在受到轻微扰动时方向变化非常剧烈,说明它对初始噪声极度敏感。在一维例子中,更高的引导权重甚至让BPTT梯度引导的去噪过程完全失去控制、发生振荡。这就像你试图把一根超长的绳子精确地甩到目标位置,绳子越长,末端的细微晃动就会被放大得越厉害。
那么,有没有一种方案,既不用对噪声动作求梯度(避免OOD问题),又不用完整反向传播(避免高计算量和高方差)?这就是QGF提出的核心技巧。
四、QGF的秘密武器:一步大跳,近似抵达终点
QGF的关键操作是一个非常简洁的近似:对于去噪过程中任意一步的噪声动作a_t,不需要把整条去噪链都走完,只需要沿着当前时刻的速度场(velocity field)v_θ方向走一大步,直接"跳"到一个近似的干净动作a_1:
a_1 = a_t + v_θ(s, a_t, t) × (1 - t)
这就像你在黑暗中走迷宫,不需要把整条路都摸索完,只需要顺着手电筒当前照亮的方向一直走,看看大概会走到哪里。这个"一步大跳"不是精确的答案,但通常足够接近。
然后,对这个近似的干净动作a_1求评分梯度?Q(s, a_1),这个梯度是在干净动作空间里的,评分函数见过这个区域,所以梯度有意义、有参考价值。接下来,把这个梯度加到去噪过程的速度场里,引导这一步往更高价值的方向走:
a_{t+δ} = a_t + δ × (v_θ(s, a_t, t) + (1/β) × ?Q(s, a_1))
其中β控制引导的强弱:β越小,对评分的追求越强烈,越可能偏离原始行为克隆策略;β越大,则更保守地贴近原始策略。
研究团队还考虑了一个更精确的版本,即在求梯度时还要乘以一个雅可比矩阵(Jacobian),把"a_1关于a_t的导数"也纳入计算。但出人意料的是,实验发现直接把这个雅可比矩阵近似为单位矩阵(也就是不用它)效果反而更好。原因在于,雅可比矩阵需要对速度场v_θ进行微分,在去噪早期这个近似本身误差就很大,导致雅可比矩阵计算出来反而引入了更多噪声,让梯度更不稳定。去掉雅可比矩阵之后,梯度估计更干净、更稳定,在优化Q值方面也更有效。
用余弦相似度衡量不同梯度估计在轻微扰动下的稳定性时,QGF的梯度稳定性最高,远好于BPTT和OOD梯度,与完整去噪链方案(QGF-chain)相比也更稳定。这种高稳定性直接带来了更好的Q值优化效果——让最终动作的评分尽可能高,同时还不会像OOD梯度那样通过生成离谱的越界动作来"欺骗"评分函数。
五、与其他"测试时"方案的对比:不只是采样更多样本
有读者可能会问:既然目标是在测试时选出更好的动作,为什么不直接多采样几个动作,然后选分数最高的那个?这就是所谓的Best-of-N(BFN,最优N选一)方法。
BFN确实有效,但代价惊人。论文测量了不同方法每生成一个动作的计算量(以GFLOPs为单位):QGF只需要0.0013 GFLOPs,而BFN采样4个样本需要0.037 GFLOPs,采样16个样本需要0.1464 GFLOPs,分别是QGF的28倍和113倍。在高维动作空间里,每次采样都要走完整条去噪链,成本极高。更让人意外的是,即便BFN(N=4)用了比QGF多28倍的计算量,它的成功率还不如QGF。这说明QGF是一个更高效的"动作优化器",它通过梯度引导在生成过程中主动向好的方向靠拢,而不是靠运气多撒几次网。
当然,如果你有非常充裕的计算资源,BFN(N=16)的成功率确实能追上QGF。而研究团队还提出了QGF+BFN的组合:先用QGF生成N个候选动作,再从中选最高分的。这样只需N=4就能匹配BFN(N=16)的效果,计算量大幅减少。
六、在真实基准测试中的表现:与训练阶段优化的方法同台竞技
为了检验QGF的实际效果,研究团队在一个叫OGBench的离线强化学习基准测试集上进行了大量实验。这个基准包含多种机器人操控任务,比如把多个方块按顺序堆叠(cube-triple、cube-quadruple、cube-octuple),以及把碎片拼成拼图(puzzle-4x4、puzzle-4x5、puzzle-4x6),以及在场景中移动物体(scene)。任务难度从简单到极难不等,数据集规模从3百万到1000亿条不等。
在单任务离线RL的实验中,QGF与多个训练时优化策略的方法(即那些在训练阶段就让策略去最大化Q值的方法)进行了比较。这些训练时方法包括FQL(流Q学习,需要训练一个蒸馏的单步策略)、EDP(使用与QGF相似的一阶欧拉近似,但在训练时优化策略)、QAM(用伴随匹配方法替代BPTT)、DAC(扩散演员-评论家,在训练时引入OOD梯度)、QSM+BC(Q分数匹配加行为克隆)。
结果显示,QGF不仅完胜所有其他测试时方法,还与最强的训练时方法EDP持平,甚至在若干任务上略有超越。这是一个令人振奋的结果,因为QGF的策略网络(演员)完全没有经过任何奖励优化,只是老老实实地做行为克隆,优化完全在测试阶段完成。训练时方法通常需要仔细调整一个"奖励最大化与行为约束之间的平衡系数",而QGF不需要在训练时调这个系数,只需要在测试时调整引导权重β,而且这个调整不需要重新训练模型。
在更难的目标条件RL(goal-conditioned RL)实验中,研究团队把QGF推向更具挑战性的环境,使用了1000亿条数据的超大数据集。在最简单的任务(puzzle-4x5, 3M数据)上,QGF略微落后于QFQL(使用OOD梯度的方法),但随着任务难度升高,QGF的优势越来越明显。在最难的cube-octuple任务上,QGF大幅领先于其他所有方法。这表明,在任务越来越难、需要越来越精准的动作优化时,QGF低方差梯度估计的优势愈发凸显。
七、随着模型变大,QGF反而越来越强
研究中一个特别有意思的发现与"规模扩展"有关。现在整个AI领域都在追求"越大越强"——更大的模型、更多的参数,往往意味着更好的性能。但对于训练时优化策略的方法来说,模型越大,训练时的不稳定性往往也越大,因为策略在追着一个不断变化的评分函数跑,模型容量越大,跑偏的风险也越大。
研究团队专门测试了QGF和QAM在三种不同规模(82.5万、320万、1270万参数)下的表现。从82.5万参数扩展到320万参数时,QAM的成功率几乎没有提升,而QGF的成功率大幅提升了近4倍。继续扩展到1270万参数时,两者都出现了一定程度的过拟合,但QGF受到的影响明显小于QAM,QAM甚至退化到完全无法完成任务。
这个结果背后的逻辑很清晰:QGF的策略网络只需要学好行为克隆,这是一个稳定的监督学习任务,随着模型变大,表示能力提升,性能自然也提升;而训练时方法的策略需要同时应对变化中的评分函数,模型越大,这种不稳定的相互作用就越难控制。
八、QGF能配合更好的评分函数工作吗
前面所有实验都用的是IQL训练出来的评分函数,这是一种纯粹的"离样本内"学习方法,好处是完全不需要从策略中采样动作,与策略训练完全解耦。但有些评分函数训练方法(比如Q bootstrapping,即自举式Q学习)在经过精心调参后能得到更准确的分值。
研究团队用QAM策略训练出来的评分函数(QAM Q)来替换IQL Q,测试QGF是否能从更好的评分函数中受益。结果发现,使用QAM Q的QGF不仅远好于使用IQL Q的QGF,还超过了使用相同QAM Q的QAM策略本身。换句话说,QGF作为一个策略提取方法,能充分利用更好的评分函数,甚至比同一个评分函数驱动的训练时优化方法还要强。这说明QGF是一个极为高效的"策略提取器",给它更好的评分函数,它就能生成更优质的动作。
九、那些看似是妥协的近似,为什么反而比精确方案更好
研究中有一个反直觉的现象值得单独说明:QGF做了两个看起来粗糙的近似——一是用一阶欧拉步而非完整去噪链来估算干净动作,二是把雅可比矩阵近似为单位矩阵。按照直觉,更精确的计算应该带来更好的结果,但实验结果恰好相反。
研究团队的解释是"模式选择"(mode selection)能力。流匹配模型学到的是整个数据集的分布,其中有多种可能的动作模式——比如用左手还是右手抓物体,先移动A还是先移动B等等。如果完整地走完去噪链,生成的动作受到整个数据分布的约束,必须覆盖所有这些模式;而一阶欧拉步只是沿着当前速度场方向走一步,给了动作更大的自由度,让Q值梯度能够把动作"拉"向某个特定的高价值模式,而不被整个数据分布的"引力"拖回中心。这就好比:完整去噪链像是在水中游泳,阻力很大,水会把你往中间拉;一阶近似像是在较浅的水中涉水,能更自由地朝评分梯度的方向移动。
类似地,去掉雅可比矩阵减少了梯度的噪声,使引导信号更干净,而加入雅可比矩阵则引入了因微分速度场产生的额外噪声,反而把梯度弄乱了。
研究团队还探索了各种处理雅可比矩阵的变体:用平滑蒙特卡洛平均(QGF-Jacobian Smooth)、用SVD正交化(QGF-Jacobian Ortho)、用正则化(QGF Regularized)等。令人惊讶的是,正交化和正则化版本的表现接近于完全不用雅可比矩阵的QGF,而直接使用原始雅可比矩阵则表现最差。这从另一个角度说明:雅可比矩阵的"方向信息"(旋转部分)是有用的,但"幅度信息"(尺度缩放部分)反而有害,丢掉幅度信息后性能反而恢复了。
十、引导权重的灵敏度:太轻太重都不行
就像厨师在菜里加盐,少了没味道,多了就毁了整道菜,QGF里的引导权重β也存在一个甜蜜区间。研究团队对引导权重做了系统的敏感性分析,发现在大多数环境里,提高引导权重能显著改善成功率,但超过某个阈值之后,成功率会开始下降甚至崩溃——因为太强的引导会把动作推到离线数据支撑之外,落入评分函数从未学习过的区域,评分函数对这些区域的预测完全不可靠,实际动作的质量反而变差。
好消息是,不同任务的最优引导权重可以在测试时调整,不需要重新训练模型,这使得QGF在实际部署中比训练时方法灵活得多。
---
说到底,QGF这项研究给了整个机器人和AI控制领域一个重要的提示:让策略在训练时只做稳定可靠的事情(模仿学习),把"聪明"的优化留到使用时做,这两件事分开来做,反而可能比混在一起做效果更好。这打破了一个长期以来的默认假设——似乎越是在训练时充分优化,AI就越聪明。实际上,测试时的实时优化同样是一条可行且有竞争力的路线,而且这条路上的稳定性和可扩展性更容易把控。
对于普通读者而言,这项研究的影响或许还有些遥远,但它预示着未来的家庭机器人、工厂机械臂或者自动驾驶系统,或许不再需要每隔一段时间就回到"学校"重新接受大规模训练才能应对新情况,而是能在运行中根据实时反馈自我调整,像一个老到的厨师一样随机应变。
当然,研究团队也坦诚地指出了一些局限:如果评分函数本身是一个很大的模型,对它求梯度的计算成本也会相应增加,需要进一步优化。另外,如果参考策略(行为克隆策略)训练得不够好、对数据分布的覆盖不充分,那么测试时的梯度引导也无从发挥,毕竟巧妇难为无米之炊。这些都是未来值得继续探索的方向。
有兴趣进一步了解技术细节的读者,可以通过arXiv编号2606.11087找到完整论文,代码也已开源在github.com/zhouzypaul/qgf供参考。
---
Q&A
Q1:QGF方法在测试时引导动作生成,为什么不直接从多个候选动作里选最好的,而要用梯度?
A:直接从多个候选动作里选最好的就是所谓的Best-of-N(BFN)方法,它确实有效,但代价极大。BFN采样4个动作的计算量是QGF的28倍,采样16个动作则是113倍,而且计算量扩大这么多,效果还不如QGF。原因在于,BFN靠运气多撒几次网,而QGF靠梯度引导主动往高价值方向走,本质上是更聪明的优化策略,在高维动作空间中优势尤为明显。
Q2:QGF的梯度估计为什么不对中间的噪声动作直接求梯度,而要先"跳"到近似的干净动作?
A:评分函数Q在训练时只见过完全去噪后的干净动作,从来没接触过去噪中间步骤产生的噪声动作。如果直接对噪声动作求梯度,就像让一个只见过成品的鉴赏师去评价半成品,他的评价根本没有参考价值,甚至会把你带到错误的方向。QGF先用速度场方向做一步大跳,估算出大致对应的干净动作,再在干净动作上求梯度,保证评分函数是在自己熟悉的区域里工作,梯度信号因此更可靠。
Q3:QGF方法对模型规模增大表现更好,背后原因是什么?
A:训练时优化策略的方法(如QAM),需要策略网络在训练中不断追随一个持续变化的评分函数,模型越大,这种不稳定的相互作用越难控制,容易产生过拟合或崩溃。而QGF的策略网络只做行为克隆,这是一个稳定的监督学习任务,模型越大,表示能力越强,克隆效果越好,测试时梯度引导的效果也随之提升。两者本质区别在于:一个是在不稳定动态中扩大规模,另一个是在稳定任务中扩大规模。
好文章,需要你的鼓励
腾讯混元提出CPPO方法,通过位置权重和累积前缀预算两个机制改进AI强化学习训练,在多个Qwen3模型的数学推理任务上超越现有方法,最大提升达5.56分。
PaperMentor是多伦多大学等机构联合开发的AI论文写作导师,通过12个专业智能体和40余份专家技能文件,在Overleaf中为科研人员提供行内批注式的写作建议。
论文揭示AI安全测试的"审计缺口":模型外表安全但内部可能脆弱,并提出潜在脆弱性分数(LVS)量化内部风险。
这项研究提出ICMIL框架,让AI通过在合成数据上预训练,无需针对新任务重新训练即可完成多示例学习分类,在十二个基准上超越需要调参的监督方法。