微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

加州大学伯克利分校与Physical Intelligence联手，让AI机器人在"思考时"自我优化——无需重新训练，测试阶段就能变聪明

强化学习流匹配测试时优化

加州大学伯克利分校与Physical Intelligence联手，让AI机器人在"思考时"自我优化——无需重新训练，测试阶段就能变聪明

作者：科技行者

2026-06-16 16:49

分享至：

QGF是一种测试阶段强化学习方法，让流策略在推理时用Q函数梯度引导动作生成，无需重新训练，效果媲美甚至超越训练时优化方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-16 16:49 • 科技行者

这项由加州大学伯克利分校与Physical Intelligence（PI）联合开展的研究于2026年6月发布，论文编号为arXiv:2606.11087，题为《Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning》（强化学习中流策略的测试时梯度引导）。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

先从一个日常场景说起。你学了好几年厨艺，积累了大量的烹饪经验，现在已经能做出像模像样的料理了。但有一天，你来到一个从未见过的比赛现场，发现台上摆着一套全新的食材和评分标准。此时有两条路：一条是回家把厨艺从头练过，另一条是在比赛现场，根据评委实时给出的打分反馈，当场调整你的操作手法。这篇论文的核心思路，正是第二条路——让AI在"上场比赛"的时候，就凭借实时反馈来改善自己的表现，而不是回去重新学习。

一、为什么AI训练这件事这么难搞

要理解这项研究的意义，得先知道现在的机器人和AI学习动作有多费劲。

目前，让机器人学会复杂的操控动作，主流方式是强化学习（RL）。你可以把强化学习理解成：AI反复试错，每次得到一个"分数"，靠着这个分数来判断自己做得好不好，然后慢慢改进。这个过程就像一个孩子学骑自行车，摔了无数跤之后终于学会了平衡。

然而，这个方法在实际操作中非常不稳定。问题出在一个叫"演员-评论家"（actor-critic）的机制上。你可以把它理解成这样：AI里面有两个角色，一个"演员"负责决定做什么动作，一个"评论家"负责打分。麻烦在于，评论家的打分标准本身也在不断变化，演员要追着一个一直在移动的靶子来练习，这就导致整个训练过程极其不稳定，对参数设置非常敏感，稍有不慎就会崩溃。

近年来，研究者们开始用一种叫"流匹配"（flow matching）或"扩散模型"（diffusion model）的生成式方法来表达机器人的动作策略。这类方法能表达非常复杂、多样化的动作分布，而且在单纯学习模仿人类动作方面表现优秀、扩展性好。但一旦要把它们塞进强化学习流程里，麻烦就来了。原因在于，这类方法生成一个动作，需要经过好多步"去噪"（denoising）过程——类似于照片从一张模糊的噪点图一步步变清晰的过程。要在这个过程里插入强化学习的梯度优化，要么需要从头到尾反向传播（backpropagation through time，BPTT），计算量巨大且极不稳定，要么需要设计各种复杂的特殊目标函数，牺牲了简洁性。

研究团队因此提出了一个问题：既然"训练阶段让AI最大化奖励"这条路走得这么难，能不能换一条路——让AI在训练阶段只安安静静地学习模仿数据（这一步是稳定、成熟的），然后在"上场使用"（测试阶段）的时候，再借助一个打分系统来实时调整动作？这正是QGF（Q-Guided Flow，Q引导流）方法的出发点。

二、QGF的核心思路：把优化这件事留到最后一刻

如果说传统强化学习是"在厨艺学校里就把比赛策略练到极致"，那QGF的策略是"先老老实实学基本厨艺，上台比赛时再根据评委的实时打分调整手法"。

具体来说，QGF分两个独立阶段：第一阶段，用标准的行为克隆（behavioral cloning，BC）来训练一个参考策略。行为克隆就是模仿——给AI看大量人类操作的数据，让它学着重现这些动作，整个过程稳定可靠，就像学生照着课本认认真真地做笔记。第二阶段，用一个叫IQL（隐式Q学习，Implicit Q-Learning）的方法单独训练一个评分函数，这个函数能给任意一个"状态+动作"组合打出一个分数，告诉你"这个动作在当前情况下值多少分"。

这两个阶段完全解耦——你不需要让评分函数和策略互相纠缠着学习，评分函数只是盯着离线数据里的奖励信号学习打分，不需要知道策略在做什么。

到了测试阶段（也就是真正让机器人执行任务的时候），QGF就开始发挥作用了。机器人从一堆随机噪声出发，按照参考策略的去噪流程一步步生成动作——就像一张模糊的照片逐渐变清晰。但在每一步变清晰的过程中，QGF都会问：如果按照当前轨迹走到底，最终动作的分数大概是多少？分数高的方向在哪里？然后，它把这个"往高分方向走"的梯度信号加到去噪过程里，让最终生成的动作更有可能是高价值的动作。整个过程不改变任何模型参数，只是在推理的时候改变了动作生成的方向。

三、为什么不直接用最简单的梯度方案——那些方案哪里出问题了

既然思路是"在去噪过程中引入评分梯度"，为什么不直接用最朴素的方法呢？这里就有两个直觉上看似合理但实际上有问题的方案。

第一个方案：直接对去噪中间步骤的"噪声动作"求梯度，也就是?Q(s, a_t)。这叫OOD梯度（out-of-distribution gradient，分布外梯度）。问题在于，评分函数Q只见过干净的、完全去噪后的动作，从没见过中间那些半成品噪声动作。你让一个从没见过半熟鸡蛋的厨师评判半熟鸡蛋的质量，他的评分根本没有参考价值，甚至会把你带偏。论文用一个漂亮的一维例子展示了这一点：无论你把引导权重调大还是调小，OOD梯度引导的流始终无法收敛到最优动作，总是偏向一个次优位置。不仅如此，论文还测量了这个梯度在受到轻微扰动时的稳定性——用不同扰动下梯度方向的余弦相似度来衡量，OOD梯度的稳定性比其他方案都差，说明这个信号"很不靠谱"。

第二个方案：对完整去噪链反向传播，也就是BPTT梯度。这个方案在理论上更正确——毕竟你是对最终的干净动作求梯度，只是需要通过整条去噪链把这个梯度传回去。但代价极大：计算量随去噪步数成倍增加，而且这个梯度非常脆弱——同样用余弦相似度测量，BPTT梯度在受到轻微扰动时方向变化非常剧烈，说明它对初始噪声极度敏感。在一维例子中，更高的引导权重甚至让BPTT梯度引导的去噪过程完全失去控制、发生振荡。这就像你试图把一根超长的绳子精确地甩到目标位置，绳子越长，末端的细微晃动就会被放大得越厉害。

那么，有没有一种方案，既不用对噪声动作求梯度（避免OOD问题），又不用完整反向传播（避免高计算量和高方差）？这就是QGF提出的核心技巧。

四、QGF的秘密武器：一步大跳，近似抵达终点

QGF的关键操作是一个非常简洁的近似：对于去噪过程中任意一步的噪声动作a_t，不需要把整条去噪链都走完，只需要沿着当前时刻的速度场（velocity field）v_θ方向走一大步，直接"跳"到一个近似的干净动作a_1：

a_1 = a_t + v_θ(s, a_t, t) × (1 - t)

这就像你在黑暗中走迷宫，不需要把整条路都摸索完，只需要顺着手电筒当前照亮的方向一直走，看看大概会走到哪里。这个"一步大跳"不是精确的答案，但通常足够接近。

然后，对这个近似的干净动作a_1求评分梯度?Q(s, a_1)，这个梯度是在干净动作空间里的，评分函数见过这个区域，所以梯度有意义、有参考价值。接下来，把这个梯度加到去噪过程的速度场里，引导这一步往更高价值的方向走：

a_{t+δ} = a_t + δ × (v_θ(s, a_t, t) + (1/β) × ?Q(s, a_1))

其中β控制引导的强弱：β越小，对评分的追求越强烈，越可能偏离原始行为克隆策略；β越大，则更保守地贴近原始策略。

研究团队还考虑了一个更精确的版本，即在求梯度时还要乘以一个雅可比矩阵（Jacobian），把"a_1关于a_t的导数"也纳入计算。但出人意料的是，实验发现直接把这个雅可比矩阵近似为单位矩阵（也就是不用它）效果反而更好。原因在于，雅可比矩阵需要对速度场v_θ进行微分，在去噪早期这个近似本身误差就很大，导致雅可比矩阵计算出来反而引入了更多噪声，让梯度更不稳定。去掉雅可比矩阵之后，梯度估计更干净、更稳定，在优化Q值方面也更有效。

用余弦相似度衡量不同梯度估计在轻微扰动下的稳定性时，QGF的梯度稳定性最高，远好于BPTT和OOD梯度，与完整去噪链方案（QGF-chain）相比也更稳定。这种高稳定性直接带来了更好的Q值优化效果——让最终动作的评分尽可能高，同时还不会像OOD梯度那样通过生成离谱的越界动作来"欺骗"评分函数。

五、与其他"测试时"方案的对比：不只是采样更多样本

有读者可能会问：既然目标是在测试时选出更好的动作，为什么不直接多采样几个动作，然后选分数最高的那个？这就是所谓的Best-of-N（BFN，最优N选一）方法。

BFN确实有效，但代价惊人。论文测量了不同方法每生成一个动作的计算量（以GFLOPs为单位）：QGF只需要0.0013 GFLOPs，而BFN采样4个样本需要0.037 GFLOPs，采样16个样本需要0.1464 GFLOPs，分别是QGF的28倍和113倍。在高维动作空间里，每次采样都要走完整条去噪链，成本极高。更让人意外的是，即便BFN(N=4)用了比QGF多28倍的计算量，它的成功率还不如QGF。这说明QGF是一个更高效的"动作优化器"，它通过梯度引导在生成过程中主动向好的方向靠拢，而不是靠运气多撒几次网。

当然，如果你有非常充裕的计算资源，BFN(N=16)的成功率确实能追上QGF。而研究团队还提出了QGF+BFN的组合：先用QGF生成N个候选动作，再从中选最高分的。这样只需N=4就能匹配BFN(N=16)的效果，计算量大幅减少。

六、在真实基准测试中的表现：与训练阶段优化的方法同台竞技

为了检验QGF的实际效果，研究团队在一个叫OGBench的离线强化学习基准测试集上进行了大量实验。这个基准包含多种机器人操控任务，比如把多个方块按顺序堆叠（cube-triple、cube-quadruple、cube-octuple），以及把碎片拼成拼图（puzzle-4x4、puzzle-4x5、puzzle-4x6），以及在场景中移动物体（scene）。任务难度从简单到极难不等，数据集规模从3百万到1000亿条不等。

在单任务离线RL的实验中，QGF与多个训练时优化策略的方法（即那些在训练阶段就让策略去最大化Q值的方法）进行了比较。这些训练时方法包括FQL（流Q学习，需要训练一个蒸馏的单步策略）、EDP（使用与QGF相似的一阶欧拉近似，但在训练时优化策略）、QAM（用伴随匹配方法替代BPTT）、DAC（扩散演员-评论家，在训练时引入OOD梯度）、QSM+BC（Q分数匹配加行为克隆）。

结果显示，QGF不仅完胜所有其他测试时方法，还与最强的训练时方法EDP持平，甚至在若干任务上略有超越。这是一个令人振奋的结果，因为QGF的策略网络（演员）完全没有经过任何奖励优化，只是老老实实地做行为克隆，优化完全在测试阶段完成。训练时方法通常需要仔细调整一个"奖励最大化与行为约束之间的平衡系数"，而QGF不需要在训练时调这个系数，只需要在测试时调整引导权重β，而且这个调整不需要重新训练模型。

在更难的目标条件RL（goal-conditioned RL）实验中，研究团队把QGF推向更具挑战性的环境，使用了1000亿条数据的超大数据集。在最简单的任务（puzzle-4x5, 3M数据）上，QGF略微落后于QFQL（使用OOD梯度的方法），但随着任务难度升高，QGF的优势越来越明显。在最难的cube-octuple任务上，QGF大幅领先于其他所有方法。这表明，在任务越来越难、需要越来越精准的动作优化时，QGF低方差梯度估计的优势愈发凸显。

七、随着模型变大，QGF反而越来越强

研究中一个特别有意思的发现与"规模扩展"有关。现在整个AI领域都在追求"越大越强"——更大的模型、更多的参数，往往意味着更好的性能。但对于训练时优化策略的方法来说，模型越大，训练时的不稳定性往往也越大，因为策略在追着一个不断变化的评分函数跑，模型容量越大，跑偏的风险也越大。

研究团队专门测试了QGF和QAM在三种不同规模（82.5万、320万、1270万参数）下的表现。从82.5万参数扩展到320万参数时，QAM的成功率几乎没有提升，而QGF的成功率大幅提升了近4倍。继续扩展到1270万参数时，两者都出现了一定程度的过拟合，但QGF受到的影响明显小于QAM，QAM甚至退化到完全无法完成任务。

这个结果背后的逻辑很清晰：QGF的策略网络只需要学好行为克隆，这是一个稳定的监督学习任务，随着模型变大，表示能力提升，性能自然也提升；而训练时方法的策略需要同时应对变化中的评分函数，模型越大，这种不稳定的相互作用就越难控制。

八、QGF能配合更好的评分函数工作吗

前面所有实验都用的是IQL训练出来的评分函数，这是一种纯粹的"离样本内"学习方法，好处是完全不需要从策略中采样动作，与策略训练完全解耦。但有些评分函数训练方法（比如Q bootstrapping，即自举式Q学习）在经过精心调参后能得到更准确的分值。

研究团队用QAM策略训练出来的评分函数（QAM Q）来替换IQL Q，测试QGF是否能从更好的评分函数中受益。结果发现，使用QAM Q的QGF不仅远好于使用IQL Q的QGF，还超过了使用相同QAM Q的QAM策略本身。换句话说，QGF作为一个策略提取方法，能充分利用更好的评分函数，甚至比同一个评分函数驱动的训练时优化方法还要强。这说明QGF是一个极为高效的"策略提取器"，给它更好的评分函数，它就能生成更优质的动作。

九、那些看似是妥协的近似，为什么反而比精确方案更好

研究中有一个反直觉的现象值得单独说明：QGF做了两个看起来粗糙的近似——一是用一阶欧拉步而非完整去噪链来估算干净动作，二是把雅可比矩阵近似为单位矩阵。按照直觉，更精确的计算应该带来更好的结果，但实验结果恰好相反。

研究团队的解释是"模式选择"（mode selection）能力。流匹配模型学到的是整个数据集的分布，其中有多种可能的动作模式——比如用左手还是右手抓物体，先移动A还是先移动B等等。如果完整地走完去噪链，生成的动作受到整个数据分布的约束，必须覆盖所有这些模式；而一阶欧拉步只是沿着当前速度场方向走一步，给了动作更大的自由度，让Q值梯度能够把动作"拉"向某个特定的高价值模式，而不被整个数据分布的"引力"拖回中心。这就好比：完整去噪链像是在水中游泳，阻力很大，水会把你往中间拉；一阶近似像是在较浅的水中涉水，能更自由地朝评分梯度的方向移动。

类似地，去掉雅可比矩阵减少了梯度的噪声，使引导信号更干净，而加入雅可比矩阵则引入了因微分速度场产生的额外噪声，反而把梯度弄乱了。

研究团队还探索了各种处理雅可比矩阵的变体：用平滑蒙特卡洛平均（QGF-Jacobian Smooth）、用SVD正交化（QGF-Jacobian Ortho）、用正则化（QGF Regularized）等。令人惊讶的是，正交化和正则化版本的表现接近于完全不用雅可比矩阵的QGF，而直接使用原始雅可比矩阵则表现最差。这从另一个角度说明：雅可比矩阵的"方向信息"（旋转部分）是有用的，但"幅度信息"（尺度缩放部分）反而有害，丢掉幅度信息后性能反而恢复了。

十、引导权重的灵敏度：太轻太重都不行

就像厨师在菜里加盐，少了没味道，多了就毁了整道菜，QGF里的引导权重β也存在一个甜蜜区间。研究团队对引导权重做了系统的敏感性分析，发现在大多数环境里，提高引导权重能显著改善成功率，但超过某个阈值之后，成功率会开始下降甚至崩溃——因为太强的引导会把动作推到离线数据支撑之外，落入评分函数从未学习过的区域，评分函数对这些区域的预测完全不可靠，实际动作的质量反而变差。

好消息是，不同任务的最优引导权重可以在测试时调整，不需要重新训练模型，这使得QGF在实际部署中比训练时方法灵活得多。

---

说到底，QGF这项研究给了整个机器人和AI控制领域一个重要的提示：让策略在训练时只做稳定可靠的事情（模仿学习），把"聪明"的优化留到使用时做，这两件事分开来做，反而可能比混在一起做效果更好。这打破了一个长期以来的默认假设——似乎越是在训练时充分优化，AI就越聪明。实际上，测试时的实时优化同样是一条可行且有竞争力的路线，而且这条路上的稳定性和可扩展性更容易把控。

对于普通读者而言，这项研究的影响或许还有些遥远，但它预示着未来的家庭机器人、工厂机械臂或者自动驾驶系统，或许不再需要每隔一段时间就回到"学校"重新接受大规模训练才能应对新情况，而是能在运行中根据实时反馈自我调整，像一个老到的厨师一样随机应变。

当然，研究团队也坦诚地指出了一些局限：如果评分函数本身是一个很大的模型，对它求梯度的计算成本也会相应增加，需要进一步优化。另外，如果参考策略（行为克隆策略）训练得不够好、对数据分布的覆盖不充分，那么测试时的梯度引导也无从发挥，毕竟巧妇难为无米之炊。这些都是未来值得继续探索的方向。

有兴趣进一步了解技术细节的读者，可以通过arXiv编号2606.11087找到完整论文，代码也已开源在github.com/zhouzypaul/qgf供参考。

---

Q&A

Q1：QGF方法在测试时引导动作生成，为什么不直接从多个候选动作里选最好的，而要用梯度？

A：直接从多个候选动作里选最好的就是所谓的Best-of-N（BFN）方法，它确实有效，但代价极大。BFN采样4个动作的计算量是QGF的28倍，采样16个动作则是113倍，而且计算量扩大这么多，效果还不如QGF。原因在于，BFN靠运气多撒几次网，而QGF靠梯度引导主动往高价值方向走，本质上是更聪明的优化策略，在高维动作空间中优势尤为明显。

Q2：QGF的梯度估计为什么不对中间的噪声动作直接求梯度，而要先"跳"到近似的干净动作？

A：评分函数Q在训练时只见过完全去噪后的干净动作，从来没接触过去噪中间步骤产生的噪声动作。如果直接对噪声动作求梯度，就像让一个只见过成品的鉴赏师去评价半成品，他的评价根本没有参考价值，甚至会把你带到错误的方向。QGF先用速度场方向做一步大跳，估算出大致对应的干净动作，再在干净动作上求梯度，保证评分函数是在自己熟悉的区域里工作，梯度信号因此更可靠。

Q3：QGF方法对模型规模增大表现更好，背后原因是什么？

A：训练时优化策略的方法（如QAM），需要策略网络在训练中不断追随一个持续变化的评分函数，模型越大，这种不稳定的相互作用越难控制，容易产生过拟合或崩溃。而QGF的策略网络只做行为克隆，这是一个稳定的监督学习任务，模型越大，表示能力越强，克隆效果越好，测试时梯度引导的效果也随之提升。两者本质区别在于：一个是在不稳定动态中扩大规模，另一个是在稳定任务中扩大规模。

强化学习流匹配测试时优化

分享至