
这项由谷歌研究人员完成的工作,以预印本形式于2026年4月28日挂载至arXiv,论文编号为arXiv:2604.25907v1,分类在计算机学习(cs.LG)领域。感兴趣的读者可直接通过该编号检索到完整论文。
假设你打算教一只从未见过键盘的猫学会打字。你有两种极端策略可以选择:第一种是每次它偶然踩到正确的键就给它奖励,等着它慢慢摸索——问题在于,一只猫踩对键的概率本来就接近零,你可能等上一辈子也等不到第一次成功;第二种是把猫的爪子强行按在正确的键上,让它一次次感受"这就是对的",它会学得很快,但它记住的可能只是肌肉动作,而不是真正的打字逻辑,随便换一个键盘布局就完全懵了。
大型语言模型在被训练去完成新推理任务的时候,面对的正是这两种困境的拉扯。谷歌这支研究团队提出了一个统一的数学框架,给这两种极端策略之间的所有中间地带都建了一把标尺,并且在实验中证明了:拨对这个"投入程度"旋钮,能让原本完全卡死的AI从零开始学会新任务,同时避免它死记硬背所有错误答案。
要理解这项工作,有必要先弄清楚AI学习推理的基本困境是什么,以及两种主流方案各自出了什么问题。
一、 AI学推理时遇到的两堵墙
现在最先进的语言模型在回答复杂问题之前,会先在内部生成一段"思考过程",就像做数学题时你在草稿纸上写下的演算步骤。这段思考过程是隐藏的,系统只会把最终答案展示给你。训练这种模型,本质上是教它学会用什么样的"草稿思路"才能得到正确答案。
当下最流行的训练方法叫做"基于可验证奖励的强化学习",简称RLVR。这种方法的逻辑很简单:模型生成一段思考过程,然后产生一个答案,如果答案对了就得分,答案错了就不得分或者扣分。模型的目标是让得分越来越高。这就是前面那只猫踩键盘的比喻——只有踩对了才有奖励。
这套方法有一个要命的弱点:当模型刚开始面对一类全新任务,它几乎不可能碰巧产生正确答案。成功概率可能只有千分之一甚至更低。在这种情况下,模型几乎接收不到任何"这条路是对的"的信号,训练就陷入了完全的停滞——研究团队称之为"冷启动失速"。
与此同时,另一个看起来完全相反的方法是"最大化边际对数似然",简单说就是直接让模型去拟合所有训练数据的分布,尽可能精确地覆盖所有可能的正确答案路径。这种方法学得很快,但它有一个对称的致命弱点:它会把训练数据里的噪声和错误也一起记住,无法区分哪些答案是真正正确的,哪些是标注错误或者碰巧蒙对的。
这就好比两种教学方式的极端:一种老师从不告诉学生什么是对的,只等学生自己撞对了才点头;另一种老师照单全收,学生说什么都记下来,从不质疑。显然,好的教学应该在两者之间找到平衡。但在AI训练领域,这个"平衡点"在哪里,如何系统地找到它,一直没有一个清晰的理论框架。
谷歌这支团队的工作,正是要建立这个框架。
二、 一把统一两种极端的数学旋钮
研究团队引入了一个来自非广延统计力学领域的数学工具,叫做"Tsallis q-对数"。这个工具本身不复杂,理解它的关键是一个叫做 q 的参数——可以把它看成一个旋钮,旋钮的刻度从0到1。
当旋钮拨到0的时候,整个训练目标恰好等价于RLVR,也就是前面说的纯粹靠偶然踩对才能学习的强化学习。当旋钮拨到1的时候,整个训练目标变成最大化边际对数似然,也就是那种学得快但记得住错误的方式。0到1之间的所有刻度,都是合法的中间状态。
研究团队把这个统一框架命名为 JQ 损失族。"损失"在机器学习里指的是模型有多差、需要改进多少;"族"意味着这是一族由参数 q 连续控制的方法集合,而不是某一种单一方法。
这里最关键的发现是:这个旋钮改变的不是梯度的方向,而是梯度的强度,而且这种强度调整对每一个训练样本是独立的。梯度可以理解为模型参数需要朝哪个方向调整、调整多少的指令。对于一个模型几乎不会回答的题目,q越大,这道题产生的梯度指令就越强,模型被迫更努力地在这道题上改进;对于模型已经驾轻就熟的题目,梯度指令就相对温和。
研究团队把参数 q 命名为"承诺度"——对陌生监督信号投入的程度。高承诺度意味着模型愿意为自己不熟悉的任务全力以赴;低承诺度意味着模型更专注于已经擅长的事情,对陌生信号保持保守。这个比喻用学生的态度来理解就很直接:一个高承诺度的学生会把最难的题目放在最重要的位置来攻克,即使答案完全不确定;一个低承诺度的学生倾向于把时间花在已经会的题目上,把做不会的题丢在一边。
三、 从数学推导到时间复杂度:两堵墙有多高
研究团队不只是给出了这个旋钮的定义,还在严格的数学框架下证明了:这个旋钮拨到不同位置,模型从"冷启动"状态学到第一个成功案例所需的时间,在数量级上是完全不同的。
假设一道新任务,模型最初成功回答的概率是 p0,而 p0 非常小,比如万分之一。研究团队在理论上证明:当旋钮拨到0(纯强化学习)的时候,模型从这个冷启动状态逃脱所需的训练时间,至少是 1/p0 这个数量级——也就是万分之一的倒数,等于一万倍的时间单位。这是定理5.1给出的下界,意思是无论怎么调整学习率,强化学习就是逃不出这个时间代价。
而当旋钮拨到1(纯密度估计)的时候,逃脱冷启动所需的时间只是 log(1/p0) 这个数量级。log(10000) 大约是9,而不是10000。这就是定理5.2给出的结论——两种极端策略之间,在冷启动时间上存在指数级别的差距。
这个差距是由梯度强度的放大因子 P^(-q) 决定的,其中 P 是当前成功概率,q 是承诺度参数。当 q=0,放大因子等于1,也就是没有放大,冷启动的停滞就是内在的;当 q=1,放大因子是 1/P,当 P 很小的时候这个放大倍数极大,模型被强迫在稀有的正确信号上迅速学习。
但高承诺度有代价。同样的数学机制,在放大稀有正确信号的同时,也放大了噪声信号。对于那些标注有误的训练样本,高承诺度同样会迫使模型把这些错误也快速记住。研究团队也严格证明了这一点:高 q 值下,模型记住训练数据中噪声的速度,与它学会正确答案的速度,在数量级上是对称的。
这意味着承诺度旋钮两端各有一个陷阱:太低,冷启动永远无法逃脱;太高,学得快但也记错得快。中间值才是实际可用的地带。
四、 两种计算梯度的方式:GARL 与 PAFT
数学框架建好了,但实际训练语言模型时,还面临一个工程问题:模型某道题的总体成功概率 P,在理论上是对所有可能思考路径的求和,但实际上思考路径无穷无尽,根本算不出精确值。
研究团队的解法是用蒙特卡洛估计——本质上就是随机抽样,用样本均值去近似真实值。他们发现,JQ 损失的梯度公式可以从两个不同方向分解,每种分解方式对应一种不同的估计算法,两种算法各有优劣,适合不同的训练场景。
第一种算法叫做梯度放大强化学习(GARL)。它的工作方式延续了强化学习的基本思路:每次给模型一道题,让模型随机生成多条思考路径(比如32条),然后看哪些路径最终得到了正确答案,用这个信息来估计成功概率,再用估计值来放大梯度。这个算法在冷启动阶段至关重要,因为即使所有32条路径都答错了,每条路径本身仍然给出了非零的信号("我走了这条路,距离正确答案还有多远"),训练不会完全停滞。GARL在 q=0 时恰好退化为一种已有的方法(Rao-Blackwellized REINFORCE),在 q=1 时退化为IWAE梯度估计量,这两个都是文献中有根基的算法。
第二种算法叫做后验衰减微调(PAFT)。它的工作方式更接近传统的监督学习:同样先随机生成多条思考路径,然后按照"这条路径最终得到正确答案的概率"对路径进行重新抽样,把抽到的路径作为训练样本,直接让模型学会"这样想、这样答"。这叫做重要性重采样,本质上是在近似"后验分布"——也就是"给定这道题的正确答案,什么样的思考过程最可能导向它"这个分布。PAFT在 q=1 时退化为EM算法的期望步骤,这是统计学里处理隐变量问题的经典方法。
两种算法的偏差(与真实梯度的系统性偏离)在数学上是完全相同的,都是 O(q / (M × P^(q+1))),其中 M 是每次抽取的路径数量。这个偏差公式揭示了一个重要规律:q 越大,偏差越大;成功概率 P 越小(也就是任务越难),偏差越大。所以在冷启动阶段用高 q 值,虽然逃脱速度快,但梯度估计也更不准确——这正是为什么中间值 q=0.75 通常比 q=1 效果更好。
两种算法的方差(随机波动的幅度)有所不同:GARL的方差更低,因为它用了所有样本的信息;PAFT的方差更高,因为重采样引入了额外的随机性。但PAFT有一个独特优势:它的梯度信号在语义上更干净,因为每一条被用于学习的思考路径,都是经过筛选、指向正确答案的,而GARL把所有路径混在一起,包括那些给出错误答案的路径,这些路径对梯度的贡献有时候会产生混乱的效果。
五、 在三个真实推理任务上的实验验证
研究团队在三个需要复杂推理的真实数据集上验证了这套框架,使用的基础模型是阿里巴巴发布的 Qwen 3 0.6B,一个参数量相对较小但具有推理能力的语言模型。
三个数据集分别是:FinQA(需要对财务报告中的数字进行数学推理)、HotPotQA(需要跨多段文字进行多跳推理,类似于把几条线索串联起来找到答案)、MuSiQue(更难的多跳问题,需要拆解并分步骤解答)。
训练时用的是严格的精确匹配奖励——答案必须与标准答案字符完全相符才算对;评估时用的是稍微宽松的子串匹配——只要标准答案出现在模型输出的某个位置就算对。每次训练每道题抽取32条思考路径,评估时用16条路径,报告三个指标:pass@1(单次回答准确率)、pass@16(16次机会里至少有一次答对的概率)、maj@16(16次回答里多数票胜出的准确率,反映答案的稳定性和一致性)。
实验分成"冷启动"和"暖启动"两种场景。冷启动场景刻意把问题输入变成机器风格的纯文本,不给任何任务描述和格式提示,强迫模型从几乎零成功概率出发。暖启动场景使用自然语言提示词和标准任务格式,模型一开始就有一定的成功率。
冷启动实验的结果非常明确地支持了理论预测。GRPO(一种流行的RLVR方法)、q=0(等价于Rao-Blackwellized REINFORCE)、q=0.25、q=0.5,在FinQA数据集上的所有指标全部是零——训练完全没有进展,正如理论所预测的强化学习在冷启动时必然面临的困境。而 q=0.75 成功突破:pass@1达到30.5,maj@16达到38.3。q=1 也成功突破,但各项指标略低于 q=0.75——这与理论预测的估计偏差效应吻合,高承诺度逃得更快,但梯度质量也更差。
从训练动态图来看,q=1 的梯度放大信号几乎立刻出现,q=0.75 在大约训练第35步时出现一个急剧上升,q≤0.5 的信号则全程保持在接近零的水平纹丝不动。这个阶梯式分布与理论中的时间复杂度排序完全一致。
更引人注目的是冷启动GARL与暖启动GRPO的对比。研究团队把"用精确匹配奖励但完全不给任务提示词"的冷启动GARL,与"有完整提示词支持"的暖启动GRPO做了比较。结果在FinQA上,冷启动GARL(q=0.75)的maj@16是38.3,而有提示词辅助的GRPO只有26.9;HotPotQA上,冷启动GARL达到57.2,GRPO只有33.5;MuSiQue上,冷启动GARL达到34.8,GRPO只有15.8。没有任何提示词工程的冷启动,反而全面超过了依赖提示词的暖启动强化学习。研究团队对此保持谨慎,指出两种设置之间有太多变量同时改变,这个比较不能简单解读为"提示词没有价值",但它确实说明高承诺度的学习机制有着强大的潜力。
暖启动实验则揭示了GARL和PAFT各自的适用边界。在FinQA上,GARL在所有测试的q值下训练都很稳定,低q值(q=0.25)最终效果最好,maj@16达到38.7,比GRPO高出11.8个百分点——这符合理论:当任务训练本身稳定时,低承诺度带来的低估计偏差优势会显现出来。
但HotPotQA和MuSiQue讲述了不同的故事。GARL在这两个数据集的暖启动实验中,在所有测试的q值下,都出现了"崩溃"现象:验证集准确率先攀升到某个峰值,然后急剧跌落到零。这种直线崩溃与GRPO在HotPotQA上的缓慢下滑(从约37.4峰值下降到约5.0)性质完全不同。研究团队推测GARL崩溃的可能机制包括:GARL的梯度里包含了所有抽样路径对输出概率的直接更新,即使那条路径给出了错误答案,这可能产生语义上混乱的梯度信号;以及这两个数据集本身更容易引发过拟合。但确切机制尚未验证,研究团队明确指出这需要进一步的消融实验来证明。
PAFT在这两个数据集上表现出完全不同的稳定性。HotPotQA上,PAFT在整个训练过程中保持稳定,最终maj@16达到47.9,比GRPO高出14.4个百分点,是三个数据集上所有稳定方法里最高的绝对提升。MuSiQue上,PAFT(q=0.75)稳定地给出22.4的maj@16,而GARL虽然峰值更高(24.3),但那是崩溃之前的昙花一现。PAFT低q值(q=0.25)在MuSiQue上学习速度很慢,训练结束时准确率还在上升,尚未收敛——这是低承诺度下衰减因子过强、样本效率太低的体现,但它是慢而稳,而不是崩溃。
六、 这套框架还解释了什么:噪声记忆与SFT-RL流水线
理论框架的一个优雅之处在于,同一套数学机制不仅解释了冷启动速度,还自然地解释了噪声记忆的速度,而且两者的加速比在形式上完全相同。
考虑一个标注有误的训练样本,正确答案被错误地写成了另一个答案。研究团队证明:模型记住这个错误答案的速度(用 η 表示噪声污染程度),在 q 值从小到大变化时,与逃离冷启动的速度有着平行的结构——高 q 值加速记忆正确答案,同样的倍率也加速记忆错误答案,而且加速比的数量级在两种情况下数学上完全一致。这意味着承诺度是一把双刃剑,而不是一个单向的好东西。
这套框架还给出了一个关于经典"先SFT后RL"训练流水线的新解读。通常的做法是先用带有标注思考步骤的数据做监督微调(SFT),让模型学会一种思考方式,然后再用强化学习继续优化。为什么这样更有效?从JQ框架的视角看:SFT本质上是 q=1 的密度估计,只是思考路径被固定为标注样本(边际化退化为点估计),所以它用 P^(-1) 的放大因子快速逃离冷启动;随后切换到RL(q=0)则停止了对噪声的承诺,利用 q=0 的噪声鲁棒性来防止模型过度拟合SFT阶段可能引入的错误标注。JQ 框架把这个"先快速学,再抵抗噪声"的两阶段硬切换,替换成了一个可以连续调节的单参数旋钮,理论上更灵活,实验上也得到了支持。
七、 与已有方法的关系:一个统一的视角
这套框架的另一个贡献是把多个独立的已有方法纳入了同一个屋檐下。STaR(自我教导推理者)是一种让模型先生成思考步骤、过滤掉错误路径再学习的方法,可以看作PAFT重要性重采样的一个硬性版本(硬接受vs软加权)。TRICE(通过潜变量推断训练思维链)是用MCMC-EM方法最大化边际对数似然,对应 q=1 时PAFT的E步。IWAE(重要性加权自编码器)的梯度估计量对应 q=1 时的GARL。Rao-Blackwellized REINFORCE 对应 q=0 时的GARL。
另一个同期独立工作 MaxRL 也探索了强化学习到最大似然的插值,但用的是完全不同的数学路径(截断Maclaurin展开),两者在极端情况(K=0时MaxRL梯度为零,GARL始终非零)和冷启动行为上有明显区别。
还有一项同期工作从词符级别而非样本级别应用类似的变形对数思路,给出了一种"门控误差"的梯度结构。JQ框架和那项工作作用于不同层面,可以被视为互补。
在统计估计文献中,这套框架与Tsallis熵在强化学习里作为策略正则化项的用法也有本质区别:那个用法是在推理时控制探索,JQ框架则是在训练时控制对不熟悉样本的承诺,两者解决的是不同的问题。
归根结底,谷歌这支团队做的事情,是把AI推理训练里长期共存、互相对立的两种思路,用一个单一的数学参数统一了起来,并且给出了严格的理论分析、清晰的算法实现和多个真实数据集上的实验验证。这个工作还有未解决的局限:所有实验只用了一个模型规模,GARL崩溃的机制尚未查明,整个框架目前只支持精确匹配类奖励,推广到更复杂的奖励函数还是开放问题。但它提供的理论视角和实践工具,对于任何需要在有限计算资源下把语言模型适配到新推理任务的人来说,都有直接的参考价值。
Q&A
Q1:强化学习训练AI时,"冷启动失速"到底是什么问题?
A:冷启动失速指的是,当AI模型被要求学习一类全新任务时,最初几乎不可能偶然产生正确答案,因此强化学习几乎收不到任何有效的训练信号。成功概率越低,模型等待第一次正确反馈所需的时间就越长,在数学上这个等待时间与初始成功概率成反比关系,可能需要极其漫长的训练才能有任何进展,实际上相当于训练完全停滞。
Q2:GARL和PAFT这两种算法分别在什么情况下更适合使用?
A:GARL更适合冷启动场景,因为它对所有抽样路径都产生梯度,即使没有正确答案也不会给出零梯度,能够强行推动训练进展;PAFT在暖启动场景中稳定性更好,因为它只对经过筛选、语义上指向正确答案的路径学习,不混入错误路径的干扰信号。当GARL在某些任务上出现训练崩溃时,PAFT是更安全的选择。
Q3:承诺度参数q应该设置成多少才合适?
A:根据实验结果,q=0.75是一个在多个场景下表现稳健的折中值:它足够高,能在冷启动时提供必要的梯度放大效果;又不像q=1那样引入过多的估计噪声。在训练稳定的任务上,低q值(如0.25)因为偏差更小,最终效果更好。没有一个通用的最优值,需要根据任务难度和训练稳定性来调节。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。