微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 只需观察15%的训练过程,弗吉尼亚大学团队发现AI强化学习的隐秘"捷径"

只需观察15%的训练过程,弗吉尼亚大学团队发现AI强化学习的隐秘"捷径"

2026-05-28 11:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-28 11:33 科技行者

这项由弗吉尼亚大学与圣路易斯华盛顿大学联合开展的研究,以预印本形式发布于2026年5月20日,论文编号为arXiv:2605.21468,有兴趣深入了解的读者可通过该编号查询完整原文。

训练一个会思考、会推理的大语言模型,要花多少时间和钱?答案往往是"让人望而却步"。哪怕是中等规模的模型,完整的强化学习训练也动辄需要数天的GPU运算时间,费用高昂。弗吉尼亚大学与圣路易斯华盛顿大学的研究团队却在这个过程中发现了一件出人意料的事:这漫长训练旅程中绝大多数"走过的路",其实是可以被预测的——只需看它走过的前15%,就能推算出终点的位置。

这项研究提出的方法叫做RELEX(强化学习外推法),核心思想简单到令人惊讶:用少量早期训练检查点,通过数学分析推算出未来的模型状态,完全不需要继续训练。研究团队在三个不同规模的模型上验证了这一想法,结果发现推算出来的模型性能与完整训练的模型几乎一样好,有时甚至还略胜一筹。

一、漫长训练的秘密:模型参数变化其实极度"单调"

要理解这项研究的出发点,先得知道强化学习训练到底在做什么。当一个大语言模型接受强化学习训练时(例如通过验证数学题答案对错来给模型打分、让模型学会更好地解题),模型内部成千上万个参数会随着每一步训练发生细微变化。可以把每个参数想象成一个旋钮,一个典型的大模型里有数十亿个这样的旋钮。每训练一步,所有旋钮都会被微微调整一点点,经过几百步、几千步,模型就变得越来越聪明。

研究团队做了一件事:他们把训练过程中每一步的模型参数都保存下来,然后用一种叫做奇异值分解(SVD)的数学工具来分析这些参数的变化轨迹。SVD可以把一组复杂的数据变化分解成若干个"主方向",类似于用几根坐标轴来描述一团乱麻般的数据运动。

分析结果出人意料地干净利落。几乎所有参数的变化轨迹,都可以用一个单一的主方向来捕捉。换句话说,尽管模型里有数十亿个参数,但它们的变化方式高度同步,朝着同一个"主方向"集体移动,其余方向的变化几乎可以忽略不计。研究团队把这个现象称为"秩-1结构"——所谓"秩",就是描述一组数据需要多少个独立方向,秩越低说明结构越简单。他们发现,用秩-1近似重建的模型检查点,在数学测试集上的表现与真实训练的检查点几乎完全一致,在三个不同的模型(Qwen2.5-Math-1.5B、Qwen3-4B-Base、Qwen3-8B-Base)上都是如此。

更令人惊讶的是第二个发现:这个主方向上的参数变化量,随着训练步数的推进,呈现出近乎完美的线性增长。用数学语言说,就是R?大于0.98——这个数字意味着线性模型能解释98%以上的变化规律,接近完美的直线。把这个发现翻译成日常语言:模型在训练过程中的参数变化,就像一列匀速行驶的列车,沿着一条固定轨道,以几乎恒定的速度前进。只要知道它开始时的速度和方向,就能准确预测它什么时候会到达哪里。

这两个发现加在一起,意味着整个强化学习训练过程,在参数空间里走的是一条极度规则、极度可预测的路线。

二、RELEX是怎样工作的:三步走完一段本需数天的旅程

基于上述发现,研究团队设计了RELEX方法。整个流程可以用"看几步、找方向、画延长线"来概括。

第一步是"找方向"。对于模型里的每一个参数矩阵(比如控制注意力机制的查询权重矩阵),研究团队收集训练前15%到20%步骤的所有检查点,计算出每一步相对于初始模型的参数变化量,然后把这些变化量堆叠成一个矩阵,对这个矩阵做奇异值分解,提取出排名第一的"主方向"向量。这个向量就代表了该参数矩阵在训练过程中最主要的运动方向,可以理解为列车的行进轨道方向。

第二步是"量速度"。把每一步的参数变化量投影到刚才找到的主方向上,就能得到一个随训练步数变化的标量序列,也就是每一步列车沿着轨道走了多远。由于这个序列几乎是线性的,研究团队用简单的最小二乘法(一种高中数学就能理解的直线拟合方法)拟合出一条直线,得到斜率和截距这两个参数。

第三步是"画延长线"。有了直线方程,就可以把这条直线延伸到任意未来的时间步,预测出那一步的参数变化量应该是多少,再把这个变化量叠加回初始模型权重,就得到了预测的未来检查点。对模型里所有参数矩阵重复这个过程,就能无中生有地"造出"一个从未真正训练到的模型检查点。

整个过程既不需要GPU训练,也没有任何需要学习的参数,只需要一次奇异值分解和一次线性拟合,两者都有封闭形式的解析解,计算成本与训练本身相比几乎可以忽略不计。

三、实验结果:节省八成训练成本,效果分毫不差

研究团队在三个模型上系统验证了RELEX的效果,并与多个竞争方法进行了比较。所有强化学习训练都采用GRPO算法,在数学题数据集MATH上训练500步,硬件为8块H200 GPU。

在最直接的性能对比上,RELEX表现出了惊人的竞争力。对于Qwen2.5-Math-1.5B模型,完整训练500步的RLVR模型在MATH测试集上得到71.5%的准确率,而RELEX仅观察前75步(占总步数15%)后推算出的模型得到71.6%,反而略高于完整训练的结果。对于Qwen3-4B-Base,完整训练得到85.5%,RELEX观察75步后推算得到85.6%,同样持平甚至略优。对于最大的Qwen3-8B-Base,完整训练得到88.5%,RELEX观察100步后推算得到87.4%,差距仅有1.1个百分点。

更能说明问题的是题目之外的泛化能力测试。研究团队在五个与训练数据完全不同的竞赛数学题集上(包括AIME 2025、AIME 2026、HMMT 2025、OlympiadBench和AMC 2023)测试了所有方法。这类测试更能反映模型是否真正学会了数学推理,还是仅仅记住了训练题目的解题套路。结果显示,RELEX推算出的模型在这五个题集上的平均表现,全面优于或持平于完整训练的RLVR模型。以Qwen2.5-Math-1.5B为例,RELEX的平均分为30.0%,而完整训练的RLVR为28.4%。对于Qwen3-4B-Base,RELEX平均43.0%,RLVR平均42.3%。这说明RELEX推算出的检查点捕捉到的是真正可迁移的推理能力,而不只是对训练分布的记忆。

与其他同等计算预算下的竞争方法相比,RELEX也占据全面优势。同样只用15%训练成本的ExPO方法(通过放大两个检查点之间的差值来预测未来),在Qwen2.5-Math-1.5B上MATH准确率为67.7%,比RELEX低了3.9个百分点。AlphaRL方法得到67.3%,比RELEX低4.3个百分点。直接在原始权重空间做线性外推的Weight Extrapolation得到70.4%,比RELEX低1.2个百分点。在输出logit空间做外推的Logits Extrapolation只有64.9%,与RELEX相差6.7个百分点。

四、为什么非得是秩-1?更高维度反而会坏事

一个自然而然的疑问是:既然秩-1能捕捉主要方向,那用秩-5或秩-10岂不是能捕捉更多信息、效果更好?研究团队专门针对这个问题做了消融实验,结果令人信服地说明了为什么"少即是多"。

在观察75步、预测步数100到500的测试中,秩-1方案在所有预测步数上都优于秩-5和秩-10方案。秩-5在步数500时只有70.6%,秩-10只有70.5%,而秩-1达到71.6%。增加维度不仅没有帮助,反而降低了性能。

为什么会这样?研究团队通过可视化一个代表性参数矩阵(第14层的gate_proj)的秩-5分解系数轨迹,给出了直观的解释。第一个主成分(秩-1方向)单独解释了秩-5子空间内81.4%的方差,并且随着训练步数推进,其系数几乎完美地沿一条直线变化,可预测性极高。而第二到第五个主成分合在一起只解释18.6%的方差,且各自的系数轨迹呈现出嘈杂、无规律的锯齿状波动,完全没有可预测的趋势。

这意味着,第一个主方向代表的是训练过程中真实的、有意义的参数变化趋势,而其余方向捕捉到的是随机梯度下降过程中引入的噪声——每一步采样不同的训练数据、不同的随机种子,会让参数在各个方向上产生细微的随机漂移,这些漂移是没有信息量的"干扰信号"。当你把外推建立在这些噪声方向上时,外推本身会放大这些噪声,导致预测越来越偏离真实轨迹。

同样,把外推从SVD子空间切换到原始权重空间,效果也会下降。每个预测步数上,在原始权重空间直接做外推的版本都比SVD空间的版本低。道理是一样的:SVD投影把噪声方向过滤掉了,起到了"降噪滤波器"的作用,而在原始空间操作会把噪声方向重新引入预测中。研究团队把这个效果称为"谱去噪"——SVD就像一台滤波器,让模型只沿着真正有意义的方向前进,滤掉了训练过程中的随机噪声。

五、函数形式的选择:线性拟合就已经是最优方案

既然知道了要在秩-1系数上做外推,那用什么样的函数来拟合这个系数轨迹最好?研究团队比较了三种选择:简单的一次线性函数、三次多项式,以及一个专门训练的三层Transformer神经网络。

结果显示,简单线性函数是最稳健的选择。三次多项式在观察窗口之内拟合得不错,但一旦外推到观察窗口之外就灾难性崩溃——在步数300时就已经跌到只有0.2%,几乎完全失效。这是过拟合的经典案例:多项式被迫弯曲来拟合训练窗口内的每一个细节,导致它的曲线在外推时急剧翘起或俯冲。神经网络方案在某些步数上(例如步数500时72.1%对比线性的71.6%)略有优势,但这种优势不稳定,在中间步数(如步数200时69.5%对比线性的70.0%)还不如线性方案,同时神经网络的训练成本、超参数调试成本都要高得多。

由此,线性外推成为默认选择:它有封闭形式的解析解,不需要任何迭代训练,两个参数(斜率和截距)通过最小二乘法一步就能计算出来,而且稳健性最高。

六、推算能走多远:从观察50步到预测1000步

一个令人兴奋的问题是:RELEX能把外推的触角伸多远?如果只观察训练的前50步,能推算出第1000步的模型吗?研究团队系统测试了不同观察窗口(50步、75步、100步、125步)和不同目标步数(100步到1000步)的组合,得到了一张详细的性能地图。

在条件较好的情况下,RELEX展现出惊人的远程预测能力。以Qwen2.5-Math-1.5B、观察窗口125步为例,其推算出的第750步检查点达到71.7%,超过了完整训练到第500步时的71.5%参考线。推算到第1000步时仍保持71.6%,依然高于完整训练基准。这意味着仅凭最初25%的训练过程,就能预测出一个超越完整训练终点的模型,而且预测还能稳定延伸到两倍于原始训练长度的位置。对于Qwen3-8B-Base,观察125步的版本在第750步达到最高点88.0%,第1000步时仍有85.6%,均显著高于基础模型73.9%的基线。

不过研究团队也坦率地指出了这种长程预测的局限性:最佳观察窗口因模型而异。对于Qwen2.5-Math-1.5B,较长的观察窗口(100步或125步)能支撑更稳定的长程预测;而观察75步的版本在推算到第750步时就跌到65.7%,说明过短的观察窗口无法稳定支撑超远距离的外推。对于Qwen3-4B-Base,情况更为复杂:不管选择哪个观察窗口,推算到第1000步时性能都会下滑,75步观察的版本在第1000步还有73.6%,而100步和125步的版本到第1000步就分别跌至61.3%和50.9%。这说明对于这个模型,参数的主方向在训练中途会发生较明显的漂移,使得长程外推失去可靠性。

七、外推的走向:在权重空间里越走越偏,但最终结果却依然准确

研究团队还做了一个有意思的分析:RELEX推算出的模型,在参数空间里的位置,与真实训练的RLVR模型有多接近?结果揭示了一个值得思考的现象:外推模型的参数,随着预测步数增加,在权重空间里与真实RLVR轨迹的方向相似度越来越低(从0.72降至0.35),参数变化的幅度也越来越超过真实值(从1.26倍增至2.70倍)。换句话说,RELEX推算出的模型在参数空间里走的路,和真实训练走的路越来越不一样——方向有偏差,步子也迈得更大。

然而,这并不影响模型在数学题上的表现。参数走了一条不同的路,最终却到达了一个性能同样优异甚至更好的地方。这个现象暗示了一件有趣的事:对于数学推理能力而言,到达目标有多条路,并不存在唯一正确的参数配置。RELEX通过去除噪声、沿着更"纯粹"的方向前进,反而找到了一条通往同样(乃至更高)性能的不同参数路径。

八、这项研究的边界与未来方向

研究团队在论文中也明确指出了当前工作的局限。首先,所有实验都基于GRPO这一种强化学习算法和数学推理这一类任务,其他算法(如PPO)、其他任务(如代码生成)、其他模型家族(如Llama)中是否存在同样的低秩线性结构,目前还是未解之谜。其次,最佳观察窗口对模型的依赖性较强,需要针对每个模型经验性地确定,这在实际应用中增加了额外的探索成本。

研究团队提出,下一步的重要方向是发展自适应的子空间选择策略:实时监测主方向的漂移程度或奇异值间隙,动态决定何时截止观察、用多高的秩来建模,而不是依赖事先设定的固定参数。

说到底,这项研究向我们展示了一件颇为出乎意料的事情:即便是被普遍认为充满随机性、复杂性的强化学习过程,在参数空间里留下的轨迹也是高度规则的。数十亿个参数在训练过程中的集体运动,可以被一个方向和一条直线近似描述。研究团队把这个发现变成了一个实用工具,能够帮助从事大模型训练的人以一小部分计算成本得到一个同等质量的推理模型。这对于那些没有庞大计算资源的研究者来说,或许是一个实实在在的好消息——训练模型不一定要跑到终点,在中途做一个聪明的预测,就够了。

这项研究同时也引出了一个更深层的问题值得我们继续追问:如果强化学习训练的轨迹如此可预测,那么我们现在对于"多少训练量才够"的直觉,是否从一开始就高估了?也许在许多场景下,训练到一半然后外推,比老老实实训练到底更明智。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.21468查阅完整论文。

Q&A

Q1:RELEX方法为什么只需要15%的训练步数就能达到完整训练的效果?

A:RELEX利用了强化学习训练过程中参数变化的两个规律:参数变化高度集中在一个主方向(秩-1结构),且该方向上的变化量随训练步数近似线性增长。因此,只需观察早期少量检查点,就能用线性外推预测出未来任意步数的模型参数,无需继续实际训练。

Q2:RELEX推算出来的模型和真正训练出来的模型参数一样吗?

A:不完全一样。分析显示,RELEX推算的模型在参数空间里与真实RLVR训练轨迹的方向相似度会随预测距离增加而下降,参数变化幅度也会超过真实值。但尽管走了不同的路,最终的数学推理性能却相近甚至更好,说明达到高性能不依赖唯一的参数配置。

Q3:RELEX是否适用于所有类型的大语言模型训练?

A:目前RELEX只在三个Qwen家族模型上、采用GRPO算法、针对数学推理任务进行了验证。对于其他强化学习算法(如PPO)、其他任务(如代码生成)或其他模型家族(如Llama),是否同样存在低秩线性结构尚未验证,研究团队也将适应性秩选择列为重要的未来研究方向。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-