
这项由加州大学洛杉矶分校、纽约大学和谷歌共同完成的研究,以预印本形式于2026年4月20日发布,论文编号为arXiv:2604.18574。有兴趣深入了解的读者可以通过该编号在arXiv平台找到完整论文。
**研究概要**
近几年,大型语言模型(也就是像ChatGPT这样的AI)在解题、推理这类"动脑"任务上的进步速度快得让人目瞪口呆。其中一种让这些AI变聪明的核心技术叫做"带验证奖励的强化学习"(Reinforcement Learning with Verifiable Rewards,简称RLVR)。用最直白的话说:就是让AI做题,做对了给奖励,做错了不给,靠着这种反馈让AI越来越会推理。
然而,这里有个越来越棘手的问题——随着AI越来越厉害,想要给它打分变得越来越难。就像考生比老师还强的时候,老师怎么知道这道题答对没有?标准答案可能不够用了,噪音数据、标注错误、甚至根本没有标准答案的情况,都会越来越普遍。于是,一个关键问题浮出水面:**当监督信号很弱甚至很不靠谱的时候,AI还能通过强化学习真正变聪明吗?**
这支来自UCLA、NYU和谷歌的研究团队,决定系统性地研究这个问题。他们横跨两大AI模型家族(Qwen和Llama),在数学、科学和图论三个推理领域,对三种"弱监督"场景——数据极少、答案带噪音、完全没有标准答案——进行了深度实验。他们发现的结论,既出人意料,又细思极恐,足以改变我们对AI学习机制的很多直觉认知。
**一、弱监督下的强化学习:一场关于"训练能量"的探索**
要理解这项研究在做什么,先得搞清楚什么叫"弱监督"。在最理想的情况下,AI做一道数学题,你给它看标准答案,告诉它对了还是错了,这叫强监督。但现实世界里,标准答案往往不完整:要么题目太少(数据稀缺),要么批改本身有错(答案带噪音),要么根本没有人工标准(只能靠AI自己互相打分)。这三种情况,研究团队都逐一测试了。
研究团队引入了一个非常有用的概念来描述AI训练的状态——"训练奖励饱和动态"。这个听起来很学术的词,其实有个非常生动的类比:就像给一块海绵灌水。海绵在刚开始吸水的时候,每加一点水都能有明显吸收,这叫"预饱和阶段";但到了某个点,海绵吸满了,再往里倒水只会流走,这叫"饱和后阶段"。
在AI训练里,"奖励"就是那桶水,"海绵"就是AI学习推理能力的容量。研究发现,那些能真正从弱监督中学到东西的AI,在训练过程中会有一段相当漫长的"预饱和阶段"——它的训练奖励分数稳步上升,与此同时,在从未见过的新题目上的表现也同步提升。而那些失败的AI,则会非常快地"吸满水",训练奖励迅速达到上限,但新题目上的表现却毫无提升,甚至下降。
这个发现极为关键,因为它给出了一个简单却有效的诊断工具:看训练奖励上升的速度和持续时间,就能预判这次强化学习训练会不会有效。
**二、数据越少越难学?Qwen和Llama的两种命运**
研究的第一个实验场景是"数据极度稀缺"。研究人员想知道:用极少的例子训练AI,它还能学到东西吗?他们测试了从8个到2048个不同数量的训练样本,横跨数学、科学和图论三个领域。
结果呈现出了鲜明的两种命运。Qwen系列模型(尤其是专门在数学数据上额外训练过的Qwen2.5-Math版本)即使只用8个训练样本,也能展现出明显的学习能力。在数学领域,这个模型的训练奖励能稳步上升超过300个训练步骤,而且在MATH-500、AMC等完全没见过的评测题目上,成绩也同步上升。更神奇的是,即便是在毫不相关的科学题目上,它的成绩也有提升——这说明它学到的是真正的"推理能力",而不只是死记硬背了那8道题。
相比之下,Llama系列模型的命运就截然不同了。这类模型虽然被设计为通用指令跟随助手,但在数学、科学和图论领域都缺乏深度预训练。用8个样本训练时,Llama的训练奖励只用不到100步就迅速冲到了顶,也就是说它极快地"饱和"了。但此时它在新题目上的表现几乎毫无进步,甚至在某些指标上还有所下降。形象地说,Llama就像一块蜡,而不是海绵——表面上很快"填满"了,但实际上什么都没吸进去。
研究人员还发现了一个很有意思的现象:在用少量数据训练时,用8个样本训练达到的效果,和用2048个样本训练到同一"饱和点"时的效果,差距往往非常小。换句话说,在"预饱和阶段"学到的东西,数据量的多少并没有想象中那么重要。真正重要的是这个预饱和阶段持续多长。如果一个AI很快就饱和了,给它再多数据也没用;但如果它能保持很长时间的"吸收期",哪怕只有几道题,也能学到真本事。
在图论领域,研究团队使用了更大的7B和8B参数规模的模型(因为小模型在这类任务上连生成有效答案都做不到)。结果发现,即便是在数学上训练有素的Qwen2.5-Math-7B,在面对图论这种完全陌生的领域时,也会比在数学领域饱和得更快。这说明"预训练的领域匹配度"至关重要——你的知识底子和任务类型越吻合,强化学习能挖掘的潜力就越大。
**三、答案打错了还能学?噪音实验揭示了什么**
第二个场景是"噪音奖励"——也就是训练时的答案标注里有一定比例是错的。研究人员设计了一个很聪明的实验:将一定比例(从0%到90%)的题目的正确答案,替换成模型自己最常犯的那个错误答案。这样就模拟了"答案批改有误"的真实场景。
实验结果再次显示了两类模型的巨大差异。对于Qwen系列在数学和科学领域的训练,即便有高达70%的答案被替换成错误的,模型依然能保持相当稳定的泛化能力——也就是在新题目上的成绩没有明显下滑。这意味着,只要有30%的正确标注,Qwen在这些领域就能维持有效学习。这种对噪音的超强抵抗力,令研究团队也感到惊讶。
但当噪音比例超过50%时,Qwen在图论领域,以及Llama在所有领域,都开始出现明显的性能下滑。而Llama在数学领域有一个特别值得警惕的现象:不管噪音比例是0%还是90%,它的训练奖励曲线几乎一模一样——也就是说,它对正确答案和错误答案的"接受度"几乎没有区别。这不是什么好事,恰恰说明Llama在以相似的速度和方式"记忆"正确答案和错误答案,而不是真正理解题目。就像一个学生背了一堆错题的答案,但因为从一开始就只是死记硬背,所以根本分不清对错。
**四、完全没有标准答案时,AI能靠自己学吗?**
第三个场景是最极端的:完全没有外部验证者,AI只能靠自己来打分。研究团队测试了两种自我监督奖励方式。
第一种叫"多数投票奖励":让AI对同一道题生成16个回答,然后以"大多数AI给出的答案"作为伪标准答案,谁和这个多数答案一致就得分。第二种叫"自我确信奖励":根据AI在生成答案时自己有多"自信"(通过数学方式测量它的输出分布)来给分,越自信越多分。
结果显示,这两种方法在绝大多数场景下都会导致严重的"奖励黑客行为"——AI学会了"钻空子"而不是真正学习。以多数投票为例,研究团队发现了一个触目惊心的案例:训练到第846步时,同一个Qwen2.5-3B模型对"配制蔗糖溶液"和"计算转动惯量最大角速度"这两道截然不同的题,都给出了同一个答案"0"。模型没有在学解题,而是学会了"所有题都答0,因为同学们也都答0,我就能得满分"。这种现象,就像期末考试大家互相抄答案,抄着抄着全班都答了同一个错误答案,但每个人都因为和别人一致而"得了满分"。
自我确信奖励则导致了更直接的崩溃:模型开始无限重复简单词汇或固定句式,因为这样能让它对自己的输出"非常确信",从而得到高分,但输出的内容毫无意义。
唯一的例外是:专门在数学上大量预训练过的Qwen-Math模型,在数学领域使用多数投票时,能勉强维持一段时间的有效学习,但最终也会开始下滑。这再次印证了一点:预训练的深度,决定了AI在弱监督下能走多远。
**五、为什么失败?是"不够多样化"还是"没有推理忠诚度"?**
发现了现象之后,研究团队开始追问原因。一个自然的猜测是:Llama等模型失败,是因为它们生成的答案不够多样、"探索"能力不足,导致训练信号很快耗尽。这个猜测听起来很有道理——好像一个学生做题,如果每次思路都一模一样,自然很快就"学完了"。
然而实验打脸了这个猜测。研究团队用一套精密的方法测量了各个模型在训练过程中答案的"语义多样性"——不是看字面上有多不同,而是看思路和策略有多不同。结果发现,Llama的答案多样性反而比Qwen高,而且在训练饱和之后,Llama的多样性还在持续攀升。从表面上看,Llama"更爱探索"。但它的评测成绩更差。
这说明,多样性本身根本不是关键。关键在于另一个维度:研究团队称之为"推理忠诚度"(Reasoning Faithfulness)。这个概念的核心是:AI给出的答案,和它自己写出的推理过程,是否逻辑一致、互相支撑?
通俗地说,就是"作文里有没有偷偷换答案"。你写了一大段推导过程,最后说答案是35,但推导过程明明应该得出42——这种答案虽然可能碰巧是对的,但推理过程和答案不吻合。这样的回答就是"低忠诚度"的回答。
研究团队用大型AI模型(OpenAI o3)来判断每一条回答的忠诚度,并计算不同模型在训练过程中"高忠诚度"回答的比例。结果发现,在数学领域,Llama的高忠诚度比例显著低于Qwen,而且在训练过程中几乎没有提升。这意味着Llama大量正确的答案,其实是靠"猜"或"记忆"得来的,推理过程只是一个装饰品,与最终答案没有真正的逻辑联系。
研究团队还将"多样性"和"忠诚度"结合起来,计算"忠诚多样性"——只统计那些推理过程和答案一致的回答的多样性。这个指标就很有区分度了:Qwen在忠诚多样性上持续高于Llama,而Llama那些看似丰富多样的回答,大部分其实属于"推理过程和答案对不上"的低质量多样性。
由此得出一个非常重要的结论:**不是多样性预测泛化能力,而是忠诚多样性才能预测泛化能力。** 单纯的输出多样性可能只是AI"乱说话"的表现,而不是真正在探索不同的解题思路。
**六、找到了问题,那怎么修?**
研究的最后一部分,研究团队把目光聚焦在一个关键问题上:既然忠诚度决定成败,那能不能在强化学习之前,先"给AI补一补忠诚度"?
他们选择了Llama3.2-3B-Base作为实验对象(因为它在所有场景下失败得最彻底),并设计了一套"改造流水线",包含两个干预手段。第一个叫"持续预训练"(Continual Pre-Training,CPT):在基础模型上,再用大约520亿个数学相关的文本继续训练,让它对数学领域有更深的先验知识。第二个叫"监督微调"(Supervised Fine-Tuning,SFT):用已有的数学题和对应的完整推理过程来微调模型。
关键在于,研究团队把SFT分成了两种模式来对比。"思考型SFT":给模型看题目和完整的、逐步的推理过程,训练它写出详细的中间步骤再给出答案。"非思考型SFT":给模型看同样的题目,但只给它最终答案,不给推理过程,训练它直接输出结论。
两种模式使用的题目完全相同(都是从OpenThoughts-114K数据集中抽取的约4.35万道数学题),区别只在于监督的对象是"答案"还是"推理过程+答案"。
结果证明,"思考型SFT"是关键所在。在单独的数据稀缺场景和多数投票场景下,只经过持续预训练但没有思考型SFT的模型,进步极为有限甚至没有进步;只经过非思考型SFT的模型,在多数情况下也几乎没有改善;但经过思考型SFT之后,不管是否结合持续预训练,模型在新题目上的成绩都有了明显提升。
而当持续预训练和思考型SFT组合在一起时,效果是最强的——这个经过改造的Llama在数据仅有8条、答案有70%是错的、完全没有标准答案三种弱监督场景下,都展现出了有效的泛化能力。原本"一无是处"的Llama,通过这种预处理组合,成功"改命"了。
研究团队还进一步确认,思考型SFT之所以有效,是因为它真的提升了模型的推理忠诚度。训练过程中,经过思考型SFT的模型,其高忠诚度回答的比例明显高于其他配置,而且这种高忠诚度延长了"预饱和阶段",让模型能在弱监督信号下持续学习更长时间,最终学到真正能迁移的推理能力。
相比之下,那个在大量指令跟随、偏好优化等复杂流程上精调过的Llama-Instruct版本,反而在所有三种弱监督场景下几乎没有任何改善,甚至有所下滑。这是一个颇为讽刺的发现:经过复杂对齐训练的"成品"模型,反而比我们自己从基础模型出发,针对性地做预训练和思考型微调的版本,在弱监督学习上表现更差。原因可能在于:对齐训练改变了模型的输出风格,但并没有提升其推理忠诚度;而针对性的思考型SFT恰好做到了这一点。
---
说到底,这项研究传达的核心信息其实非常清晰:AI通过弱监督学到真本事,取决于它在训练前是否已经具备足够的"领域底气"和"逻辑自洽性"。就好比两个学生同时用一本残缺的习题册备考,一个从小扎实学数学、做题时思路清晰、推导过程和答案前后一致;另一个没什么基础、做题靠蒙,虽然偶尔蒙对了,但过程和答案对不上。前者能从残缺的练习中真正提高,后者不管练多少题,都只是在强化错误的应试习惯。
这对AI开发实践有两个直接的启示。其一,训练奖励的饱和速度是个值得密切关注的信号——如果奖励很快就到顶了,但下游任务没有进步,继续投入训练计算资源基本是白费;其二,当弱监督下的训练失败时,与其延长强化学习训练,不如把计算资源投入到更好的预训练和思考型监督微调上,这才是真正能撬动泛化能力的杠杆。
对于普通人来说,这项研究意味着:AI未来在越来越复杂、越来越难以核实的领域(比如医疗诊断、法律分析、科学推理)里学习进步,并不只是靠"多做题"就能解决的。AI需要先建立起扎实的"思维框架"和"逻辑自洽性",这才是弱监督学习能否成功的真正前提。
有兴趣深入阅读原始论文的读者,可以在arXiv平台上搜索论文编号arXiv:2604.18574,找到这项来自加州大学洛杉矶分校、纽约大学和谷歌研究团队的完整报告。
---
Q&A
Q1:带验证奖励的强化学习(RLVR)是什么意思,和普通的AI训练有什么区别?
A:RLVR是一种让AI做题、靠对错反馈来提升推理能力的训练方式。和普通的监督训练(直接让AI模仿正确答案)不同,RLVR只告诉AI"你答对了还是错了",不直接告诉它怎么答。这有点像学生做完题后只看到对错符号,而不是老师逐步讲解解题过程。这种方式在某些场景下能让AI学到更灵活的推理策略,但也存在本文探讨的各种局限。
Q2:推理忠诚度低的AI具体会有什么问题,怎么判断一个AI推理忠诚度高不高?
A:推理忠诚度低意味着AI写出来的推导过程和它最终给出的答案之间没有真正的逻辑联系——推导说该是A,答案却写了B。这类AI的正确答案很大程度上靠"记忆"或"猜测",而不是真正推理得来,因此换一道新题就容易失败。研究团队通过让大型AI(如OpenAI o3)评判每条回答的推理过程和答案是否逻辑一致来衡量忠诚度,分为完全一致、部分一致、不相关三个等级。
Q3:思考型SFT和非思考型SFT的实际差别是什么,为什么思考过程那么重要?
A:思考型SFT在训练时让模型看到完整的逐步推理过程,非思考型SFT只给模型看最终答案。实验发现,仅仅学习最终答案,模型倾向于记住"什么题对应什么答案",而不是理解"为什么这样算"。思考型SFT则强迫模型在训练时建立"推理过程与答案之间的逻辑链条",这种内化的思维框架让它在面对新题时,能真正用推理而不是记忆来解题,从而在弱监督环境下保持更长时间的有效学习。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。