微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI"开小差"遇上弱监督：UCLA、NYU等高校联合揭示大模型强化学习的成败秘密

大语言模型强化学习推理忠诚度

当AI"开小差"遇上弱监督：UCLA、NYU等高校联合揭示大模型强化学习的成败秘密

作者：科技行者

2026-04-29 10:16

分享至：

这篇由加州大学洛杉矶分校、纽约大学和谷歌联合完成的研究（arXiv:2604.18574，2026年4月）系统探究了大型语言模型在"弱监督"条件下能否通过强化学习真正提升推理能力。研究横跨Qwen和Llama两大模型家族及数学、科学、图论三个领域，发现成败的关键在于训练奖励饱和速度、推理忠诚度，而非输出多样性。结合持续预训练与思考型监督微调，原本完全失效的Llama模型在所有弱监督场景下都实现了有效泛化。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-29 10:16 • 科技行者

这项由加州大学洛杉矶分校、纽约大学和谷歌共同完成的研究，以预印本形式于2026年4月20日发布，论文编号为arXiv:2604.18574。有兴趣深入了解的读者可以通过该编号在arXiv平台找到完整论文。

**研究概要**

近几年，大型语言模型（也就是像ChatGPT这样的AI）在解题、推理这类"动脑"任务上的进步速度快得让人目瞪口呆。其中一种让这些AI变聪明的核心技术叫做"带验证奖励的强化学习"（Reinforcement Learning with Verifiable Rewards，简称RLVR）。用最直白的话说：就是让AI做题，做对了给奖励，做错了不给，靠着这种反馈让AI越来越会推理。

然而，这里有个越来越棘手的问题——随着AI越来越厉害，想要给它打分变得越来越难。就像考生比老师还强的时候，老师怎么知道这道题答对没有？标准答案可能不够用了，噪音数据、标注错误、甚至根本没有标准答案的情况，都会越来越普遍。于是，一个关键问题浮出水面：**当监督信号很弱甚至很不靠谱的时候，AI还能通过强化学习真正变聪明吗？**

这支来自UCLA、NYU和谷歌的研究团队，决定系统性地研究这个问题。他们横跨两大AI模型家族（Qwen和Llama），在数学、科学和图论三个推理领域，对三种"弱监督"场景——数据极少、答案带噪音、完全没有标准答案——进行了深度实验。他们发现的结论，既出人意料，又细思极恐，足以改变我们对AI学习机制的很多直觉认知。

**一、弱监督下的强化学习：一场关于"训练能量"的探索**

要理解这项研究在做什么，先得搞清楚什么叫"弱监督"。在最理想的情况下，AI做一道数学题，你给它看标准答案，告诉它对了还是错了，这叫强监督。但现实世界里，标准答案往往不完整：要么题目太少（数据稀缺），要么批改本身有错（答案带噪音），要么根本没有人工标准（只能靠AI自己互相打分）。这三种情况，研究团队都逐一测试了。

研究团队引入了一个非常有用的概念来描述AI训练的状态——"训练奖励饱和动态"。这个听起来很学术的词，其实有个非常生动的类比：就像给一块海绵灌水。海绵在刚开始吸水的时候，每加一点水都能有明显吸收，这叫"预饱和阶段"；但到了某个点，海绵吸满了，再往里倒水只会流走，这叫"饱和后阶段"。

在AI训练里，"奖励"就是那桶水，"海绵"就是AI学习推理能力的容量。研究发现，那些能真正从弱监督中学到东西的AI，在训练过程中会有一段相当漫长的"预饱和阶段"——它的训练奖励分数稳步上升，与此同时，在从未见过的新题目上的表现也同步提升。而那些失败的AI，则会非常快地"吸满水"，训练奖励迅速达到上限，但新题目上的表现却毫无提升，甚至下降。

这个发现极为关键，因为它给出了一个简单却有效的诊断工具：看训练奖励上升的速度和持续时间，就能预判这次强化学习训练会不会有效。

**二、数据越少越难学？Qwen和Llama的两种命运**

研究的第一个实验场景是"数据极度稀缺"。研究人员想知道：用极少的例子训练AI，它还能学到东西吗？他们测试了从8个到2048个不同数量的训练样本，横跨数学、科学和图论三个领域。

结果呈现出了鲜明的两种命运。Qwen系列模型（尤其是专门在数学数据上额外训练过的Qwen2.5-Math版本）即使只用8个训练样本，也能展现出明显的学习能力。在数学领域，这个模型的训练奖励能稳步上升超过300个训练步骤，而且在MATH-500、AMC等完全没见过的评测题目上，成绩也同步上升。更神奇的是，即便是在毫不相关的科学题目上，它的成绩也有提升——这说明它学到的是真正的"推理能力"，而不只是死记硬背了那8道题。

相比之下，Llama系列模型的命运就截然不同了。这类模型虽然被设计为通用指令跟随助手，但在数学、科学和图论领域都缺乏深度预训练。用8个样本训练时，Llama的训练奖励只用不到100步就迅速冲到了顶，也就是说它极快地"饱和"了。但此时它在新题目上的表现几乎毫无进步，甚至在某些指标上还有所下降。形象地说，Llama就像一块蜡，而不是海绵——表面上很快"填满"了，但实际上什么都没吸进去。

研究人员还发现了一个很有意思的现象：在用少量数据训练时，用8个样本训练达到的效果，和用2048个样本训练到同一"饱和点"时的效果，差距往往非常小。换句话说，在"预饱和阶段"学到的东西，数据量的多少并没有想象中那么重要。真正重要的是这个预饱和阶段持续多长。如果一个AI很快就饱和了，给它再多数据也没用；但如果它能保持很长时间的"吸收期"，哪怕只有几道题，也能学到真本事。

在图论领域，研究团队使用了更大的7B和8B参数规模的模型（因为小模型在这类任务上连生成有效答案都做不到）。结果发现，即便是在数学上训练有素的Qwen2.5-Math-7B，在面对图论这种完全陌生的领域时，也会比在数学领域饱和得更快。这说明"预训练的领域匹配度"至关重要——你的知识底子和任务类型越吻合，强化学习能挖掘的潜力就越大。

**三、答案打错了还能学？噪音实验揭示了什么**

第二个场景是"噪音奖励"——也就是训练时的答案标注里有一定比例是错的。研究人员设计了一个很聪明的实验：将一定比例（从0%到90%）的题目的正确答案，替换成模型自己最常犯的那个错误答案。这样就模拟了"答案批改有误"的真实场景。

实验结果再次显示了两类模型的巨大差异。对于Qwen系列在数学和科学领域的训练，即便有高达70%的答案被替换成错误的，模型依然能保持相当稳定的泛化能力——也就是在新题目上的成绩没有明显下滑。这意味着，只要有30%的正确标注，Qwen在这些领域就能维持有效学习。这种对噪音的超强抵抗力，令研究团队也感到惊讶。

但当噪音比例超过50%时，Qwen在图论领域，以及Llama在所有领域，都开始出现明显的性能下滑。而Llama在数学领域有一个特别值得警惕的现象：不管噪音比例是0%还是90%，它的训练奖励曲线几乎一模一样——也就是说，它对正确答案和错误答案的"接受度"几乎没有区别。这不是什么好事，恰恰说明Llama在以相似的速度和方式"记忆"正确答案和错误答案，而不是真正理解题目。就像一个学生背了一堆错题的答案，但因为从一开始就只是死记硬背，所以根本分不清对错。

**四、完全没有标准答案时，AI能靠自己学吗？**

第三个场景是最极端的：完全没有外部验证者，AI只能靠自己来打分。研究团队测试了两种自我监督奖励方式。

第一种叫"多数投票奖励"：让AI对同一道题生成16个回答，然后以"大多数AI给出的答案"作为伪标准答案，谁和这个多数答案一致就得分。第二种叫"自我确信奖励"：根据AI在生成答案时自己有多"自信"（通过数学方式测量它的输出分布）来给分，越自信越多分。

结果显示，这两种方法在绝大多数场景下都会导致严重的"奖励黑客行为"——AI学会了"钻空子"而不是真正学习。以多数投票为例，研究团队发现了一个触目惊心的案例：训练到第846步时，同一个Qwen2.5-3B模型对"配制蔗糖溶液"和"计算转动惯量最大角速度"这两道截然不同的题，都给出了同一个答案"0"。模型没有在学解题，而是学会了"所有题都答0，因为同学们也都答0，我就能得满分"。这种现象，就像期末考试大家互相抄答案，抄着抄着全班都答了同一个错误答案，但每个人都因为和别人一致而"得了满分"。

自我确信奖励则导致了更直接的崩溃：模型开始无限重复简单词汇或固定句式，因为这样能让它对自己的输出"非常确信"，从而得到高分，但输出的内容毫无意义。

唯一的例外是：专门在数学上大量预训练过的Qwen-Math模型，在数学领域使用多数投票时，能勉强维持一段时间的有效学习，但最终也会开始下滑。这再次印证了一点：预训练的深度，决定了AI在弱监督下能走多远。

**五、为什么失败？是"不够多样化"还是"没有推理忠诚度"？**

发现了现象之后，研究团队开始追问原因。一个自然的猜测是：Llama等模型失败，是因为它们生成的答案不够多样、"探索"能力不足，导致训练信号很快耗尽。这个猜测听起来很有道理——好像一个学生做题，如果每次思路都一模一样，自然很快就"学完了"。

然而实验打脸了这个猜测。研究团队用一套精密的方法测量了各个模型在训练过程中答案的"语义多样性"——不是看字面上有多不同，而是看思路和策略有多不同。结果发现，Llama的答案多样性反而比Qwen高，而且在训练饱和之后，Llama的多样性还在持续攀升。从表面上看，Llama"更爱探索"。但它的评测成绩更差。

这说明，多样性本身根本不是关键。关键在于另一个维度：研究团队称之为"推理忠诚度"（Reasoning Faithfulness）。这个概念的核心是：AI给出的答案，和它自己写出的推理过程，是否逻辑一致、互相支撑？

通俗地说，就是"作文里有没有偷偷换答案"。你写了一大段推导过程，最后说答案是35，但推导过程明明应该得出42——这种答案虽然可能碰巧是对的，但推理过程和答案不吻合。这样的回答就是"低忠诚度"的回答。

研究团队用大型AI模型（OpenAI o3）来判断每一条回答的忠诚度，并计算不同模型在训练过程中"高忠诚度"回答的比例。结果发现，在数学领域，Llama的高忠诚度比例显著低于Qwen，而且在训练过程中几乎没有提升。这意味着Llama大量正确的答案，其实是靠"猜"或"记忆"得来的，推理过程只是一个装饰品，与最终答案没有真正的逻辑联系。

研究团队还将"多样性"和"忠诚度"结合起来，计算"忠诚多样性"——只统计那些推理过程和答案一致的回答的多样性。这个指标就很有区分度了：Qwen在忠诚多样性上持续高于Llama，而Llama那些看似丰富多样的回答，大部分其实属于"推理过程和答案对不上"的低质量多样性。

由此得出一个非常重要的结论：**不是多样性预测泛化能力，而是忠诚多样性才能预测泛化能力。** 单纯的输出多样性可能只是AI"乱说话"的表现，而不是真正在探索不同的解题思路。

**六、找到了问题，那怎么修？**

研究的最后一部分，研究团队把目光聚焦在一个关键问题上：既然忠诚度决定成败，那能不能在强化学习之前，先"给AI补一补忠诚度"？

他们选择了Llama3.2-3B-Base作为实验对象（因为它在所有场景下失败得最彻底），并设计了一套"改造流水线"，包含两个干预手段。第一个叫"持续预训练"（Continual Pre-Training，CPT）：在基础模型上，再用大约520亿个数学相关的文本继续训练，让它对数学领域有更深的先验知识。第二个叫"监督微调"（Supervised Fine-Tuning，SFT）：用已有的数学题和对应的完整推理过程来微调模型。

关键在于，研究团队把SFT分成了两种模式来对比。"思考型SFT"：给模型看题目和完整的、逐步的推理过程，训练它写出详细的中间步骤再给出答案。"非思考型SFT"：给模型看同样的题目，但只给它最终答案，不给推理过程，训练它直接输出结论。

两种模式使用的题目完全相同（都是从OpenThoughts-114K数据集中抽取的约4.35万道数学题），区别只在于监督的对象是"答案"还是"推理过程+答案"。

结果证明，"思考型SFT"是关键所在。在单独的数据稀缺场景和多数投票场景下，只经过持续预训练但没有思考型SFT的模型，进步极为有限甚至没有进步；只经过非思考型SFT的模型，在多数情况下也几乎没有改善；但经过思考型SFT之后，不管是否结合持续预训练，模型在新题目上的成绩都有了明显提升。

而当持续预训练和思考型SFT组合在一起时，效果是最强的——这个经过改造的Llama在数据仅有8条、答案有70%是错的、完全没有标准答案三种弱监督场景下，都展现出了有效的泛化能力。原本"一无是处"的Llama，通过这种预处理组合，成功"改命"了。

研究团队还进一步确认，思考型SFT之所以有效，是因为它真的提升了模型的推理忠诚度。训练过程中，经过思考型SFT的模型，其高忠诚度回答的比例明显高于其他配置，而且这种高忠诚度延长了"预饱和阶段"，让模型能在弱监督信号下持续学习更长时间，最终学到真正能迁移的推理能力。

相比之下，那个在大量指令跟随、偏好优化等复杂流程上精调过的Llama-Instruct版本，反而在所有三种弱监督场景下几乎没有任何改善，甚至有所下滑。这是一个颇为讽刺的发现：经过复杂对齐训练的"成品"模型，反而比我们自己从基础模型出发，针对性地做预训练和思考型微调的版本，在弱监督学习上表现更差。原因可能在于：对齐训练改变了模型的输出风格，但并没有提升其推理忠诚度；而针对性的思考型SFT恰好做到了这一点。

---

说到底，这项研究传达的核心信息其实非常清晰：AI通过弱监督学到真本事，取决于它在训练前是否已经具备足够的"领域底气"和"逻辑自洽性"。就好比两个学生同时用一本残缺的习题册备考，一个从小扎实学数学、做题时思路清晰、推导过程和答案前后一致；另一个没什么基础、做题靠蒙，虽然偶尔蒙对了，但过程和答案对不上。前者能从残缺的练习中真正提高，后者不管练多少题，都只是在强化错误的应试习惯。

这对AI开发实践有两个直接的启示。其一，训练奖励的饱和速度是个值得密切关注的信号——如果奖励很快就到顶了，但下游任务没有进步，继续投入训练计算资源基本是白费；其二，当弱监督下的训练失败时，与其延长强化学习训练，不如把计算资源投入到更好的预训练和思考型监督微调上，这才是真正能撬动泛化能力的杠杆。

对于普通人来说，这项研究意味着：AI未来在越来越复杂、越来越难以核实的领域（比如医疗诊断、法律分析、科学推理）里学习进步，并不只是靠"多做题"就能解决的。AI需要先建立起扎实的"思维框架"和"逻辑自洽性"，这才是弱监督学习能否成功的真正前提。

有兴趣深入阅读原始论文的读者，可以在arXiv平台上搜索论文编号arXiv:2604.18574，找到这项来自加州大学洛杉矶分校、纽约大学和谷歌研究团队的完整报告。

---

Q&A

Q1：带验证奖励的强化学习（RLVR）是什么意思，和普通的AI训练有什么区别？

A：RLVR是一种让AI做题、靠对错反馈来提升推理能力的训练方式。和普通的监督训练（直接让AI模仿正确答案）不同，RLVR只告诉AI"你答对了还是错了"，不直接告诉它怎么答。这有点像学生做完题后只看到对错符号，而不是老师逐步讲解解题过程。这种方式在某些场景下能让AI学到更灵活的推理策略，但也存在本文探讨的各种局限。

Q2：推理忠诚度低的AI具体会有什么问题，怎么判断一个AI推理忠诚度高不高？

A：推理忠诚度低意味着AI写出来的推导过程和它最终给出的答案之间没有真正的逻辑联系——推导说该是A，答案却写了B。这类AI的正确答案很大程度上靠"记忆"或"猜测"，而不是真正推理得来，因此换一道新题就容易失败。研究团队通过让大型AI（如OpenAI o3）评判每条回答的推理过程和答案是否逻辑一致来衡量忠诚度，分为完全一致、部分一致、不相关三个等级。

Q3：思考型SFT和非思考型SFT的实际差别是什么，为什么思考过程那么重要？

A：思考型SFT在训练时让模型看到完整的逐步推理过程，非思考型SFT只给模型看最终答案。实验发现，仅仅学习最终答案，模型倾向于记住"什么题对应什么答案"，而不是理解"为什么这样算"。思考型SFT则强迫模型在训练时建立"推理过程与答案之间的逻辑链条"，这种内化的思维框架让它在面对新题时，能真正用推理而不是记忆来解题，从而在弱监督环境下保持更长时间的有效学习。

大语言模型强化学习推理忠诚度

分享至