微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

突破数学题的天花板：通用推理大模型如何实现全领域思维能力提升

大语言模型强化学习通用推理

突破数学题的天花板：通用推理大模型如何实现全领域思维能力提升

作者：科技行者

2025-05-26 08:18

分享至：

这项研究突破了大语言模型推理能力主要局限于数学和编程领域的限制，提出了"General-Reasoner"训练方法，使模型能够在物理、化学、金融等多领域展现高水平推理能力。研究团队构建了包含23万个跨学科问题的高质量数据集，并开发了基于生成式模型的答案验证器，取代传统规则验证方法。实验证明，该方法在MMLU-Pro等12个基准测试中表现优异，成功实现了全领域的推理能力提升，同时保持了在数学任务上的卓越表现。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 08:18 • 科技行者

这项由滑铁卢大学和Vector研究所、TikTok新加坡以及M-A-P合作完成的开创性研究《General-Reasoner: Advancing LLM Reasoning Across All Domains》于2025年5月20日在arXiv(arXiv:2505.14652v1)上发表。该研究由Xueguang Ma、Qian Liu、Dongfu Jiang、Ge Zhang、Zejun Ma和Wenhu Chen共同完成，有兴趣深入了解的读者可以通过https://tiger-ai-lab.github.io/General-Reasoner/访问该项目主页。

一、背景：为什么现有AI推理能力局限于数学领域？

想象一下，你有一个非常聪明的朋友，他可以解决各种复杂的数学问题，但当你询问关于物理、化学或经济学的问题时，他却经常摸不着头脑。这就是目前大语言模型(LLM)面临的困境。

近年来，研究人员发现强化学习(RL)技术能够大幅提升大语言模型的推理能力。尤其是由DeepSeek-R1-Zero团队开发的"零强化学习"(Zero RL)方法，证明了我们可以直接通过强化学习训练基础模型，而不需要先进行监督微调。这就像是直接教会一个初学者解决复杂问题，而不需要先给他上一堂基础课程。

然而，现有的研究几乎都集中在数学和编程领域。为什么呢？有两个主要原因：

首先是数据丰富度问题。互联网上充斥着大量的数学竞赛题和编程挑战，这些都是现成的高质量训练材料。就像你很容易找到数学课本和习题集，但可能很难找到一套覆盖所有学科的完整教材。

其次是答案验证的简便性。在数学问题中，验证答案是对是错非常直接——2+2=4永远是对的，2+2=5永远是错的。这种规则化的验证方式使得AI可以清晰地知道自己的回答是否正确，从而有效学习。就像在考试中，有一个标准答案可以对照，学习效果会更好。

这种局限性导致了一个严重问题：即使训练出在数学推理上表现出色的模型，也不一定能在其他领域表现良好。例如，研究发现虽然S1/S1.1模型在数学分数上显著提高，但在更广泛的MMLU-Pro测试中反而下降了4-6%的分数。这就像一个只学习数学的学生，可能在物理或化学考试中表现不佳。

二、创新突破：如何打造通用推理能力？

研究团队提出了一个新的训练范式，旨在增强大语言模型在各种非数学领域的推理能力，同时保持其在数学领域的强大表现。他们的方法解决了前面提到的两个核心问题：数据匮乏和答案验证困难。

### 通用领域推理数据集的构建

首先，研究团队构建了一个名为"WebInstruct-verified"的大规模、高质量数据集。想象一下，这就像是为AI打造了一套覆盖各个学科的百科全书，而不仅仅是一本数学教材。

他们的数据收集过程可以比作一次精心策划的图书馆建设工程：

第一步是从网络上抓取大量的问答对。团队以WebInstruct数据集为基础，这个数据集包含约500万个来自高质量资源网站的指令，如StackExchange和各种教育门户。但这些原始数据就像是一座杂乱的图书馆，需要进一步整理。

接下来，他们使用Gemini-1.5-Pro这个强大的语言模型作为"图书管理员"，从中筛选出约100万个具有明确可验证答案的推理问题。这些问题跨越了物理、化学、社会科学和金融等多个学科。

然后，他们使用Gemini-2.0-Flash为每个问题标注元数据，包括答案类型、学科类别和难度水平。这就像是为每本书贴上分类标签，方便日后查找和使用。

考虑到数学问题在原始数据中占比过高，研究团队特意过滤掉了低于大学水平的数学问题，以确保数据集的均衡性。这就像确保图书馆不仅仅收藏数学书籍，而是各个学科的书籍都有合理的比例。

最后，为了进一步提高数据质量，对于每个问题，Gemini-2.0-Flash生成八个候选解答。研究团队排除了那些所有八个解答都失败的问题（可能是模糊或有噪声的问题），也排除了过于简单的问题（所有八个解答都正确）。这确保了最终的数据集既具有挑战性又是可靠的。

经过这一系列精心筛选，最终的数据集包含约23万个高质量推理问题，覆盖了多种答案格式（如选择题、数值表达式、矩阵等）和多个学科领域（如数学、物理、化学、金融等）。

### 创新的基于模型的答案验证器

除了扩展数据规模，研究团队还解决了第二个核心挑战：如何有效验证不同领域中的各种答案类型。

传统的基于规则的验证器在数学领域表现良好，但在处理更广泛领域中多样化的答案格式时面临严重限制。这就像一个只会判断选择题的老师，遇到论述题就无从下手了。

研究团队引入了一个紧凑的生成式模型验证器（仅1.5B参数），专门训练用于以链式思考的方式验证短答案，从而为强化学习提供可靠的奖励信号。

这个验证器可以看作是一个"智能老师"，不仅能判断答案是对是错，还能理解答案背后的逻辑和上下文。例如，当面对"4 + 8t, 1 + 2t, 17 - t"和"x = 4 + 8t, y = 1 + 2t, z = 17 - t"这两个表面上不同但实质等价的表达式时，传统验证器可能会判定为错误，而新的基于模型的验证器能够识别它们的等价性。

这个验证器基于Qwen2.5-Math-1.5B模型，经过微调后能够评估学生生成的短答案是否与参考答案在问题上下文中等价。这种方法无缝集成到强化学习管道中，提供了准确、可靠的奖励信号。经验分析证实，这个基于模型的验证器与Gemini-2.0-Flash达成了高度一致，远远优于传统的基于规则的方法。

三、训练过程与模型实现

研究团队采用零强化学习（Zero RL）设置，直接从基础大语言模型开始进行强化学习，而不经过中间的监督微调阶段。具体来说，他们使用Qwen2.5系列（7B和14B）和更新的Qwen3系列（4B和14B）作为基础模型，应用GRPO（Group Relative Policy Optimization）算法进行训练。

可以把这个过程想象成教导一个聪明但缺乏经验的学生。研究团队不是先给这个学生上一堂基础课（监督微调），而是直接让他通过实践和反馈来学习（强化学习）。

在训练过程中，如果模型无法提取解决方案（例如，没有标记答案或总结），奖励为-0.5。如果解决方案通过验证，基础奖励为1，同时应用基于长度的惩罚以阻止过长的生成：

惩罚 = -0.05 × min(10, abs(参考答案长度 - 生成答案长度))

这就像是教导学生不仅要给出正确答案，还要学会简洁明了地表达。

训练在4个节点上进行，每个节点配备8个H100 GPU，Qwen2.5系列模型训练最多700步，Qwen3系列模型训练最多400步。在训练期间，平均模型响应长度从约700个token增加到约1000个token。7B/4B模型的总训练时间约为2天，14B模型约为4天。

四、评估方法与实验结果

为了全面评估模型的通用推理能力，研究团队在多个具有挑战性的基准测试上进行了评估：

MMLU-Pro：一个强大且具有挑战性的大规模多任务理解数据集，专为更严格地评估大语言模型的能力而设计。 SuperGPQA：一个面向285个不同学科的研究生水平推理的大规模基准测试。所有问题都经过验证，确保在Google搜索中找不到。 BBEH：一个扩展BIG-Bench Hard的新基准测试，引入更具挑战性的任务，以更好地评估复杂推理能力。 GPQA：设计用于抵抗浅层模式匹配或记忆的研究生水平问答。研究团队使用了GPQA中的钻石分集。 TheoremQA：需要了解相应定理的研究生水平问答，覆盖数学、物理、电子和计算机科学以及金融领域。数学相关任务：一套标准数学推理基准测试，包括MATH-500、奥林匹克、Minerva、GSM8K、AMC、AIME24和AIME25。

研究结果令人振奋。在一般推理基准测试中，General-Reasoner与零强化学习一致地优于Qwen2.5和Qwen3骨干网络的基础模型和监督微调模型。

对于基于Qwen2.5-7B-Base的模型，General-Reasoner在MMLU-Pro上达到58.9%，超过了基础模型的47.7%和指令模型的57.0%。这些收益也扩展到了GPQA和SuperGPQA。14B骨干网络也有类似的改进：General-Reasoner-Qw2.5-14B在MMLU-Pro上达到66.6%，优于Qwen2.5-14B-Base的53.3%和Qwen2.5-14B-Instruct的62.7%。在数学相关基准测试上，它也表现出色，7B和14B变体都达到了较高的平均分数。

与其他强化学习方法相比，General-Reasoner在MMLU-Pro、GPQA、SuperGPQA和BBEH上一致地优于SimpleRL和Nemotron-CrossThink。这一趋势在14B模型中也保持不变，General-Reasoner取得了最佳整体结果。

使用Qwen3骨干网络初始化General-Reasoner时，观察到更强的结果。例如，General-Reasoner-4B在零强化学习后超过了Qwen2.5-7B，在MMLU-Pro上达到62.8%，而后者为58.9%。这证明了研究团队的训练方法具有效率和可转移性。

表现最佳的版本是General-Reasoner-Qw3-14B，在GPQA上达到56.1%，在TheoremQA上达到54.4%，与商业模型GPT-4o（分别为50.0%和43.6%）相当，尽管仅仅依靠零强化学习。与经过更大教师模型蒸馏后训练的Qwen3-14B-Instruct（非思考）相比，研究团队的模型在许多基准测试上保持优势。

值得注意的是，该模型没有表现出过度思考的问题。在训练过程中，平均响应长度增长到约1000个token，明显短于DeepScaleR等方法（输出可达32k token）。例如，在MMLU-Pro的计算机科学分集上，DeepScaleR-1.5B-Preview需要18分钟在4个H100 GPU上达到35%的准确率，而General-Reasoner-4B仅用1.5分钟就达到了61%的更高准确率。

五、深入分析：数据多样性与模型验证器的影响

为了量化训练数据中领域多样性对推理性能的影响，研究团队比较了两种零强化学习设置：一种在全面、多样化领域的数据集上训练，另一种仅在数学相关问题上训练。

对于7B骨干网络，限制训练到数学任务在数学相关基准测试上获得了一点点提升（49.1%对比48.5%），但牺牲了通用推理能力：与全数据模型相比，MMLU-Pro、GPQA和SuperGPQA的表现各下降了约2个百分点。相比之下，在全数据集上训练的模型在所有基准测试中都取得了更强的表现，展示了更通用的推理能力。

14B骨干网络表现出更明显的数据多样性益处。使用全数据，General-Reasoner-Qw2.5-14B在每个指标上都优于其只训练数学的对应版本，改善了一般性基准测试的表现。这些结果证实，在多样化推理领域上训练既增强了一般推理能力，同时也维持或改进了数学推理能力。

此外，研究团队还验证了其基于模型的验证器的有效性。他们比较了使用基于模型的验证器或传统基于规则的验证器训练的模型，两者都在相同条件下训练Qwen3-4B-Base模型120步。

结果显示，使用基于模型的验证器训练的模型在所有评估的基准测试中达到了更高的准确率。在MMLU-Pro上的详细比较表明，基于规则的验证器在约60步时早早达到平台期（约58%），而基于模型的验证器继续改进，到第120步时达到约60%的准确率。这证明了基于模型的验证器有效地指导强化学习，使模型能够更好地利用多样化的训练数据，最终实现更强的整体推理表现。

为进一步评估基于模型的验证器相比基于规则的验证器的优势，研究团队研究了它们与Gemini-2.0-Flash的一致性。基于规则的验证器的一个关键限制是其高假阴性率。在Gemini认为正确的5万个答案验证对样本中，基于规则的验证器平均只达到22.2%的一致性，而基于模型的验证器达到了78.7%。

不同答案类型的分析显示，假阴性在非结构化答案类型（如列表或字符串）中最为普遍。即使在结构化格式如多项选择中，答案以文本描述而非选项字母表示等变化也会导致差异。领域层面的分析表明，基于模型的验证器对非数学STEM领域如物理和工程特别有益，这些领域的答案格式多样。相比之下，经济学等使用更多结构化答案（如多项选择题）的领域，两种验证器的性能差距较小。

六、总结与未来展望

这项研究提出了一种范式，通过利用基于模型的验证器来扩展可验证的训练数据跨越多样化领域，从而增强大语言模型的通用推理能力。通过直接对基础大语言模型应用GRPO训练，研究团队展示了这种方法在不需要额外监督微调阶段的情况下，也能取得与需要这一阶段的模型相竞争的推理表现。

研究团队的方法在各种具有挑战性的领域中实现了强大的泛化，同时在数学推理任务中保持了卓越的有效性。研究团队通过构建全领域的高质量数据集，并开发了能够理解语义等价的验证器模型，有力地解决了阻碍大语言模型推理能力发展的两大核心瓶颈。

未来的工作可能集中在探索这种方法如何与中间阶段（如监督微调或蒸馏）结合时的影响，这有望进一步提高性能。此外，将这一框架扩展到代码推理或奥林匹克级数学竞赛等专业推理领域也是一个有价值的未来方向。

总的来说，General-Reasoner代表了人工智能推理能力发展的重要一步，使得大语言模型能够超越数学和编程领域，在更广泛的学科中展现出可靠的推理能力。这为构建真正通用的人工智能系统铺平了道路，这些系统能够在复杂的多领域现实世界场景中为人类提供支持。

大语言模型强化学习通用推理

分享至