大型语言模型(LLM)在自然语言处理领域已取得令人瞩目的成功,而强化学习在适应这些模型到特定应用中发挥了关键作用。然而,在数学问题求解领域,获取标准答案作为训练数据却面临着巨大挑战——这一过程不仅耗费大量人力物力,有时甚至不可行。针对这一痛点,来自百川智能、清华大学和哈尔滨工业大学的研究团队(包括辛日辉、刘晗、王泽成、张宇鹏、隋殿博、胡晓林和王冰宁等研究者)在2025年5月26日发表的论文《Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers》中提出了一种突破性方案,探索利用答案的格式和长度作为替代信号来训练大型语言模型解决数学问题,无需传统的标准答案。
想象一下,如果你有一位非常聪明的学生,他已经掌握了数学和逻辑推理技能,但在考试中表现不佳。问题不在于他不懂数学,而是他不知道如何规范地作答。这位学生只需要培养良好的答题习惯,就能在考试中取得优异成绩。这正是研究团队对大型语言模型训练的全新理解——基础模型就像这位学生,它已经拥有解决问题的能力,只是需要学会如何正确地表达。
研究团队发现,在强化学习训练的初期阶段(大约前15步),专注于答案格式正确性的奖励函数就能带来与标准GRPO(Group Relative Policy Optimization,一种强化学习算法)相当的性能提升。换句话说,仅仅教会模型"如何规范地写出答案",就能解锁它已经潜在掌握的大部分数学推理能力。这个发现令人惊讶,因为它表明模型在预训练阶段已经学到了数学推理能力,只是需要一个"正确的表达方式"。
随着训练的深入,研究团队意识到仅依靠格式作为奖励信号存在局限性,因此他们进一步引入了基于答案长度的奖励。这种格式-长度结合的奖励方案不仅匹配,有时甚至超越了依赖标准答案的传统GRPO算法,在AIME2024测试集上使用7B基础模型达到了40.0%的准确率。
这项研究不仅提供了一种实用的解决方案,让我们能够在缺乏大量标准答案数据的情况下训练语言模型解决数学问题,更重要的是揭示了一个深刻的洞察:语言模型的能力并不总是需要通过提供正确答案来培养,有时只需要引导它们采用正确的表达方式,就能释放出它们已经具备的潜能。
一、研究背景与挑战
我们先来想象一个场景:你有一个聪明的学生,他理解数学原理和推理逻辑,但写答案时总是格式混乱、表述不清。如果你只教他如何规范地组织答案,而不解释任何数学知识,他的考试分数可能会显著提高。这正是百川智能研究团队发现的关键洞察——大型语言模型(LLM)在预训练阶段已经学习了复杂的数学和逻辑推理技能,但它们需要学习如何以结构化的方式表达这些推理。
目前,训练大型语言模型解决数学问题通常依赖于强化学习,特别是GRPO(Group Relative Policy Optimization)等算法。这些方法需要大量的标准答案作为训练信号,模型通过反复对比自己的解答与标准答案来改进。然而,在数学问题领域,获取准确的标准答案需要大量的专业知识和人工评审,有时甚至无法获得足够的标准答案。
研究团队提出了一个大胆的问题:我们能否不依赖标准答案,而是使用其他信号来训练模型解决数学问题?这就像是教学生答题时,不告诉他具体的解题步骤,而是教他"答案应该是什么样子的"和"合适的答案通常有多长"。
二、创新方法:格式和长度作为替代信号
研究团队提出了一种基于答案的格式和长度作为替代信号的强化学习方法。这种方法的核心是设计两种类型的奖励函数,完全不依赖于标准答案。
第一种是格式奖励。想象你在教学生如何规范地组织答案——数学解答需要清晰的步骤,最终答案应该放在特定的位置(如用\boxed{}括起来)。格式奖励就是检查模型的输出是否遵循了这些规则,如果是,模型就获得正向反馈;如果不是,则获得负向反馈。具体来说,格式奖励被设计为一个二元函数:
Rf = { 1 如果格式正确 0 如果格式错误 }
这类似于老师批改作业时,首先检查答案是否有正确的格式,而不是立即判断答案内容是否正确。
第二种是长度奖励。在数学问题解答中,答案的长度往往是内容质量的间接指标。太短的答案可能缺少必要的推理步骤,而过长的答案可能包含冗余或错误的推导。长度奖励函数被设计为一个分段函数,鼓励模型生成长度适中的回答:
当答案长度在合理范围内时,奖励随着长度增加而增加,直到达到一个理想的长度点(可调节参数p);超过这个点后,奖励随着长度继续增加而减少,以惩罚过长的回答。这就像告诉学生:"你的解答要详细,但不要冗长;要包含所有必要步骤,但不要重复或写无关内容。"
最终,研究团队将这两种奖励结合起来。如果答案格式正确,模型会得到格式奖励加上长度奖励;如果格式错误,即使长度理想,模型最多只能得到0分或负分。这个综合奖励函数引导模型首先学习正确的答案格式,然后优化答案的长度和内容。
三、实验设置与评估方法
为了验证这种不依赖标准答案的训练方法的有效性,研究团队设计了一系列精心控制的实验,就像对比不同教学方法效果的教育实验。
研究团队使用了三种不同的奖励配置进行实验: 1. 正确性奖励(作为基线):这是传统方法,模型的输出与标准答案进行精确匹配,完全正确得1分,否则得0分。 2. 仅格式奖励:只考虑模型输出的格式是否正确,不关心答案内容。 3. 格式-长度奖励:结合格式正确性和适当的答案长度作为奖励信号。
研究使用了两个数学推理数据集进行训练:DeepScaleR(包含17,000个样本)和MATH-train(包含7,500个样本)。这些数据集整合了来自MATH、AMC和AIME等数学竞赛的问题。
在评估方面,团队在三个数据集上测试了模型性能:MATH500、AIME2024和AMC2023。这些数据集代表了不同难度和类型的数学问题,从而全面评估模型的数学推理能力。
实验使用的基础模型是Qwen2.5-Math-7B,所有训练都在配备8块H20 GPU的机器上进行,每次训练运行耗时约6小时。这就像为不同的教学方法创建完全相同的测试环境,确保比较结果的公平性。
四、研究发现:格式的神奇力量
实验结果令人惊讶,就像发现一种简单的教学技巧能显著提高学生成绩一样。研究团队发现,在GRPO训练的初始15步中,仅使用格式奖励的模型性能与使用标准答案奖励的模型表现相当。这表明在训练初期,模型主要专注于学习数学解答的结构模式,这个阶段占整个训练过程性能提升的约85%。
想象一下,你在教一个学生解题,首先教他如何组织答案——先写清问题,然后列出已知条件,接着一步步推导,最后把答案放在特定位置。即使你没有告诉他具体的解题方法,他也能通过这种结构化的思考方式显著提高解题能力。这就是格式奖励在初期训练中的作用。
此外,研究团队观察到,在这个阶段,模型输出的长度显著减少。这表明模型迅速学会了消除冗余信息,转向更结构化和高效的表示方式。这就像学生学会了不再写无关内容,而是直接切入问题核心。
然而,仅依靠格式奖励存在局限性。当训练超过15步后,仅使用格式奖励的模型性能几乎不再提升。这表明模型学会了正确的答案格式后,如果没有其他指导,就无法进一步优化答案内容。这就像学生掌握了答题格式,但如果没有进一步的指导,无法提高答案的质量。
五、格式-长度结合的威力
为了解决仅依靠格式奖励的局限性,研究团队将长度奖励整合到格式奖励中。这种组合产生了令人惊喜的结果。
使用格式-长度奖励训练的模型在数学问题求解方面展现出显著优势。在使用DeepScaleR训练数据集时,格式-长度奖励模型的平均分数达到56.8,超过了正确性奖励基线的53.0分。特别是,使用MATH训练数据集时,格式-长度奖励模型在AIME2024上达到了40分的成绩。这表明,即使没有直接的答案监督,纯粹依靠结构和长度信号也能够引导模型生成高质量的解决方案,有时甚至超过传统方法。
这就像发现一种教学方法,不需要告诉学生具体的答案,只需指导他们如何组织思路和控制答案的详细程度,就能使他们表现得比传统教学方法更好。
六、答案长度的动态变化揭示深层学习过程
研究团队通过分析不同奖励训练下模型输出长度的变化,揭示了一个有趣的学习动态。使用格式-长度奖励训练的模型展现出一个独特的双阶段长度演化过程,这与使用正确性奖励或仅格式奖励训练的模型形成鲜明对比。
在所有奖励配置下,初始30个训练步骤中,模型输出的平均长度都会减少。这表明模型在这个阶段优先考虑格式符合性,剪掉冗余内容以满足结构约束。
随着训练从第30步到第100步推进,长度奖励机制开始发挥主导作用,推动答案内容的策略性扩展。与简单的长度惩罚不同(后者可能以牺牲深度为代价鼓励简洁),格式-长度奖励的GRPO培养了一个最优平衡点。它鼓励更长的思考过程,同时阻止不必要的冗长。
这种动态反映了人类解决问题的过程,先建立结构框架,然后迭代细化内容。在最后阶段,模型的回答长度平均增加了14.0%,这与DeepScaleR训练上的平均准确率提高10.5%相关,表明长度作为推理复杂性而非冗余的代表。
这种双阶段演化类似于中文谚语"先薄后厚"的学习过程。在第一阶段,模型类似于人类概括,压缩单个推理过程;在第二阶段,它扩展和泛化,探索更多样化和复杂的推理路径,如错误修正和分支探索。相比之下,正确性奖励基线和仅格式奖励模型在尝试探索复杂推理后,最终回到了压缩单个推理过程的"舒适区"。
七、对不同难度问题的影响分析
为了深入了解格式-长度奖励如何影响模型的数学问题解决能力,研究团队分析了具有官方难度评级的MATH500数据集。研究发现,到训练结束时,格式-长度模型在所有难度级别上都优于正确性奖励基线。
回答长度与推理性能之间的关系进一步揭示了这些结果背后的机制。两种模型都为更高难度的问题生成更长的回答。但在调整策略上存在明显差异:正确性奖励基线模型初期输出长度快速下降后趋于稳定,而格式-长度模型在中期阶段表现出长度增加,尤其是对高难度问题。这种长度增加与准确率提高正相关,表明长度奖励鼓励模型采用更全面的推理策略,特别是在处理复杂任务时。
研究团队通过分析模型生成的回答中反思性词语的频率,深入探究了模型的推理过程。反思性词语包括与验证(wait/verify/check)、回顾(recall/recheck)、分支探索(alternatively)、逻辑转变或对比(however/but/since)以及问题分解和步骤推理(step/step-by-step)相关的词语。
正确性奖励基线模型在初期反思性词语增加,后期趋于平稳,与其有限的性能提升相符。相比之下,格式-长度模型的反思性词语显著增加,特别是对高难度问题。这表明长度信号有助于增加思考深度,使模型更多地参与复杂推理行为如验证、回顾和问题分解。这种增强的反思性思考允许模型更好地探索不同的解决路径和逻辑转折,从而提高其处理高难度问题的能力。
八、无需标准答案训练的深层机制
研究团队的无需标准答案的强化学习方法取得了令人印象深刻的性能,这引发了一个问题:为什么不需要显式答案监督的强化学习能够达到甚至超越传统基于答案的方法的效果?
答案在于预训练语言模型中已经编码的潜在知识。在强化学习微调之前,这些模型已经从多样化的语料库中吸收了大量知识,使它们潜在具备生成正确答案的能力——强化学习仅作为激活这种潜在能力的催化剂。
研究团队的pass@N实验提供了这一机制的有力证据。通过为每个问题生成N个不同的回答并评估它们中是否存在正确答案,团队观察到四种条件下(预训练模型、GRPO正确性微调模型、GRPO格式微调模型和GRPO格式-长度微调模型)的pass@N分数相当。这种一致性表明,所有强化学习变体都未能传授新知识;相反,它们优化了模型如何检索和构建现有知识。
本质上,研究发现表明,只要训练机制能够激活模型的潜在认知能力,显式的标准答案就成为一个可选组件而非高性能强化学习在数学推理任务中的必要条件。这就像教师不需要告诉学生具体答案,而是通过适当的引导和反馈,激活学生已有的知识和推理能力。
九、研究启示与未来方向
这项研究对语言模型训练和数学推理领域的启示深远。首先,它挑战了我们对强化学习训练的传统理解—标准答案不再是必需品,格式和长度等替代信号能够高效引导模型学习。这大大降低了训练数据的收集成本和复杂性。
其次,研究揭示了预训练语言模型已具备的潜在能力。这些模型在预训练阶段已经学习了数学推理所需的知识和逻辑,强化学习只是帮助它们学习如何更好地表达和组织这些知识。这就像一个已经掌握了知识但不知如何在考试中表达的学生,只需要合适的指导就能释放潜能。
最后,研究提供了一种高效的训练范式,适应于标准答案稀缺或不可用的场景。在教育技术、自动评分系统和内容生成工具等领域,这种方法可能带来显著的进步。
研究团队计划在未来工作中进一步优化信号利用,并扩展应用范围,以增强大型语言模型的训练效率和泛化能力。这就像开发更先进的教学方法,让学生在更少的指导下学到更多。
总结来说,百川智能和合作伙伴的这项研究表明,在训练语言模型解决数学问题时,我们可以不依赖于标准答案,而是通过格式和长度等替代信号引导模型学习。这种方法不仅在实用性上提供了显著优势,降低了对大量标准答案数据的依赖,而且在理论上揭示了语言模型学习的深层机制——预训练模型就像一个已经掌握了知识但需要学习如何表达的学生,只需合适的指导就能释放潜能。
这项研究不仅为数学问题求解领域提供了新的训练方法,也为我们理解和优化语言模型的学习过程提供了宝贵的洞察。通过格式和长度这两个简单但有力的信号,我们可以帮助语言模型学会如何组织和表达它们已经拥有的知识,就像教会学生如何规范答题一样,从而显著提升其在复杂推理任务中的表现。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。