微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 阿里巴巴Qwen团队重新定义数学推理:过程奖励模型的训练秘籍大公开

阿里巴巴Qwen团队重新定义数学推理:过程奖励模型的训练秘籍大公开

2025-09-18 13:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-18 13:52 科技行者

这项由阿里巴巴集团Qwen团队的张振儒、郑楚杰、吴杨真、张北晨、林润吉、于博文、刘大一恒、周靖人、林俊扬等研究人员完成的研究,发表于2025年6月的arXiv预印本平台,论文编号为arXiv:2501.07301v2。有兴趣深入了解的读者可以通过https://hf.co/Qwen/Qwen2.5-Math-PRM-7B和https://hf.co/Qwen/Qwen2.5-Math-PRM-72B访问完整的研究成果和模型。

当我们人类做数学题时,不仅要关心最终答案是否正确,更要确保推理过程的每一步都合理可靠。比如解一道复杂的几何题,即使你最后得到了正确答案,但如果中间某一步的逻辑有误,这种"巧合的正确"其实非常危险。现在的人工智能数学推理面临着同样的挑战。

现代大语言模型在数学推理方面已经表现出色,但它们有个致命弱点:经常在推理过程中犯错,有时甚至能从错误的步骤中"神奇地"推出正确答案,有时又会从正确的推理中得出错误结论。这就像一个聪明但粗心的学生,知识储备足够,但经常在计算和逻辑推理中出现纰漏。

为了解决这个问题,研究人员开发了一种叫做"过程奖励模型"的技术。如果把数学推理比作烹饪一道复杂菜品,那么传统的评价方法只关注最终菜品的味道,而过程奖励模型则像一位经验丰富的厨师,不仅要确保最终成品美味,更要监督烹饪过程中的每一个步骤——从选料、切配、调味到火候控制,每一环都要做到位。

然而,训练这样的"厨师监督员"并不简单。就像培养一位能够准确判断每个烹饪步骤是否正确的专家一样,训练过程奖励模型需要大量高质量的标注数据。目前主流的方法是使用"蒙特卡洛估计"——这就像让多个厨师从同一个中间步骤开始继续烹饪,看看有多少人能做出美味的成品,然后根据成功率来判断这个中间步骤的质量。

但阿里巴巴的研究团队发现,这种方法存在严重缺陷。他们通过大量实验证明,蒙特卡洛估计就像让一群水平参差不齐的厨师来评判烹饪步骤,结果往往不够可靠。有些厨师可能从看似错误的步骤中救回整道菜,而另一些厨师可能把原本正确的步骤搞砸。这种评价方法的不稳定性导致训练出的监督员判断力不够准确。

更令人惊讶的是,研究团队还发现了当前评估过程奖励模型的方法存在偏差。传统的"最佳选择"评估策略就像在多道菜中选择最好的一道,但这种方法容易被"外表光鲜但制作过程有问题"的菜品蒙蔽。一道菜看起来色香味俱全,但如果制作过程中存在食品安全隐患,那么它就不应该被选为最佳。

针对这些问题,阿里巴巴团队提出了一个创新的解决方案:共识过滤机制。这就像同时请两位不同流派但都经验丰富的大厨来评判每个烹饪步骤,只有当两位大厨都认为某个步骤有问题时,才将其标记为错误。这种方法结合了蒙特卡洛估计和大语言模型判断的优势,大大提高了数据质量和训练效率。

研究团队的实验结果令人印象深刻。他们训练的过程奖励模型在多个数学推理基准测试中都取得了最佳性能,特别是在识别推理错误方面表现出色。就像培养出了一位火眼金睛的烹饪专家,能够准确识别制作过程中的每一个问题。

**一、传统方法的困境与突破**

要理解这项研究的意义,我们首先需要明白什么是过程奖励模型,以及为什么它如此重要。回到我们的烹饪比喻,传统的数学推理评估就像只品尝最终成品来判断厨师水平,而过程奖励模型则要求评估者深入厨房,观察烹饪的每一个环节。

在数学推理中,这种细致入微的监督至关重要。比如解一道代数方程,学生可能在第三步犯了一个符号错误,但在第五步又无意中抵消了这个错误,最终得到了正确答案。传统方法会认为这次推理完全正确,但过程奖励模型能够识别出第三步的错误,从而帮助学生真正掌握正确的解题方法。

阿里巴巴团队在研究初期尝试了业界常用的蒙特卡洛估计方法。这种方法的基本思路是:对于推理过程中的每一步,让模型从这一步开始继续推理多次,然后统计有多少次能得到正确的最终答案,以此来判断这一步的质量。听起来很合理,但实际效果却令人失望。

研究团队发现,蒙特卡洛估计就像让一群技能水平不一的厨师来评判中间步骤的质量。有些厨师技艺高超,即使从一个有问题的中间步骤开始,也能通过巧妙的补救措施做出美味的菜品。而另一些厨师可能因为自身技能限制,从一个完全正确的步骤出发却做砸了整道菜。这样的评判结果显然不能准确反映中间步骤的真实质量。

更具体地说,研究团队构建了包含约50万个数学问题的大规模数据集,对每个问题生成6到8个不同的解答方案。然后使用不同规模的数学专门模型(7B和72B参数)对每个推理步骤进行8次独立的后续推理,通过成功率来评估步骤质量。然而,训练出的模型在实际评估中表现不佳,特别是在识别具体错误步骤方面远不如基于人工标注训练的模型。

研究团队还尝试了软标签和硬标签两种不同的训练方式。硬标签将步骤简单地分为正确或错误两类,而软标签则用0到1之间的数值表示步骤正确的概率。令人意外的是,在数据噪声较高的情况下,这两种方法的差异并不明显,说明数据质量问题掩盖了训练方法的影响。

**二、共识过滤:两位大厨的智慧**

面对蒙特卡洛估计方法的局限性,研究团队提出了一个巧妙的解决方案:共识过滤机制。这个方法的核心思想是让两种不同的评估方式相互验证,只有当它们在错误位置上达成一致时,才将相关数据用于训练。

具体来说,研究团队使用了两种评估方法:一种是传统的蒙特卡洛估计,另一种是让大语言模型直接判断每个推理步骤的正确性。就像请两位来自不同流派的资深厨师来评判同一道菜的制作过程,一位专注于传统技法,另一位则更注重创新方法。只有当两位厨师都认为某个步骤存在问题时,这个步骤才被标记为错误。

这种共识机制的效果非常显著。原本86万个训练样本经过共识过滤后,只保留了约40%的数据,但这些数据的质量大幅提升。研究结果显示,使用这些经过筛选的数据训练的模型,不仅在传统评估指标上表现更好,在识别推理错误的专门测试中也明显优于使用全量数据训练的模型。

更重要的是,这种方法显著提高了数据利用效率。就像精选食材能让厨师事半功倍一样,高质量的训练数据让模型学习过程更加高效。用40%的数据就能达到甚至超越使用全量数据的效果,这在当前算力资源珍贵的时代具有重要意义。

研究团队还深入分析了不同标签策略的效果。他们发现,在数据质量较低时,硬标签和软标签的表现相差不大,因为高噪声掩盖了两者的区别。但在经过共识过滤提高数据质量后,硬标签的表现明显优于软标签。这说明对于过程奖励模型这种需要明确判断步骤正确性的任务,确定性的二分类标签比概率化的软标签更加适用。

研究团队还探索了不同阈值设置对蒙特卡洛估计效果的影响。他们尝试了从1/8到7/8的不同阈值,发现将阈值设置为0(即只要8次后续推理中有任何一次成功就认为步骤正确)时效果最好。这个发现很有意思,说明在判断推理步骤质量时,"宁可漏过也不能错杀"的策略更加有效。

**三、评估方法的革新:不只看结果,更要看过程**

阿里巴巴团队不仅在训练方法上有所突破,还深入分析了当前评估过程奖励模型方法存在的问题。他们发现,业界广泛使用的"最佳选择"评估策略存在系统性偏差,就像只看菜品外观来评判厨师水平一样不够全面。

最佳选择评估的基本思路是:让模型对多个候选解答进行评分,然后选择得分最高的作为最终答案。这种方法的问题在于,当前的语言模型经常会生成"外表正确但过程有误"的解答。比如一个模型可能用错误的推理方法得到了正确的数学答案,传统评估会认为这是优秀的表现,但从教育角度看,这样的推理过程毫无价值。

研究团队通过详细分析发现,随着数学问题难度的增加,这种现象变得更加普遍。在简单的小学数学问题中,约5%的正确答案来自有缺陷的推理过程。而在复杂的奥数竞赛题目中,这个比例高达43%。这意味着单纯基于最终答案的评估方法在处理复杂问题时可能产生严重误导。

为了验证这一发现,研究团队从多个数学基准测试中抽取了有正确答案的解题过程,并进行了细致的人工分析。结果证实,大量看似正确的解答实际上包含逻辑错误或计算失误。更令人担忧的是,许多现有的过程奖励模型都无法准确识别这些隐藏的错误,在专门的错误识别测试中准确率普遍低于50%。

研究团队还发现了另一个有趣现象:许多过程奖励模型在实际使用中逐渐偏离了其设计初衷。原本应该评估每个推理步骤质量的模型,在经过最佳选择评估的优化后,变得越来越关注最终答案而非中间过程。通过分析这些模型的评分分布,研究团队发现超过40%的模型将最低分集中在最后一步(通常是给出最终答案的步骤),这表明模型实际上在进行结果导向的评估而非过程导向的评估。

这个发现揭示了一个深层问题:当我们用不合适的评估方法来优化模型时,模型可能会学会"投机取巧",专注于那些容易提高评估分数但偏离真实目标的策略。就像学生为了应付考试而死记硬背标准答案,而不去理解解题的真正思路一样。

**四、开创性的解决方案与卓越成果**

基于对现有方法局限性的深入理解,阿里巴巴团队开发出了目前性能最优的过程奖励模型。他们的方法结合了共识过滤和综合评估策略,就像培养了一位既有敏锐判断力又有全面视野的数学导师。

在数据构建阶段,研究团队采用了两阶段策略。第一阶段是数据扩展,他们使用蒙特卡洛估计方法生成大规模的候选标注数据。这就像先让多个厨师尝试制作同一道菜,记录下各种可能的制作过程。第二阶段是数据过滤,使用大语言模型作为专业评判员,对每个推理步骤进行细致分析。只有当蒙特卡洛估计和语言模型评判在错误位置上达成一致时,相关数据才被保留用于训练。

这种方法的效果在多个维度上都得到了验证。在传统的最佳选择评估中,新模型在7个不同的数学基准测试上平均提升了1.4个百分点。更重要的是,在专门的错误识别测试中,新模型的表现远超现有的开源替代方案,平均F1分数达到73.5%,相比之下其他开源模型普遍在30%-60%之间。

研究团队训练了两个不同规模的模型:7B参数和72B参数版本。7B模型在保持相对较小体积的同时,就能在大多数任务上超越现有的同规模竞争对手。72B模型则在复杂推理任务上表现更加出色,特别是在奥数竞赛类问题上,其错误识别准确率达到了78.3%,接近专业数学教师的水准。

除了性能提升,研究团队还在评估方法上做出了重要贡献。他们倡导使用响应级别和步骤级别相结合的综合评估框架。这就像评判一位厨师时,既要品尝最终的菜品,也要观察整个烹饪过程,确保每个环节都符合专业标准。

研究团队还探索了将过程奖励模型与搜索算法结合的可能性。他们开发了一种贪婪搜索策略,在每个推理步骤都生成多个候选,然后使用过程奖励模型选择最优的下一步。这种方法就像让导师在学生解题过程中实时给予指导,及时纠正可能的错误方向。初步实验显示,这种方法能够进一步提升数学推理的准确性。

**五、深远影响与未来展望**

这项研究的意义远超数学推理本身,它为整个人工智能领域的过程监督技术指明了新方向。就像培养一位优秀导师不仅能帮助学生解决当前问题,更能教会他们正确的思考方法一样,过程奖励模型的进步将推动人工智能向更可靠、更可解释的方向发展。

从实际应用角度看,这些改进的过程奖励模型可以应用在多个场景中。在教育领域,它们可以帮助老师更准确地识别学生的推理错误,提供针对性的指导。在科学研究中,它们可以辅助研究人员检验复杂推理过程的正确性。在工业应用中,它们可以提高自动化系统在处理复杂逻辑问题时的可靠性。

研究团队也坦诚地指出了当前工作的局限性。首先,即使是改进后的模型,在最具挑战性的数学问题上仍有较大提升空间。这就像培养出的导师虽然已经很优秀,但面对最前沿的研究问题时仍需要持续学习和改进。其次,如何将过程奖励模型更有效地整合到强化学习流程中,仍然是一个待解决的问题。

另一个重要方向是如何更好地利用现有的高质量人工标注数据。研究团队认为,通过弱监督学习等方法逐步扩展高质量数据集,可能是未来的一个重要发展方向。这就像用少量专家级教材来培养更多优秀教师,然后让这些教师去培训更多学生。

从技术发展趋势看,这项研究还指出了一个重要方向:评估方法的改进与模型改进同样重要。就像制定合理的考试制度对教育质量的重要性一样,开发更全面、更准确的评估方法对人工智能技术的进步具有关键意义。

研究团队已经将训练好的模型开源,这为整个学术界和工业界提供了宝贵的资源。其他研究者可以基于这些模型进一步探索过程监督技术的潜力,推动相关技术在更多领域的应用。

说到底,这项研究最重要的贡献在于它改变了我们对人工智能能力评估的认知。过去我们往往关注"人工智能是否能给出正确答案",现在我们开始思考"人工智能是否能以正确的方式思考"。这种从结果导向到过程导向的转变,标志着人工智能正在从"巧合的正确"向"理解的正确"迈进。

当我们站在这个技术发展的关键节点回望,会发现这项研究不仅解决了数学推理中的具体问题,更为构建更可靠、更可信的人工智能系统奠定了坚实基础。未来的人工智能将不仅能够给出正确答案,更能够展示清晰的推理过程,就像一位优秀的导师,既有深厚的知识底蕴,又能够循循善诱地传授智慧。

阿里巴巴Qwen团队的这项开创性工作,为我们描绘了这样一个未来:人工智能不再是神秘的"黑箱",而是透明可理解的智慧伙伴。当我们能够理解人工智能的思考过程时,我们也就能够更好地信任它、改进它,并与它协作解决更加复杂的问题。

Q&A

Q1:什么是过程奖励模型?它与传统的评估方法有什么区别?

A:过程奖励模型就像一位能够监督整个烹饪过程的资深厨师,不仅关注最终菜品的味道,更要确保制作过程中的每一个步骤都正确无误。传统方法只看数学题的最终答案是否正确,而过程奖励模型要评估推理过程中每一步的合理性,能够识别那些"歪打正着"得出正确答案但推理过程有误的情况。

Q2:阿里巴巴团队提出的共识过滤机制是如何工作的?

A:共识过滤机制就像请两位不同流派的资深厨师来评判同一道菜的制作过程。一种方法是蒙特卡洛估计,另一种是让大语言模型直接判断推理步骤。只有当两种方法都认为某个步骤存在问题时,这个步骤才被标记为错误。这样筛选出的训练数据虽然只有原来的40%,但质量大幅提升,训练出的模型性能更优秀。

Q3:这项研究对普通人有什么实际意义?

A:这项研究将让人工智能在教育、科研、工业应用等领域更加可靠。比如在教育中,它能帮助老师准确识别学生的推理错误并提供针对性指导;在自动化系统中,它能提高处理复杂逻辑问题的准确性。更重要的是,它推动人工智能从"黑箱"向"透明可理解"转变,让我们更好地信任和使用AI技术。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-