微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

让AI判断推理中的错误更精准：PathFinder-PRM如何通过分步解析优化大语言模型的数学推理过程

人工智能数学推理过程奖励模型

让AI判断推理中的错误更精准：PathFinder-PRM如何通过分步解析优化大语言模型的数学推理过程

作者：科技行者

2025-05-29 12:48

分享至：

这项研究提出了PathFinder-PRM，一种创新的层次化过程奖励模型，通过先分类数学和一致性错误，再估算步骤奖励分数，从而提升大语言模型的数学推理能力。研究团队构建了40万样本的数据集，使用细粒度错误标签训练模型，在多个基准测试上超越了现有最佳模型，并以更高的数据效率实现了更好的端到端数学问题解决能力。这种方法像经验丰富的数学老师一样，不仅指出错误所在，还能提供更精确的改进指导。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 12:48 • 科技行者

在大型语言模型（LLM）技术飞速发展的当下，来自新加坡科技设计大学和Lambda Labs的研究团队在2025年5月26日发布了一项创新研究，论文名为《Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision》（通过错误类型化实现更智能的奖励：利用错误感知的层次化监督改进过程奖励模型）。这篇发表在arXiv预印本平台上的研究（arXiv:2505.19706v1），由Tej Deep Pala、Panshul Sharma、Amir Zadeh、Chuan Li和Soujanya Poria共同完成，带来了一种全新的方式来改进大语言模型的数学推理能力。

一、研究背景：为什么我们需要更好的数学推理监督？

想象一下，你请一位朋友帮你解一道复杂的数学题。这位朋友开始一步步推导，但在中间某个环节出错了。如果你只看最终答案并说"错了，重做"，这对朋友的帮助不大。相反，如果你能指出"你在第三步计算除法时算错了"或"你在第四步与问题条件不符"，这样的反馈就能帮助朋友更准确地修正错误。

这正是目前大语言模型在数学推理中面临的挑战。尽管现代LLM在许多自然语言任务上表现出色，但它们在解决需要多步推理的数学问题时仍容易出现"幻觉"和逻辑错误。特别是在像数学这样需要严格、一丝不苟的推理领域，一个微小的计算错误或逻辑失误就可能导致整个解题过程偏离正确轨道。

传统上，研究人员使用"结果奖励模型"（Outcome Reward Models）来评估LLM的数学解题能力，这类模型只检查最终答案是否正确。这就像只告诉你朋友"答案错了"，而不指出具体哪一步出了问题。近年来，"过程奖励模型"（Process Reward Models，简称PRMs）应运而生，它们能够对解题过程中的每一步进行评分，从而更精细地指导模型生成连贯可靠的解题路径。

然而，现有的PRMs在识别细微错误类型方面仍然存在局限。它们往往将错误检测（这一步有没有错）和路径优化（这一步对解决问题有多大帮助）混为一谈，导致每种信号都未被充分利用。

二、PathFinder-PRM：把"侦探"和"指导员"的工作分开

研究团队提出的PathFinder-PRM就像是将一个经验丰富的数学老师的工作分成了两个清晰的步骤：首先像侦探一样找出错误的类型，然后再像指导员一样给出整体评价。

传统的PRMs工作方式是这样的：给定一个数学问题和学生的解题步骤，它们会直接给每一步分配一个奖励分数。这个分数隐含地反映了该步骤是否存在错误以及它对解决问题的贡献如何。

PathFinder-PRM则采取了层次化的方法，将奖励分配分解为两个连续的子任务：

首先，它会分析每一步可能存在的两类错误： 1. 数学错误：包括算术或代数运算错误、公式应用不当、或无效的推理。 2. 一致性错误：与问题、先前步骤或已建立的约束存在逻辑不一致。

接着，在第二步中，它会利用这些错误信息来估计步骤的整体奖励分数。

想象一个具体例子：一个学生在解决"王小姐每小时赚12美元做保姆。昨天，她只做了50分钟的保姆工作。她赚了多少钱？"这道题时，写下了以下步骤：

- 第1步：王小姐每分钟赚12/60 = 0.2美元。（正确步骤） - 第2步：让我们先计算王小姐每分钟赚多少钱。（冗余步骤，因为第1步已经计算过了） - 第3步：王小姐每分钟赚12/60 = 0.4美元。（计算错误） - 第4步：王小姐赚了12/50 = 0.24美元每分钟。（与问题不一致，混淆了时间单位）

传统的PRMs会直接给每一步分配一个分数，比如第1步0.85分，第2步0.63分，第3步0.46分，第4步0.35分，但不会明确指出错误的类型。

相比之下，PathFinder-PRM会先进行错误分类： - 第1步：数学√，一致性√ → 奖励分数0.95 - 第2步：数学√，一致性√ → 奖励分数0.37（尽管没有错误，但步骤冗余） - 第3步：数学×，一致性√ → 奖励分数0 - 第4步：数学√，一致性× → 奖励分数0

这种方法不仅能更准确地指出错误所在，还能提供更丰富的监督信号，帮助模型更好地理解和改进推理过程。

三、构建更丰富的数据集：多维度的错误标注

为了训练PathFinder-PRM，研究团队构建了一个包含约40万个数学推理轨迹样本的新数据集，每个样本都有三维度的步级标签：(1)数学推理准确性，(2)与先前步骤和数学领域的一致性，以及(3)步骤正确性。

这个数据集的构建利用了两个现有数据集： 1. PRM800K：包含人类专家标注的步级正确性标签 2. RLHFlow Mistral数据：通过蒙特卡洛估计生成的步级标签

对于PRM800K中原始标签为1（正确且最优）的步骤，研究团队将其映射为三维类别得分向量(1, 1, 1)。对于标签为0（正确但次优）的步骤，则映射为(1, 1, 0)。这反映了团队对人类标签的理解：标签{0, 1}表示无错误推理，而标签0特指非最优流程步骤。

对于错误步骤（标签为-1），原始正确性标签不足以确定三个评估类别的分数。因此，团队使用DeepSeek-R1-Distill-Qwen-32B模型为这些步骤生成二元类别标签。为保持数据质量，他们过滤掉了与-1人类标注标签不一致的类别分数向量样本。

同样，由于RLHFlow Mistral数据集缺乏金标准步级正确性标签，研究团队使用了相同的模型为随机选择的过程步骤子集分配二元类别标签，并实施了一致性过滤机制，删除了与现有蒙特卡洛估计标签逻辑不兼容的分数分配。

最终，PathFinder-PRM数据集包含了约40万个推理轨迹样本，其中约34.5万来自PRM800K，另外5.5万来自RLHFlow Mistral数据。研究团队训练了两个模型变体：完整的PathFinder-PRM-7B和仅在PRM800K子集上训练的PathFinder-PRM-7B-PRM800k。

四、模型训练与设计：利用数学特长构建更好的评估者

先前的研究表明，模型的数学推理能力与其作为过程奖励模型的表现密切相关。基于这一发现，研究团队选择了Qwen2.5-Math-7B-Instruct作为初始模型，这个模型在多个数学基准测试上已经取得了最先进的结果。

与最近的PRMs不同，后者会将语言建模头替换为标量值头，PathFinder-PRM保留了原始的语言模型架构，并扩展了标记器，增加了两个特殊标记<+>和<->，分别表示正面和负面步骤标签。

训练目标分为两部分，模拟推理过程中的两次前向传递： 1. 错误检测目标：模型需要预测"数学：<+>/<->"和"一致性：<+>/<->" 2. 奖励估计目标：在预测的错误标签之后，模型需要预测"正确性：<+>/<->"

对于每个样本，模型只计算这些标签标记上的交叉熵损失。

五、实验结果：细致的错误分类带来全面性能提升

研究团队在多个评估基准上测试了PathFinder-PRM的性能，包括ProcessBench、PRMBench以及一系列数学推理基准测试。

在PRMBench上，PathFinder-PRM-7B取得了67.7的最高总体PRM得分，超过了先前最佳的Qwen2.5-Math-PRM-7B（65.5分）和ReasonEval-7B（60.0分）。即使是仅在PRM800K数据子集上训练的PathFinder-PRM-7B-PRM800K变体也达到了65.0的竞争性得分。值得注意的是，PathFinder-PRM-7B的表现超过了几乎所有LLM-as-Judge模型，包括GPT-4o、QwQ-Preview-32B和Gemini-2.0-flash-exp。

在ProcessBench上，当仅在PRM800K上训练时，PathFinder-PRM-7B-PRM800K获得了65.2的平均F1分数，比之前最好的模型（Qwen2.5-Math-7B-PRM800K，58.5分）高出6.7分，并在所有类别中都超过了其他仅基于PRM800K的基准：GSM8K（+5.9）、MATH（+8.7）、Olympiad Bench（+8.0）和OmniMath（+12.3）。

利用更大的混合人工+自动标注数据集进一步提升了性能。PathFinder-PRM-7B达到了69.5的平均F1分数，创下了混合数据模型中的新记录，并缩小了与顶级自动标注模型（Qwen2.5-Math-PRM-7B，73.5分）的差距至仅4分。

更重要的是，研究团队评估了PathFinder-PRM在引导解决方案搜索中的实用性。使用Qwen2.5-Instruct-7B作为生成器，并使用PRMs对采样步骤进行排名，结果表明PathFinder-PRM-7B产生了最高的平均prm@8得分（48.25），超过了Qwen2.5-Math-PRM-7B（46.8）。这一优势在各个任务中都得到了保持，包括具有挑战性的子集，如AIME24和College MATH，表明该模型与地面真实解决方案质量有更好的归纳偏差和一致性。

特别值得注意的是，尽管Qwen2.5-Math-PRM-7B是在约150万个自动标注上训练的，但PathFinder-PRM-7B仅使用约40万个样本（约为前者的1/3），却在关键基准测试和奖励引导搜索中达到或超过了其性能。在ProcessBench上，PathFinder-PRM-7B的表现与Qwen2.5-Math-PRM-7B相当（平均F1分数69.5比73.5），在PRMBench上表现更佳（67.7比65.5），并在奖励引导贪婪搜索中产生更高的pass@8（48.3比46.8）。这表明层次化、错误感知的训练产生了更高效、更稳健的PRMs，使用更少的样本实现了更优的过程监督。

六、深入理解：为什么分解错误类型和任务能够提升性能？

为了验证研究的核心假设，即错误检测和值估计是互补但不同的目标，团队进行了消融实验，修改了方法的部分内容：

1. 移除单独的子任务预测：遵循现有PRM方法，团队训练模型只使用步骤正确性标签共同学习错误检测和正确路径引导。

2. 移除单独的错误类别：在这种方法中，模型仍然进行层次化预测，但在第一步中，它将错误类别组合起来，预测步骤中是否存在错误，而不是区分错误类型。

实验结果证实了分离错误类别的益处：在ProcessBench上，明确区分数学和一致性错误带来了明显的整体提升——PathFinder-PRM-7B的得分为69.5平均F1，而没有单独错误类别的版本仅为67.0。在PRMBench上也观察到类似的性能下降。

更关键的是，奖励引导搜索突显了错误类型分类的实际影响：在对八个候选解决方案进行排名时，PathFinder-PRM-7B实现了48.3的prm@8，而没有单独错误类别的PathFinder-PRM仅为45.4（+2.9分）。这种在实际问题解决性能上的跃升表明，细粒度的错误信号不仅改进了诊断指标，还能直接转化为选择更高质量解决路径的能力。

PathFinder-PRM也从错误感知的层次化监督中受益：在ProcessBench、PRMBench和奖励引导搜索中，PathFinder-PRM始终优于没有单独子任务预测的PathFinder-PRM，凸显了分解反馈预测为离散推理组件的价值。

七、结论与未来发展

这项研究表明，通过将错误检测与步骤优化性指导分离，并进一步区分不同类型的错误，可以显著提升大语言模型在数学推理中的表现。PathFinder-PRM的设计类似于优秀数学教师的工作方式：先指出错误的具体类型，然后再给予整体评价和改进建议。

从更广泛的角度看，这一研究成果对于提升LLM的推理能力具有重要意义。随着像DeepSeek-R1和OpenAI的GPT-o系列等显式推理中心LLM的兴起，这类过程监督技术将变得越来越关键——它们不仅能验证最终答案，还能在每一步引导和纠正推理过程，确保整个过程的逻辑连贯性和事实准确性。

PathFinder-PRM展示的方法不仅提高了错误检测的细粒度能力，还显著改善了端到端、奖励引导的数学推理，同时具有更高的数据效率。这一成果为未来构建更强大、更可靠的推理系统提供了宝贵思路。

对于普通用户来说，这意味着未来的AI助手在帮助解决数学问题时，将能够提供更准确、更具教育意义的指导——不仅告诉你答案是否正确，还能指出具体哪一步出了问题，以及问题的具体类型，就像一位耐心的数学家教一样。

研究团队认为，这种错误感知的层次化奖励生成方法是构建更强健、更可解释的过程奖励模型的一个有前途的方向，并期待随着扩展到更大架构时取得更多进展。

人工智能数学推理过程奖励模型

分享至