微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

MM-PRM：通过可扩展的步骤级监督提升多模态数学推理能力

多模态数学推理过程奖励模型步骤级监督

MM-PRM：通过可扩展的步骤级监督提升多模态数学推理能力

作者：科技行者

2025-05-22 13:57

分享至：

这篇研究论文介绍了MM-PRM，一种用于增强多模态数学推理能力的过程奖励模型。研究团队首先构建了一个强大的多模态策略模型MM-Policy，然后创建了包含10,000个多模态数学问题的数据集MM-K12。利用蒙特卡洛树搜索(MCTS)框架，他们自动生成了超过70万个步骤级别的标注，无需人工参与。最终的奖励模型在Best-of-N推理设置中显著提升了多个基准测试的性能，包括MM-K12、OlympiadBench和MathVista等。研究还发现软标签、较小的学习率和路径多样性是优化PRM性能的关键因素。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-22 13:57 • 科技行者

在人工智能快速发展的今天，多模态大语言模型（MLLMs）在视觉-语言理解方面取得了令人瞩目的进展，但在处理复杂的多步骤推理任务时，它们仍然面临着巨大挑战。这些模型往往会产生逻辑不一致或部分正确的解决方案，就像一个学生解数学题时，虽然有时能得到正确答案，但中间过程却充满错误。为什么会出现这种情况呢？上海人工智能实验室、上海创新研究院和上海交通大学的研究团队在2025年5月发布的论文《MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision》中指出，这主要是因为缺乏对中间推理步骤的细粒度监督。

想象一下，如果你在教一个孩子解决数学问题，你通常不会只关注最终答案是否正确，而是会检查每一个解题步骤。这正是研究团队提出的MM-PRM（多模态过程奖励模型）所做的事情。这个模型就像一位耐心的数学老师，能够评估解题过程中每一步的质量，而不仅仅是对最终答案打分。

研究团队首先构建了一个名为MM-Policy的强大多模态模型，通过在各种数学推理数据上进行训练。然后，他们精心策划了一个包含10,000个多模态数学问题的数据集MM-K12，这些问题都有可验证的答案，作为种子数据。接下来，利用一种基于蒙特卡洛树搜索（MCTS）的流程，他们自动生成了超过70万个步骤级别的标注，而无需人工标注。这就像是创建了一个自动驾驶的批改系统，能够识别并标记解题过程中的每一个步骤是否正确。

最终训练出的MM-PRM被用来在Best-of-N推理设置中对候选推理路径进行评分，并在多个基准测试中取得了显著的提升。例如，在MM-K12测试集上，准确率从33.92%提高到了42.80%；在MathVista上，从62.93%提高到67.60%；在OlympiadBench上，从15.41%提高到24.00%。这些提升证明了过程监督是增强多模态推理系统逻辑稳健性的强大工具。

研究团队还发现，软标签（与硬标签相比）、较小的学习率以及路径多样性是优化PRM性能的关键因素。就像烹饪一样，不仅需要优质的原料（数据），还需要适当的火候（学习率）和多样的味道（路径多样性）才能做出美味佳肴。

让我们深入了解这项研究的细节，看看研究团队是如何一步步改进多模态数学推理能力的。

一、研究背景与挑战

在我们日常生活中，许多问题需要多步骤的逻辑推理才能解决。想象一下，当你计划一次旅行，需要考虑预算、时间、交通和住宿等多个因素。大语言模型（LLMs）如OpenAI的GPT-4、Qwen、InternLM等在处理这类需要一般推理和数学问题解决的任务上取得了显著进步。同时，多模态大语言模型（MLLMs）如InternVL、Qwen-VL等也在视觉-语言理解方面展现出令人瞩目的能力。

然而，当面对需要复杂多步骤推理的数学问题时，特别是包含图像的问题，这些模型仍然表现不佳。它们常常会出现逻辑链断裂、中间步骤不准确，或者有时虽然得到了正确的最终答案，但中间步骤却是错误的——这种现象引入了高假阳性率，并且削弱了模型解释性。

为了解决这个问题，奖励建模（reward modeling）成为了一个有前途的方法。奖励模型在基于人类反馈的强化学习（RLHF）中扮演着核心角色，也可以在推理时使用测试时缩放（TTS）策略如Best-of-N（BoN）来选择多个候选响应中的最佳答案。

奖励模型主要分为两类：结果奖励模型（ORMs）和过程奖励模型（PRMs）。结果奖励模型只对最终答案提供评分，忽略了中间推理步骤的质量，这限制了它们引导模型走向稳健推理路径的能力。相比之下，过程奖励模型提供了更细粒度的方法，通过评估每个推理步骤，实现更准确和可解释的反馈。

近期，一些研究探索了纯文本数学推理中的过程奖励模型。PRM800k手动构建了一个大规模数据集，包含步骤级别的正确性标签，但这种方法难以扩展。MathShepherd通过评估给定步骤的延续是否能够导向正确答案来标记推理步骤，但其效率相对较低。OmegaPRM引入了基于蒙特卡洛树搜索（MCTS）的框架，能够高效自动生成过程监督数据。然而，所有这些工作都集中在纯文本数学推理上。在多模态数学推理领域，如何设计一个高效的框架来生成过程监督数据并稳定地训练过程奖励模型仍然是一个具有挑战性的问题。

二、MM-PRM：多模态过程奖励模型的创新方法

为了解决上述挑战，研究团队提出了MM-PRM，这是一个强大的过程奖励模型，能够有效处理域内和域外问题。具体来说，他们设计了一个由三个相互连接的阶段组成的结构化流程：

首先，在**策略模型构建**阶段，他们训练了一个多模态策略模型，按照思维链（CoT）范式生成高质量的推理轨迹。

接着，在**过程监督数据生成**阶段，他们使用基于MCTS的引擎OmegaPRM来高效识别推理缺陷并大规模生成步骤级别的奖励标签。

最后，在**过程奖励模型训练**阶段，他们训练了一个PRM来评估每个推理步骤并提供密集反馈。

这个端到端的设计确保了过程监督可以被生成、建模和应用在一个完全闭环中。这显著提高了推理质量和稳健性，特别是在需要长逻辑链的任务中。

### 策略模型构建

策略模型是整个框架的基础，负责生成给定多模态数学问题的候选推理轨迹。这些轨迹后续会被评估和标记，形成用于训练PRM的步骤级别监督。因此，确保策略模型产生逻辑连贯和结构完整的输出对整个系统的有效性至关重要。

为了训练策略模型，研究团队整理了一个大规模、高质量的数学问题数据集，涵盖了广泛的主题和难度级别。该数据集整合了来自十几个公共数学数据集的样本，包括R-CoT、MAVIS、MathV360K、NuminaMath和DART-Math等，问题范围从小学算术到高级几何和统计学。

收集后，所有数据都经过严格的清洗和格式标准化。视觉和文本内容被明确配对，推理轨迹被重新格式化，遵循结构化的CoT模式，每个逻辑步骤都使用结构化标签如``清晰标记，最终结论用``标注。为了提高质量和清晰度，他们利用了一个强大的指令调整语言模型（Qwen2.5-72B-Instruct）来解析原始解决方案并将它们重构为连贯、模块化的步骤。这种结构化表示不仅增强了模型的可学习性，还为下一阶段生成步骤级别奖励标签奠定了基础。

有了这个经过清洗和注释的语料库（超过500万个例子），研究团队使用监督学习对一个强大的开源多模态模型InternVL2.5-8B进行了微调。这确保了模型学会产生符合CoT推理模式的逻辑合理且结构良好的输出。

### 过程监督数据生成

为了实现步骤级别推理的细粒度监督，研究团队采用了基于OmegaPRM框架的自动化过程注释流程。OmegaPRM引入了一种基于MCTS的机制，用于高效识别和标记中间推理步骤并附带置信度估计。虽然最初是为文本数学推理开发的，但他们对这个框架进行了调整和扩展，以处理多模态输入。

他们的过程从收集一个精心策划的10,000个多模态数学问题数据集MM-K12开始，包括5,000个填空题和5,000个多选题。这些问题涵盖了从小学到高中的各种课程主题，作为过程监督生成的种子实例。MM-K12中的所有例子都经过仔细筛选，确保每个问题包含有意义的视觉输入和一个唯一的、可验证的答案，使它们非常适合结构化推理和奖励建模。此外，MM-K12还提供了一个独立的500个问题的测试集，按照相同标准构建，用于后续评估域内性能。对于每个问题，策略模型按照CoT范式生成多个候选解决方案，这些推理路径构成了后续奖励注释的原始材料。

为了评估每个中间步骤的正确性，他们遵循OmegaPRM的分层展开和搜索协议。具体来说，他们从部分前缀生成多个完成（展开），并基于其下游完成是否达到正确的最终答案来估计给定步骤的正确性。通过应用二分搜索，算法能够高效定位推理开始偏离的最早步骤。这些监督信号然后被聚合到一个结构化的状态-动作树中，该树记录了每个推理状态的蒙特卡洛（MC）估计和其他统计数据。在他们的实现中，他们在整个树构建和搜索过程中保持完整的多模态上下文——包括文本和视觉组件。

重要的是，他们的调整保留了OmegaPRM的分治搜索效率，同时实现了对以复杂视觉刺激为条件的推理步骤的奖励监督。通过这个流程，他们仅从10k个种子问题生成了超过70万个步骤级别的注释，无需手动标注。由此产生的数据集提供了与真实多模态推理一致的密集、高质量的过程监督。

### 过程奖励模型训练

有了大规模的步骤级别监督，他们继续训练一个PRM，能够评估给定多模态上下文的推理步骤质量。PRM被设计为一个细粒度的评论者，为每个中间步骤分配一个奖励分数，条件是其前面的推理上下文，这使得测试时缩放和潜在的RL应用成为可能。

在PRM训练中的一个核心设计决策在于如何从MC估计中制定监督信号。与采用硬二元标签（例如，$\hat{y} = 1[MC(s) > \tau]$）不同，他们使用软标签，直接将MC分数作为连续监督目标。

这一选择的动机是观察到MC分数反映的不仅仅是中间步骤的正确性。它还编码了诸如问题难度、步骤关键性以及策略模型展开中的分布不确定性等因素。例如，高度模糊或视觉复杂问题中的推理步骤可能会产生较低的MC分数，即使逻辑在根本上是合理的。在这种情况下，硬阈值可能会错误表示步骤的质量，给训练引入噪音。相比之下，软标签保留了概率性细微差别，使学习动态更加平滑。

形式上，对于路径$x = [x_1, x_2, \ldots, x_T]$中的每个推理步骤$x_t$，他们分配了一个监督目标$\hat{y}_t = MC(x_{<t}) \in [0, 1]$，其中$MC(x_{<t})$表示从这个部分路径可以达到正确最终答案的估计概率。

为了建模预测任务，他们将PRM视为一个在每个推理步骤上操作的分类器。给定一个多模态输入$q$和一个生成的推理轨迹$[x_1, x_2, \ldots, x_T]$，他们在每个步骤之后插入一个特殊标记，表示为$\sigma$，产生形式为$[q, x_1, \sigma, x_2, \sigma, \ldots, x_T, \sigma]$的输入序列。在他们的实现中，$\sigma$被实例化为标记``。在每次出现$\sigma$时，模型的任务是产生一个标量置信度分数，表示前面的步骤在逻辑上是否正确。

通过训练目标是最小化预测分数$p^{(i)}$和软标签$\hat{y}^{(i)}$之间的交叉熵损失，跨越所有评分点：

$L_{PRM} = -\sum_{i=1}^{T} \left[ \hat{y}^{(i)} \cdot \log p^{(i)} + (1 - \hat{y}^{(i)}) \cdot \log(1 - p^{(i)}) \right]$

这个公式引导模型对推理步骤进行细粒度评估，将更高的置信度分配给那些有更强正确性证据的步骤。

三、实验设置与评估方法

为了验证MM-PRM的有效性，研究团队进行了一系列实验，这些实验经过精心配置，以确保公平、可扩展和可重现的结果。

### 实验设置

**策略模型构建**：他们的策略模型（MM-Policy）从多模态主干InternVL 2.5-8B初始化，并使用约400万个经过清洗、结构化的数学问题进行微调。模型训练了1个epoch，批大小为128，学习率为4e-5，只更新语言模块，同时保持视觉编码器冻结。

**过程监督数据生成**：他们调整了OmegaPRM流程用于多模态推理，并将其应用于MM-K12（10k样本）。使用基于MCTS的结构化展开，他们生成了约747,000个步骤级别的注释。采样参数调整为平衡多样性和效率：温度=1.0，topk=50，topp=0.9，探索系数cpuct=0.125，最多200个搜索步骤或每个问题1,000个总展开。

**过程奖励模型训练**：他们从微调后的策略模型初始化PRM，并训练了1个epoch，批大小为512，学习率为4e-6。

### 评估策略与基准

为了评估MM-PRM在提高推理质量方面的有效性，他们采用了BoN评估协议。对于每个测试问题，策略模型独立生成N=16个候选推理路径。然后PRM对每个路径逐步评分，产生一系列浮点值，表示每个中间步骤的预测质量，具有最高分数的路径被选为最终答案。

由于PRM为每个候选路径输出一个步骤级置信度分数向量，他们的评估中的一个关键组成部分是用于将该向量压缩为标量的聚合函数。他们探索了一组多样化的聚合函数，包括Min、Average、Max、SumLogPr（对数概率之和）、SumLogOdds（对数几率之和）和MeanOdds（平均几率），每个函数捕获路径质量的不同方面。此外，他们使用了一个随机基线进行比较，其中最终答案是从同一组16个候选项中随机抽样的。

他们使用答案准确率来评估性能，定义为最终选择的答案与真值匹配的比例。这个指标直接反映了MM-PRM在引导选择正确推理路径方面的效用。

为了全面评估模型的性能和泛化能力，他们在一系列多模态数学基准上进行了实验，包括MM-K12（测试集）、OlympiadBench（OE_MM_maths_en_COMP）、MathVista（testmini）、MathVerse（testmini）和MathVision（test）。MM-K12测试集作为域内评估。对于域外评估，他们使用了OlympiadBench的OE_MM_maths_en_COMP分割，其中包含来自国际数学竞赛的开放式多模态问题，在格式上与MM-K12密切相关但明显更难。为了进一步测试泛化性，他们包括了MathVista，它涵盖了广泛的视觉数学任务；MathVerse，它强调结构化视觉内容的理解；以及MathVision，它针对抽象视觉推理。这些基准提供了一个多样化和严格的设置，来测量他们的过程奖励建模框架的性能和泛化性。

四、实验结果与分析

研究团队通过将MM-PRM应用于一系列策略模型并测试其在多个多模态数学基准上的影响，评估了MM-PRM的有效性。

### 量化结果

在所有模型上，MM-PRM都带来了显著的性能提升。例如，当应用于MM-K12测试集上的MM-Policy时，准确率从33.92%提高到了42.80%，类似的提升也在InternVL2.5-8B上观察到，性能从27.01%提高到37.80%。这些结果证实了MM-PRM在识别高质量推理路径方面非常有效。

除了域内设置外，还观察到MM-PRM在更大的模型和更具挑战性的数据集上也表现出良好的泛化能力。例如，将MM-PRM应用于InternVL2.5-78B，在OlympiadBench上的准确率从30.98%提高到了34.67%，在MathVerse上从50.18%提高到了54.47%。尽管仅使用来自MM-K12种子数据集的过程数据进行训练，MM-PRM在各种基准和模型上始终提高了推理准确率。这表明可扩展的步骤级别奖励建模能够以模型无关和数据高效的方式提高数学推理能力。不同聚合函数的详细评估结果可以在论文的附录部分中找到。

### 质性分析

为了进一步说明MM-PRM的行为，研究团队展示了一个涉及平行线和角平分线的几何问题的质性例子。在这个例子中，策略模型生成了一个四步推理路径，最终导致了错误的最终答案。

PRM对前两个步骤给予了高分（0.83和0.68），表明它们在逻辑上是合理的。相反，第三步得分很低（0.02），表明模型已经识别出了这一点的重大推理错误。这个有缺陷的步骤直接导致了第四步中的错误结论。

这个例子表明，MM-PRM能够检测到推理链中的局部逻辑错误，这种细粒度的判断在选择高质量的推理轨迹和过滤掉那些具有微妙但关键缺陷的轨迹中至关重要。

### 进一步研究与讨论

研究团队还深入探讨了几个关键因素，这些因素对于理解和优化PRM的性能至关重要。

**候选路径对PRM性能的影响**：由于PRM在BoN框架中纯粹作为选择器，其性能在本质上受到策略模型产生的候选推理路径的多样性和质量的限制。换句话说，PRM无法改进BoN中的有缺陷生成——它只能在可用选项中进行选择。因此，每个问题生成的推理路径数量直接影响其识别正确和连贯解决方案的潜力。

当研究团队改变生成的推理路径数量N（2, 4, 8, 16），并衡量相应的在MeanOdds聚合策略下的答案准确率时，发现随着N的增加，MM-PRM的性能在两个测试集上都一致提高。在MM-K12测试集上，准确率从N=2时的38.6%提高到N=16时的42.8%，收益在N=8之后趋于平缓。相比之下，在OlympiadBench上，随着N的增长，准确率更稳定地从18.4%增加到24.0%。这表明对于更难、更多样化的任务，拥有更大的推理路径池对PRM识别有效解决方案至关重要。

**学习率的影响**：正如PRM800k研究中所指出的，微调PRM将语言模型的目标从生成转变为判别，这使得学习率成为一个关键因素。通常更倾向于使用较小的学习率以保持稳定性并保留预训练知识。

当研究团队在MM-K12测试集上使用MeanOdds聚合器评估不同学习率下训练的MM-PRM时，发现性能在4e-6时达到峰值——约为监督微调中通常使用的学习率的十分之一——然后在更高值时急剧下降。这证实了中等、保守的学习率会导致更好的训练，而过大的值则会降低准确率。

**软标签与硬标签的比较**：在训练PRM时，研究团队采用了软标签——即实值MC分数——作为步骤级别奖励建模的监督。与硬标签不同，软标签保留了不确定性，并允许模型学习推理质量的更细微表示。

为了评估这一设计选择，研究团队将软标签与硬标签阈值进行了比较，在硬标签中，MC>0的步骤被视为正确，其他步骤被视为不正确，遵循OmegaPRM中的协议。结果表明，软标签训练在所有聚合策略中始终优于硬标签训练。例如，在Average聚合器下，软标签在MM-K12测试集上产生了43%的准确率，而硬标签为34.4%。SumLogOdds（43.2%对33.8%）和MeanOdds（42.8%对37.0%）也观察到类似的改进。

五、总结与未来展望

这项研究提出了MM-PRM，这是一个基于可扩展框架的过程奖励模型，用于多模态数学过程奖励建模，能够实现无需人工注释的步骤级别监督。通过利用多模态策略模型和基于MCTS的数据生成流程，研究团队从MM-K12数据集中仅10k个数学问题构建了超过70万个过程级别的标签。他们训练的PRM在BoN推理中显著提高了各种基准上的推理准确率，并表现出对新数据集和模型的强大泛化能力。广泛的分析进一步证实了软标签、保守学习率和足够路径多样性对优化PRM性能的重要性。MM-PRM突显了过程监督对增强多模态数学问题解决的价值。

这项研究的局限性主要在于两个方面：一是由于计算限制，研究团队仅在具有8B参数的InternVL系列上进行训练，没有探索更大的模型或来自其他模型家族的架构。这限制了他们充分评估PRM训练行为如何随模型大小缩放或跨不同主干模型泛化的能力。二是用于过程监督生成的种子数据在多样性上有限，因为它仅由K-12级别的数学问题组成。因此，PRM可能不太接触到超出标准教育设置范围的高级数学领域或视觉格式。

尽管有这些局限性，这项研究为多模态数学推理中的过程监督提供了宝贵的见解和一个可行的框架。作为未来工作的方向，研究更广泛的模型覆盖和更多样化的种子数据构建是有前途的。此外，将MM-PRM集成到端到端的训练流程中，例如通过强化学习优化策略模型本身，可能会带来更显著的性能提升。

总的来说，MM-PRM展示了过程级别监督在提高多模态数学推理能力方面的强大潜力，尤其是在没有昂贵人工注释的情况下。这个框架不仅提高了答案准确率，还增强了推理路径的逻辑一致性和可解释性，这对于教育和科学发现等应用来说是至关重要的特性。

多模态数学推理过程奖励模型步骤级监督

分享至