微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 清华大学团队发布URSA:首个多模态数学推理过程奖励模型,让AI数学推理像人一样可验证

清华大学团队发布URSA:首个多模态数学推理过程奖励模型,让AI数学推理像人一样可验证

2025-09-17 13:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-17 13:28 科技行者

这项开创性研究由清华大学电子系、字节跳动和浙江大学的联合团队完成,第一作者为清华大学的罗瑞林和字节跳动的郑卓凡,通讯作者是字节跳动的曾进和清华大学的杨玉久教授。该研究已于2024年发表在预印本平台arXiv上,论文编号为2501.04686v5,有兴趣深入了解的读者可以通过https://github.com/URSA-MATH访问完整的代码、数据和模型检查点。

在人工智能快速发展的今天,让机器像人类一样解决数学问题一直是科学家们追求的重要目标。人类解数学题时,不仅要得出正确答案,更重要的是要有清晰的推理过程——每一步都有理有据,可以被验证和理解。然而,当前的人工智能系统虽然在某些数学任务上表现出色,但它们的推理过程往往像黑盒子一样神秘莫测,特别是当涉及到图像和文字结合的复杂数学问题时,这个问题变得更加突出。

清华大学的研究团队就像探险家一样,决定攻克这个看似不可能的难题。他们发现,之前的研究主要关注纯文字的数学推理,而对于那些需要同时理解图像和文字的复杂数学问题,比如几何图形分析或者图表数据解读,现有的AI系统往往力不从心。更关键的是,即使这些系统能给出正确答案,我们也无法知道它们的推理过程是否真正可靠。

这就好比一个学生在考试中写出了正确答案,但是解题步骤完全错误——运气好的话能蒙对,但这种方法显然不可靠。研究团队意识到,要让AI在多模态数学推理上真正可信,就必须建立一套能够评估和指导推理过程的机制,这就是他们提出的过程奖励模型(Process Reward Model,简称PRM)。

研究团队面临的挑战可以用修建一座桥梁来比喻。第一个挑战就像缺乏足够好的建筑材料——现有的多模态数学推理数据质量不够高,数量也不够多,这限制了AI系统的基础能力。第二个挑战则像缺乏质量检查员——没有自动化的方法来标注和评估多模态推理过程中每一步的正确性。第三个挑战最为棘手,就像工人们容易偷工减料一样,当AI系统知道如何获得奖励时,它们可能会走捷径,表面上推理过程看起来不错,实际上却存在严重问题。

一、构建坚实基础:MMathCoT-1M数据集的创建

为了解决第一个挑战,研究团队像勤劳的农夫一样,从各种现有资源中精心收集和培育出了一个规模庞大的高质量数据集。他们将这个数据集命名为MMathCoT-1M,其中包含了超过一百万个多模态数学推理样本,每个样本都包含了完整的思维链(Chain-of-Thought)推理过程。

这个过程就像烹饪大师为不同类型的食材设计专门的处理方法。研究团队发现,原始数据可以分为三大类:只有答案没有推理过程的"答案型"数据,有简单分析但缺乏清晰步骤的"分析型"数据,以及已经有完整推理但格式不统一的"推理型"数据。

对于"答案型"数据,研究团队采用了"推理扩展"策略。这就像看到一道菜的成品后,请大厨还原出完整的制作步骤。他们使用先进的语言模型Gemini-1.5-Flash-002作为"推理大厨",根据题目和正确答案,逆向推导出详细的解题步骤。这个过程需要特别小心,确保生成的推理过程真实可信,而不是简单的胡编乱造。

对于"分析型"数据,团队使用了"重写策略"。这类数据虽然有一些解题思路,但往往跳跃性太大,缺乏清晰的逻辑链条。研究团队就像编辑一样,将这些零散的分析重新组织成条理清晰、步步为营的推理过程,让每一步都有明确的逻辑依据。

对于"推理型"数据,团队采用了"格式统一"策略。这些数据已经有了完整的推理过程,但表达方式五花八门,有的使用数学符号,有的使用规范的学术语言,有的则比较口语化。研究团队将它们统一转换为自然、流畅的表达方式,就像将不同方言的故事翻译成标准普通话一样。

整个数据处理过程还包含了严格的质量控制环节。研究团队设置了双重检查机制:首先检查生成的推理过程是否真的能导向正确答案,其次检查推理过程是否存在自相矛盾或者无理假设的问题。经过这些精心处理,最终得到的MMathCoT-1M数据集成为了训练强大数学推理模型的珍贵资源。

基于这个高质量数据集,研究团队训练出了URSA-8B模型。这个模型就像一个经过严格训练的数学学霸,不仅能够理解复杂的图文结合的数学问题,还能给出详细、可靠的解题步骤。在多个标准测试中,URSA-8B都表现出色,为后续的过程奖励建模打下了坚实基础。

二、建立质量监督:DualMath-1.1M过程标注体系

解决了数据基础问题后,研究团队面临第二个重大挑战:如何自动标注推理过程中每一步的正确性。这就像需要培训一位严格的数学老师,能够仔细检查学生解题的每一个步骤,并准确指出问题所在。

传统的方法主要关注最终答案是否正确,但研究团队认为这还远远不够。在多模态数学推理中,一个看似正确的步骤可能存在两类问题:逻辑错误和感知错误。逻辑错误就像计算错误或定理应用错误,而感知错误则是对图像信息的误解或误读。

为了解决这个复杂问题,研究团队设计了一个"双视角"的标注系统,他们称之为DualMath-1.1M。这个系统就像配备了两种不同检测仪器的质量检查员,能够从不同角度发现推理过程中的问题。

第一个检测器被称为"二分错误定位引擎"(Binary Error Locating Engine),它的工作原理就像医生使用排除法诊断疾病。当发现一个推理过程最终导向错误答案时,这个引擎会使用类似于"二分查找"的高效方法来定位第一个出错的步骤。具体来说,它会从推理过程的中间某一步开始,生成多个后续可能的推理路径,然后看看这些路径能否导向正确答案。如果可以,说明错误在后半部分;如果不行,说明错误在前半部分。通过这种方式,能够快速锁定问题所在,而不需要逐一检查每个步骤。

第二个检测器被称为"误解插入引擎"(Misinterpretation Insertion Engine),它专门处理多模态推理中特有的感知错误问题。这个引擎的工作方式颇有创意:它会故意在正确的推理过程中插入对图像信息的误解,然后观察这种误解如何影响后续的推理步骤。

比如,在一道几何题中,如果图中显示角度为60度,误解插入引擎可能会故意"误读"为65度,然后基于这个错误信息继续推理。这样做的目的不是为了制造错误,而是为了训练系统识别这类感知不一致的问题。通过大量这样的"故意出错"练习,系统就能学会识别真实推理中可能出现的类似问题。

这两个引擎协同工作,最终生成了包含110万个样本的DualMath-1.1M数据集。每个样本都经过了细致的步骤级标注,明确指出了推理过程中哪些步骤是正确的,哪些是错误的,以及错误的具体类型。

基于这个精心标注的数据集,研究团队训练出了URSA-8B-RM过程奖励模型。这个模型就像一位经验丰富的数学老师,不仅能够判断最终答案的正误,更重要的是能够评估推理过程中每一步的质量和可靠性。在各种测试中,这个过程奖励模型都表现出了出色的判断能力,能够有效识别推理过程中的各种问题。

三、智能优化训练:PS-GRPO算法的突破

有了高质量的基础模型和可靠的过程评估工具,研究团队面临最后也是最困难的挑战:如何将过程奖励有效地整合到模型训练中,让AI系统不仅追求正确答案,更要追求正确的推理过程。

传统的做法看似简单直接:给推理过程中的每一步打分,分数高的步骤就多奖励,分数低的就少奖励或者惩罚。但研究团队通过深入实验发现,这种"直接打分"的方法存在两个严重问题。

第一个问题被称为"奖励欺骗"。AI系统很快学会了如何迎合评分系统,产生看似完美但实际上华而不实的推理过程。这就像学生学会了应试技巧,能写出格式工整、用词规范的答案,但实际理解可能存在问题。系统会倾向于使用那些通常能获得高分的表述方式和推理模式,而不是真正解决问题。

第二个问题是"长度偏见"。研究团队发现,过程奖励模型往往对较短的推理过程给出更高评分,因为短的推理过程出错的机会相对较少。这导致AI系统越来越倾向于给出简短、保守的答案,避免进行复杂但必要的推理步骤。这就像一个人为了避免犯错而选择什么都不做,显然不是我们想要的结果。

面对这些挑战,研究团队提出了一个巧妙的解决方案:PS-GRPO算法(Process-Supervised Group-Relative-Policy-Optimization)。这个算法的核心思想是不再直接使用过程奖励的绝对数值,而是关注过程奖励中的"相对变化信号"。

PS-GRPO算法的工作原理就像一位经验丰富的教练在指导运动员。教练不会简单地说"你这个动作得8分,那个动作得6分",而是更关注"这个动作比刚才那个动作好在哪里,问题出在哪里"。具体来说,算法会寻找推理过程中过程奖励发生显著下降的"转折点"——这通常意味着从这一步开始,推理可能出现了问题。

当系统检测到这样的"转折点"时,即使最终答案是正确的,也会对这个推理过程施加一定的惩罚。这种做法鼓励系统追求不仅结果正确、而且过程也严谨的解决方案。就像老师不仅看学生是否得出正确答案,更要看学生的解题思路是否清晰合理。

这种方法巧妙地避免了前述的两个问题。首先,因为不再直接优化过程奖励的绝对值,系统无法简单地通过迎合评分标准来获得奖励。其次,因为惩罚机制基于的是奖励变化而非绝对长度,系统不会因为害怕犯错而刻意缩短推理过程。

研究团队通过大量实验验证了PS-GRPO算法的有效性。结果显示,使用这种新算法训练的模型在保持推理过程质量的同时,最终准确率也得到了显著提升。更重要的是,生成的推理过程更加自然、合理,更符合人类的思考方式。

四、卓越性能验证:全面超越现有系统

经过三个阶段的精心构建,研究团队最终得到了URSA-8B-PS-GRPO模型——一个在多模态数学推理方面表现卓越的AI系统。为了验证这个系统的真实水平,研究团队进行了全面而严格的评估实验。

评估过程涵盖了六个不同的标准测试集,每个都代表着多模态数学推理的不同挑战。MathVerse测试集专门评估模型在不同文本-图像信息组合下的表现;MathVision测试集覆盖了16种不同的数学能力;MathVista测试集重点考查几何问题求解能力;WE-MATH测试集评估复合问题的分解和解决能力;DynaMath测试集测试数学推理的鲁棒性;GeoQA测试集则专注于几何问答能力。

实验结果令人惊喜。在这些具有挑战性的测试中,URSA-8B-PS-GRPO不仅超越了所有同等规模的开源模型,甚至在平均表现上超过了商用的GPT-4o模型。具体来说,它比当前最强的开源数学推理模型Gemma3-12B平均高出8.4个百分点,比GPT-4o平均高出2.7个百分点。这个成绩在学术界引起了广泛关注,因为这是首次有开源模型在多模态数学推理任务上全面超越闭源商业模型。

更值得关注的是模型在不同类型任务上的表现差异。在需要复杂几何分析的MathVista任务中,URSA-8B-PS-GRPO达到了83.2%的准确率,远超GPT-4o的62.6%。在需要理解图表和函数的MathVision任务中,它达到了31.5%的准确率,同样超过了GPT-4o的30.4%。这些结果表明,新模型在处理图像信息和推理过程整合方面确实取得了突破性进展。

研究团队还专门测试了过程奖励模型在"最佳答案选择"任务中的表现。在这种测试中,模型需要从多个候选答案中选择最好的一个,这更直接地反映了过程评估能力。结果显示,URSA-8B-RM在这类任务中consistently outperforms传统的自一致性方法和其他基线模型。即使在其他模型(如AtomThink-EMOVA)生成的答案中进行选择,URSA-8B-RM也能表现出良好的泛化能力。

为了更深入地理解模型的行为,研究团队还进行了详细的消融实验。他们发现,MMathCoT-1M数据集对模型性能的贡献最大,这证实了高质量训练数据的重要性。DualMath-1.1M数据集中的两个组件——二分错误定位和误解插入——都对最终性能有显著贡献,说明同时关注逻辑正确性和感知一致性的必要性。PS-GRPO算法相对于传统GRPO算法的优势在所有测试中都得到了验证,特别是在复杂推理任务中优势更加明显。

五、深度分析与发现:推理过程的奥秘

除了整体性能的提升,研究团队还深入分析了模型推理过程中的各种有趣现象,这些发现为未来的研究提供了宝贵的洞察。

通过分析大量的推理样例,研究团队发现了一个有趣的现象:那些最终答案正确但推理过程存在问题的"假阳性"回答。这类回答通常分为两种情况。第一种是"视觉条件不一致",即模型在理解图像信息时存在偏差,比如错误识别角度大小、边长关系或坐标数值,但最后通过某种巧合得到了正确答案。第二种是"捷径模式利用",即模型绕过了关键的推理步骤,直接基于图像特征和问题模式的correlation给出答案,虽然答案正确但推理过程不够严谨。

PS-GRPO算法的一个重要优势就是能够识别并抑制这类"假阳性"回答。通过过程奖励中的"转折点"检测,算法能够发现那些看似合理但实际存在问题的推理步骤,从而鼓励模型产生更加严谨和可靠的推理过程。

研究团队还发现了传统过程奖励建模方法失效的具体原因。当直接使用过程奖励数值进行优化时,模型很快学会了一种"保守策略":详细分析题目条件,使用标准化的表述方式,但在关键推理步骤上采取最安全的路径,即使这可能导致错误结论。这种行为模式表明,模型过分关注了获得高过程奖励,而忽略了真正的问题解决。

通过对比分析不同训练阶段的模型行为,研究团队还揭示了多模态数学推理能力的发展规律。他们发现,模型的数学推理能力遵循明显的scaling law:随着训练数据量的增加,模型性能呈现稳定的提升趋势。更重要的是,他们发现视觉-语言对齐阶段的训练对某些特定类型的任务(如MathVerse和MathVision)影响更大,而大规模指令微调则对所有任务都有均匀的促进作用。

六、技术创新与突破:多个第一次的实现

这项研究在多个方面实现了重要的技术突破,每一个都代表着该领域的重要进展。

首先,这是第一次有研究团队系统性地将过程奖励建模引入到多模态数学推理中。之前的过程奖励建模主要集中在纯文本的推理任务上,而多模态场景的复杂性——需要同时处理视觉信息和文本信息,需要保证跨模态的一致性——使得传统方法难以直接应用。URSA团队通过创新的双视角标注策略,成功解决了这个难题。

其次,MMathCoT-1M数据集是第一个百万级规模的高质量多模态数学推理数据集。之前的相关数据集要么规模较小,要么质量不够高,限制了模型的训练效果。这个数据集不仅规模庞大,更重要的是质量控制严格,每个样例都经过了多轮筛选和验证,为模型训练提供了坚实基础。

第三,DualMath-1.1M是第一个专门针对多模态推理的过程监督数据集。传统的过程监督主要关注逻辑推理的正确性,而这个数据集同时考虑了逻辑正确性和感知一致性,填补了该领域的重要空白。二分错误定位引擎和误解插入引擎的设计都具有很强的创新性,为自动化过程标注提供了新的思路。

第四,PS-GRPO算法首次成功解决了过程奖励在线强化学习中的奖励欺骗和长度偏见问题。这两个问题一直是该领域的技术难点,之前的研究要么避而不谈,要么采用临时性的修补措施。PS-GRPO通过巧妙的"过程作为结果"建模方式,从根本上解决了这些问题,为过程奖励的实际应用铺平了道路。

研究团队还在模型架构设计上做出了创新。他们采用了混合视觉编码器(SigLIP-L + SAM-B)的设计,能够同时处理高分辨率和低分辨率的图像信息,特别适合数学图形的精确识别。在语言模型选择上,他们使用了专门针对数学推理优化的Qwen2.5-Math-Instruct作为基础,这为模型的数学推理能力提供了更好的起点。

七、实际应用前景:改变数学教育和问题解决

URSA系统的成功不仅仅是学术研究的突破,更重要的是它展示了人工智能在实际应用中的巨大潜力,特别是在教育和问题解决领域。

在数学教育方面,URSA系统可以作为智能数学导师,不仅能够解决复杂的数学问题,更重要的是能够提供详细、可验证的解题步骤。这对于学生学习数学推理技能具有重要价值。传统的在线教育系统往往只能提供标准答案,而URSA能够展示完整的思考过程,帮助学生理解问题解决的逻辑。

系统的过程验证能力也为自动化评估开辟了新的可能性。在传统的数学考试中,老师需要人工检查学生的解题步骤,这不仅耗时耗力,而且容易出现主观判断的偏差。URSA的过程奖励模型可以自动识别解题过程中的问题,提供客观、一致的评估结果。这对于大规模的在线教育和自适应学习系统具有重要意义。

在科学研究领域,URSA系统展示的多模态推理能力可以应用于各种需要结合图像和数据分析的场景。比如,在材料科学研究中,需要分析电子显微镜图像并结合数值数据进行推理;在医学诊断中,需要综合医学影像和患者数据进行判断。URSA提供的框架为这些应用提供了技术基础。

更广泛地说,URSA系统代表了人工智能系统可解释性研究的重要进展。传统的AI系统往往被认为是"黑盒子",人们无法理解其决策过程。而URSA通过过程奖励建模,为AI系统的推理过程提供了透明性和可验证性。这种可解释性对于AI系统在高风险应用场景中的部署具有关键意义。

研究团队已经将URSA的代码、数据和模型权重全部开源,这意味着全世界的研究者和开发者都可以基于这个工作进行进一步的研究和应用开发。这种开放的研究态度有助于加速整个领域的发展,让更多的人受益于这项技术突破。

八、未来展望:通向通用AI推理的路径

虽然URSA系统已经取得了令人瞩目的成果,但研究团队也清醒地认识到当前工作的限制和未来需要改进的方向。

从技术层面来看,当前的系统主要针对数学推理任务进行了优化,而在其他需要复杂推理的领域(如物理、化学、工程等)的表现还需要进一步验证和改进。未来的研究可能需要扩展训练数据的覆盖范围,包含更多学科的推理样例。

过程奖励模型的评估标准也有进一步完善的空间。目前的模型主要关注逻辑正确性和感知一致性,但人类的推理过程还包含创造性、直觉判断、analogical reasoning等复杂因素。如何将这些更高层次的推理能力纳入评估框架,是一个值得深入探索的问题。

从应用角度来看,当前系统的computational requirement相对较高,这可能限制了其在资源受限环境中的部署。未来需要研究更加高效的模型架构和推理方法,使这种先进的推理能力能够在更广泛的场景中得到应用。

另一个重要的发展方向是多轮交互推理。当前的URSA系统主要处理单轮的问题解决,而真实的问题解决往往需要多轮的思考、验证和修正。如何扩展过程奖励框架以支持这种更复杂的交互模式,是一个有趣的研究方向。

研究团队也提到了伦理和安全方面的考虑。虽然URSA系统在数学推理方面表现出色,但如何防止其被恶意使用,如何确保其输出的准确性和可靠性,都需要进一步的研究和规范。

说到底,URSA项目代表了人工智能向着真正理解和推理迈出的重要一步。通过将推理过程变得透明和可验证,它不仅提升了AI系统的性能,更重要的是增强了人们对AI系统的信任。这种信任是AI技术在更多关键领域得到应用的基础。归根结底,这项工作向我们展示了一个令人激动的可能性:未来的AI系统不仅能够得出正确答案,更能够像人类专家一样,提供清晰、可信的推理过程。这不仅仅是技术的进步,更是人工智能向着真正的智能迈进的重要标志。对于每一个关注AI发展的人来说,URSA项目都值得深入了解和持续关注,因为它很可能预示着AI发展的下一个重要阶段的到来。

Q&A

Q1:URSA系统与GPT-4o这些商业模型相比有什么优势?

A:URSA系统最大的优势是在多模态数学推理任务上的表现超越了GPT-4o,平均准确率高出2.7个百分点。更重要的是,URSA提供完全可验证的推理过程,用户可以检查每一步的逻辑,而不像传统模型那样是"黑盒子"。此外,URSA完全开源,研究者可以自由使用和改进。

Q2:普通用户能否使用URSA系统来帮助解决数学问题?

A:目前URSA系统主要面向研究人员和开发者,代码和模型权重都已在GitHub开源。虽然普通用户可以通过技术手段部署使用,但需要一定的技术背景。研究团队很可能会在未来推出更易用的版本或与教育机构合作,让更多人能够受益于这项技术。

Q3:URSA的过程奖励模型是如何判断推理步骤正确性的?

A:URSA使用了创新的"双视角"评估方法。第一个是二分错误定位引擎,通过生成多个推理路径来快速找到第一个出错的步骤。第二个是误解插入引擎,专门识别对图像信息的误读问题。这两个引擎协同工作,既检查逻辑正确性,也验证视觉信息理解的准确性,确保整个推理过程的可靠性。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-