微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 蒙纳什大学新突破:让AI数学推理像侦探破案一样精准

蒙纳什大学新突破:让AI数学推理像侦探破案一样精准

2025-08-07 14:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-07 14:17 科技行者

这项由澳大利亚蒙纳什大学数据科学与人工智能系的韩九洲、越南VinUniversity的Wray Buntine以及蒙纳什大学的Ehsan Shareghi共同完成的研究,发表于2025年8月的arXiv预印本平台(论文编号:arXiv:2508.01773v1)。对这项研究感兴趣的读者可以通过https://github.com/Jiuzhouh/UnPRM访问相关代码和数据。

当我们看到一个学生在解数学题时,通常能够判断他在哪一步开始出错。但让人工智能做到这一点却困难得多。就像训练一位新手侦探不仅要识别最终的破案结果,还要评估推理过程中每一个环节的正确性一样,让AI在复杂的数学推理中准确识别每个步骤的对错,一直是个巨大挑战。

目前的大语言模型在处理复杂数学问题时表现出色,但它们在多步骤推理过程中不可避免地会产生错误。这就好比一位经验丰富的侦探在调查复杂案件时,可能在某个关键线索的分析上出现偏差,从而影响整个推理链条。为了解决这个问题,研究人员开发了过程级奖励模型(Process Reward Models,简称PRMs),这种模型能够像资深督察一样,对推理过程中的每个步骤进行监督和评估,从而有效提升模型的推理能力。

然而,训练有效的PRMs需要高质量的过程奖励数据,而现有的数据构建方法往往劳动密集且效率低下。这就像培训一位督察需要大量经过精心标记的案例一样,传统方法要么依赖昂贵的人工标注,要么使用计算成本高昂的自动化方法。蒙纳什大学的研究团队针对这一难题,提出了一套基于不确定性驱动的自动化过程奖励数据构建框架,同时开发了两种创新的输出聚合方法,显著提升了数学推理的准确性和效率。

一、破解数据构建难题:不确定性成为破案线索

在传统的侦探工作中,经验丰富的老警探往往能够凭借直觉察觉到证人证词中的不确定之处,这些犹豫和矛盾往往指向案件的关键。研究团队发现,人工智能在数学推理中的不确定性同样具有重要价值。当AI模型在某个推理步骤上表现出不确定性时,这个步骤很可能包含错误或存在问题。

研究团队采用了基于熵的不确定性估计方法来量化每个候选解题方案的不确定性。具体来说,对于一个包含n个词汇的解题方案,他们会提取模型为每个生成词汇分配的对数概率。通过对这些概率应用softmax函数,得到概率分布,然后计算整个序列的熵值作为不确定性分数。较高的熵值表明模型在生成过程中缺乏信心,而较低的值则表示更加确定和果断的预测。

基于这种不确定性度量,研究团队设计了创新的PRM数据生成过程。他们首先为每个数学问题采样k个候选解答,并计算每个解答的不确定性分数。然后根据最终答案的正确性将解答分为正确和错误两类。关键的创新在于,他们专门选择不确定性最高的正确解答和错误解答来构建训练数据。这种策略就像专门收集那些看似正确但推理过程存在疑点的案例,以及那些明显错误但具有迷惑性的案例,这样的训练数据能够让PRM学会更好地识别推理过程中的细微错误。

这种有针对性的采样策略鼓励PRM从模糊或具有挑战性的推理轨迹中学习,从而提高其在推理过程中识别和区分步骤级正确性的能力。就像训练侦探时专门选择那些疑点重重的案例进行分析,这种方法能够让AI在面对复杂推理时具备更强的判断力。

二、精准定位错误:不确定性驱动的自动标注

确定了要分析哪些案例后,下一步就是准确识别推理过程中的错误步骤。传统方法通常寻找第一个错误步骤,就像侦探按时间顺序寻找案件中的第一个疑点。但研究团队提出了一种更加精准的方法:寻找不确定性最大的错误步骤。

他们的自动标注算法首先为所有正确解答中的每个步骤分配"正确"标签,假设这些步骤都没有错误。对于错误的解答,算法会计算每个步骤的不确定性,以及相邻步骤之间的不确定性变化量(称为不确定性增量)。这些增量能够识别模型不确定性急剧增加的位置,这些位置往往对应着推理错误发生的地方。

接下来,算法按照不确定性增量的大小对步骤进行排序,优先处理那些不确定性变化最大的步骤。对于每个候选步骤,算法采用自适应采样策略,从该步骤开始生成N个新的解答补全。然后使用蒙特卡罗方法计算基于困惑度的评分,这个评分反映了从该步骤开始能够得到正确最终答案的可能性。

如果某个步骤的蒙特卡罗困惑度评分低于预设阈值,就表明从这个步骤开始很难得到正确答案,因此将该步骤之前的所有步骤标记为正确,该步骤及之后的所有步骤标记为错误。这种方法不同于寻找第一个错误步骤的传统做法,而是专门定位推理过程中最不确定的错误,这样的训练数据能够帮助PRM更好地学会识别推理中的关键问题。

实验结果表明,这种不确定性驱动的标注方法在保持标注质量的同时,显著减少了计算成本。与传统的自适应二分搜索方法相比,新方法减少了52%的验证步骤数、34%的采样次数和40%的生成词汇量,大大提高了标注效率。

三、智能输出聚合:结合群体智慧与专家判断

当多位侦探对同一案件给出不同的推理结论时,如何选择最可靠的答案?传统方法主要有两种:多数表决(选择大多数侦探支持的结论)和专家评判(选择评分最高的专家意见)。但这两种方法都有局限性。多数表决在意见高度分散或者大多数人都犯同样错误时会失效,而专家评判可能在面对超出训练范围的新问题时判断失误。

研究团队针对这些局限性,提出了两种创新的不确定性感知输出聚合策略:混合多数奖励投票法(HMR)和加权奖励频率投票法(WRF)。这两种方法巧妙地结合了群体智慧的隐性信心信号和专家评判的显性步骤级反馈。

混合多数奖励投票法采用了一种灵活的决策机制。当某个答案在所有候选方案中出现的频率达到一半以上时,系统会直接选择这个多数答案,相信群体的判断。但如果没有答案达到绝对多数(即最高频答案的出现次数少于总数的一半),系统就会启动专家评判模式。在这种情况下,PRM会为每个候选解答计算步骤级评分,选择评分最高的解答对应的答案。这种策略结合了多数表决的稳健性和PRM评估的精细性,在明确共识和模糊情况下都能做出合理决策。

加权奖励频率投票法则提供了更加精细的聚合机制。该方法将每个候选答案的频率信息和PRM质量评估进行综合考虑。对于每个独特的答案,算法计算其平均PRM奖励分数和出现频率,然后对这两个指标进行归一化处理,确保它们在同一尺度上比较。最终的综合分数通过加权平均计算得出,其中权重参数α控制奖励质量和频率信息的相对重要性。在实验中,研究团队将α设置为0.5,给两个因素相等的权重。

这种方法的优势在于它能够在不同情况下自动调整决策策略。当群体意见一致时,频率信息占主导;当意见分散但某些解答质量明显更高时,PRM评分发挥更大作用。通过整合候选解答的共识程度和步骤级PRM奖励得出的置信度,WRF投票方法为答案聚合提供了更加细致和精确的机制。

四、实验验证:三个测试场景全面验证效果

为了验证这套方法的有效性,研究团队设计了全面的实验评估体系,就像一次大规模的侦探技能测试。他们使用了MATH数据集中的3500个具有挑战性的竞赛级数学问题来构建PRM训练数据。为了增加解题方案的多样性,团队采用了三种不同的大语言模型:Llama-3.1-8B-Instruct、Qwen2.5-7B-Instruct和Mistral-7B-Instruct。

对于每个模型,研究团队设置采样温度为0.8,为每个数学问题生成32个解答方案。然后应用不确定性驱动的PRM数据生成方法,选择不确定性最高的2个正确解答和6个错误解答。经过格式过滤和步骤分割后,他们使用自动化的不确定性驱动步骤标签标注方法,为来自三个模型的候选解答分配真假标签,最终产生了40000个标记训练样本,称为UnPRM40K。

为了进行对比验证,研究团队还构建了几个基准数据集。SimPRM40K使用相似性而非不确定性作为选择标准,选择余弦相似度分数最低的候选解答,然后使用相同的不确定性驱动标注方法进行标注。EpicPRM40K对相同的40000个样本使用自适应二分搜索方法重新标注,这种方法基于第一个错误步骤而非最不确定错误进行标注。RanPRM40K则随机选择错误步骤位置,作为控制组来评估错误步骤位置对模型性能的影响。

在PRM训练方面,研究团队使用Qwen2.5-Math-7B-Instruct作为基础模型。训练过程采用监督微调方法,输入包括问题陈述和中间推理步骤,各步骤之间用特殊标记分隔。模型使用二元交叉熵损失进行优化,目标是预测每个标注步骤的正确性。所有PRM都在单个A100 GPU上使用LoRA技术进行参数高效适应,训练三个周期。

实验结果令人印象深刻。在所有配置下,UnPRM40K始终优于SimPRM40K,证明了不确定性驱动的PRM数据生成比相似性驱动方法更有效。UnPRM40K的表现也与EpicPRM40K相当,验证了不确定性驱动标注方法的效率和有效性。正如预期,RanPRM40K表现最差,但由于正确解答的准确标记,仍显示出一定改进。

在输出聚合策略的测试中,两种不确定性感知方法(WRF和HMR)在所有PRM中都持续优于标准多数表决和传统PRM方法。性能随样本数量增加而提升。特别值得注意的是,当标准PRM方法表现不如多数表决时,使用HMR和WRF能带来显著的性能提升。在两种不确定性感知聚合策略中,WRF在大多数场景下表现出更好的稳健性。

五、深度分析:揭示不确定性的指导价值

为了更深入理解这套方法的工作机制,研究团队进行了详细的分析实验。他们发现,在使用Qwen2.5-Math-7B-Instruct在MATH数据集上的128个输出样本中,超过一半的问题模型都能在所有128次尝试中consistently预测出正确答案。相反地,大约100个问题模型连一次都无法给出正确答案。这种分布显示了广泛的频率范围,表明相当比例的问题在答案选择上并非简单明了。

通过可视化分析四种输出聚合方法(多数表决、PRM、HMR、WRF)在不同金标准答案频率下的正确性,研究团队发现了有趣的模式。当金标准答案出现频率很高(超过60次)时,多数表决方法能够可靠地选择正确答案,显示出强的模型置信度。然而,当金标准答案频率降至20以下时,多数表决的性能急剧下降,经常无法恢复正确响应。

相比之下,PRM方法即使在金标准答案不频繁(低于20)时仍能识别一些正确答案,尽管在高频场景下可能会犯错误。HMR和WRF策略通过整合多数表决和PRM信号,明显减少了在高频区域PRM单独使用时的错误。此外,WRF在中频范围(20到40之间)优于HMR,产生更多正确预测。

研究团队还分析了标注数据集UnPRM40K的统计特性。该数据集是使用三种不同的大语言模型生成和标注的,统计数据显示了算法的效率。平均采样步骤数反映了不确定性驱动搜索算法平均需要验证多少步骤才能定位到最不确定的错误步骤,其中1代表最优效率。在所有三个模型中,结果都非常接近1,表明不确定性驱动搜索算法在精确定位最不确定错误方面高度高效。

平均错误步骤不确定性排名显示了识别的错误步骤的不确定性排名,0为最优值。结果在所有三个模型中都consistent接近0,证明不确定性确实是定位错误的有效代理。这些发现与直觉一致,即大语言模型更可能在输出不太确定的地方犯错误。

六、计算效率的显著提升

在实际应用中,计算效率往往决定了一种方法是否具有实用价值。研究团队对两种自动化PRM数据标注算法的计算成本进行了详细比较。他们使用相同的1500个解答(包括460个正确解答和1040个错误解答)进行测试,两种方法都在单个A100 GPU上运行。

自适应二分搜索方法(用于EpicPRM40K)通过二分搜索过程标注数据,识别第一个错误步骤。相比之下,不确定性驱动搜索方法(用于UnPRM40K)定位最不确定的错误步骤进行标注。由于正确解答的标注不需要任何采样,计算成本主要由错误解答的标注驱动。

结果显示,不确定性驱动方法显著减少了验证步骤数(减少52%)、采样实例数(减少34%)和生成词汇数(减少40%)。这种计算效率的提升不仅使方法更具成本效益,同时还实现了与自适应二分搜索相当的性能。

这种效率提升的原因在于不确定性驱动方法能够更直接地定位到问题所在,而不需要按顺序搜索每个可能的错误位置。就像经验丰富的侦探能够根据线索直接锁定关键疑点,而不需要逐一排查每个细节一样,不确定性信号为错误定位提供了有效的导航。

七、局限性与未来展望

研究团队客观地指出了这套方法的局限性。虽然不确定性感知聚合方法整合了答案频率信息,但它们的性能可能受到多数表决基线质量的影响。在多数表决表现较差的场景中,将其与基于PRM的方法结合可能不会产生额外改进,甚至可能影响整体性能。

不过,研究发现这些聚合策略在多数表决表现更好或与PRM相当时特别有效。这就像在团队决策中,当团队成员意见相对一致时,结合个人专业判断往往能取得更好效果;但当团队整体判断力较差时,简单的组合可能不会带来显著改善。

尽管存在这些局限性,这项研究为提高大语言模型在数学推理任务中的性能开辟了新的方向。不确定性驱动的数据构建框架不仅提高了效率,还为理解和改进AI推理能力提供了新的视角。两种创新的输出聚合策略展示了结合不同信息源进行决策的潜力,这种思路可能在其他需要复杂推理的任务中也具有应用价值。

说到底,这项研究就像为AI训练了一套完整的"侦探技能"。通过不确定性这个关键线索,AI不仅能够更有效地学习如何识别推理错误,还能在面对复杂问题时做出更可靠的判断。随着这些技术的进一步发展和完善,我们有理由相信,AI在数学推理等需要精密逻辑思维的领域将展现出更加强大和可靠的能力。

对于普通读者来说,这项研究的意义在于它让我们看到了AI系统如何变得更加"智能"和"可靠"。当我们在日常生活中需要AI帮助解决复杂问题时,这种能够自我监督、自我纠错的能力将使AI成为更值得信赖的助手。有兴趣深入了解技术细节的读者可以访问研究团队在GitHub上公开的代码和数据,亲自体验这项技术的实际效果。

Q&A

Q1:不确定性驱动的PRM数据构建方法具体是如何工作的?

A:这种方法类似于训练侦探时专门选择疑点重重的案例。系统首先计算AI在每个解题步骤中的不确定性程度,然后专门挑选那些不确定性最高的正确答案和错误答案来训练模型。这样能让AI学会识别推理过程中最容易出错的关键环节,就像让侦探重点关注案件中最可疑的线索一样。

Q2:混合多数奖励投票法和加权奖励频率投票法有什么区别?

A:混合多数奖励投票法像是有条件的民主决策:当超过一半的答案一致时就采用多数表决,否则就听专家意见。而加权奖励频率投票法更像是综合评议,同时考虑答案的流行度和专业评分,通过加权平均得出最终结论,通常在各种情况下都更稳定可靠。

Q3:这项研究对普通人使用AI有什么实际意义?

A:这项研究让AI在解决复杂数学问题时变得更加可靠和值得信赖。当我们需要AI帮助处理需要多步骤推理的问题时,比如财务计算、工程设计或学习辅导,AI将能够更准确地识别自己的推理错误,给出更可靠的答案,减少因AI推理错误而产生的问题。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-