微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 数学推理的新突破:让AI自己当老师又当学生,南京大学团队打造会自我奖励的智能模型

数学推理的新突破:让AI自己当老师又当学生,南京大学团队打造会自我奖励的智能模型

2025-07-30 20:50
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-30 20:50 科技行者

这项由南京大学国家重点软件技术实验室的张世茂、黄淑瑾等研究者与微软亚洲研究院的刘晓、龚业云等专家合作完成的研究,发表于2025年3月的arXiv预印本论文库。有兴趣深入了解的读者可以通过论文编号arXiv:2503.03746v1访问完整研究内容。

过去,训练人工智能解决数学问题就像请家教一样,需要人类老师不断给出评价和指导。然而,人类能力终究有限,这就像再好的家教也无法培养出超越自己水平的学生。如今,南京大学和微软的研究团队提出了一个革命性想法:让AI既当学生又当老师,通过"自我奖励"的方式不断提升数学推理能力。

想象一个学生在做数学题时,不仅要算出答案,还要像老师一样检查每一个步骤是否正确。这就是"过程式自我奖励语言模型"的核心思想。传统的AI训练方法只看最终答案对错,但这项研究让AI关注解题的每一个中间步骤,就像一位严格的数学老师会逐步检查学生的解题过程一样。

研究团队发现,现有的自我奖励方法在数学推理任务上表现不佳,甚至可能越训练越差。这就像一个学生用错误的学习方法,越努力反而越糟糕。问题的根源在于:第一,对于需要多步推理的复杂数学问题,传统方法无法提供精确的奖励信号;第二,给复杂数学解答打分比让AI进行两两比较更加困难,一致性也更差。

一、革命性的训练方法:让AI学会自我监督

这项研究的核心创新在于重新设计了AI的学习方式。传统方法就像让学生做完整套试卷后只告诉他总分,而新方法则像配备了一位贴身家教,对每个解题步骤都给出即时反馈。

具体来说,研究团队让AI掌握两项核心技能。首先是逐步数学推理能力,当面对复杂问题时,AI需要像人类学生一样一步步思考,将解题过程分解为多个清晰的步骤,每个步骤都以"第n步:"的格式输出。其次是逐步判断能力,AI需要像数学老师一样,能够评估给定推理步骤的质量,判断某个步骤是否正确或更优。

为了让AI获得这两项技能,研究团队精心构建了两套训练数据。第一套是指令微调数据,他们从NuminaMath数据集中提取了28889个样本,使用OpenAI的o1模型将原本的解答逐步分解为标准格式。第二套是评估微调数据,由于没有现成的逐步判断数据集,研究团队先训练了一个过程奖励模型,通过蒙特卡洛树搜索生成候选步骤,再用GPT-o1生成详细的判断和解释。

整个训练过程就像培养一位既会解题又会改卷的全能数学老师。AI首先通过基础训练掌握这两项技能,然后进入自我提升的循环:生成多个候选的下一步推理,对这些候选步骤进行两两比较判断,选出最好和最差的步骤形成偏好对,最后通过直接偏好优化技术来改进模型。

二、智能搜索策略:像下棋一样解数学题

研究团队设计的推理过程就像一场精密的棋局。对于每个推理步骤,AI会生成多个候选方案,就像棋手会考虑多种走法一样。然后,AI会对这些候选方案进行两两比较,通过投票机制选出最优和最差的选项。

这个过程可以用一个简单的公式来描述:对于第l步的第i个候选方案,AI会将其与所有其他候选方案比较,获得一个综合评分。评分最高的方案被选为最佳步骤,评分最低的成为最差步骤,两者组成训练用的偏好对。

特别值得注意的是,如果所有候选步骤的评分相同,说明AI无法区分好坏,这时系统会放弃当前步骤,回退到上一步重新开始。这种"反悔机制"确保了训练数据的质量,就像一位谨慎的学生发现解题思路有问题时会主动回头重新思考。

通过这种逐步的偏好优化,AI不仅学会了生成正确的最终答案,更重要的是学会了生成正确的中间推理步骤。这就像培养学生不仅要得出正确结果,更要掌握正确的思维过程。

三、循环迭代的自我提升机制

研究团队设计的训练流程是一个完整的循环系统。从基础模型M0开始,首先通过监督微调得到M1,这个模型已经具备了基本的逐步推理和判断能力。然后,M1开始生成自己的训练数据,通过逐步搜索和自我判断创建偏好对,再用这些数据训练得到M2。

这个过程会不断重复,每一代模型都比前一代更强。研究团队进行了四轮迭代,最终得到M4模型。整个过程就像一个学生通过不断的自我练习和反思逐步提高,每次都在前一次的基础上取得进步。

值得注意的是,随着迭代的进行,AI生成的推理步骤呈现出有趣的变化趋势:步骤数量逐渐减少,但每个步骤的长度逐渐增加。这表明AI学会了生成更高质量、更详细的单步推理,用更少但更精确的步骤达到最终答案。这就像一个学生从最初的小步快跑逐渐成长为大步流星的高手。

四、突破性的实验结果

研究团队在多个数学推理基准测试上验证了方法的有效性。他们选择了Qwen2.5-Math系列模型作为基础,分别测试了7B和72B参数规模的版本。测试涵盖了从基础的GSM8k和MATH数据集,到更具挑战性的高考2023英文版、奥林匹克数学竞赛、AIME2024和AMC2023等多个基准。

实验结果令人振奋。以72B模型为例,经过四轮自我奖励训练后,模型在所有测试基准上都显示出稳定的性能提升。特别是在一些复杂任务上,提升幅度尤为显著。比如在AIME2024测试中,准确率从13.3%提升到23.3%,在AMC2023中从45.0%提升到57.5%。

更重要的是,研究团队的方法在各个基准测试上都超越了传统的自我奖励方法。通过对比从M1到M4的性能变化,可以清楚地看到过程式自我奖励方法带来了更稳定、更显著的改进。这种优势在7B和72B两个不同规模的模型上都得到了验证,说明方法具有良好的通用性。

研究团队还发现,较大的模型(72B)比较小的模型(7B)获得了更稳定的改进效果。这可能是因为大模型具有更强的数学推理和判断能力,能够更好地利用自我奖励机制。

五、深入分析:AI判断能力的演变

除了数学推理能力的提升,研究团队还深入分析了AI作为"判官"的表现。他们构建了500个测试样本来评估AI进行逐步判断的准确性。结果显示,在经过少量评估微调数据的初始化后,AI就能达到很高的判断准确率:7B模型达到92.8%,72B模型更是高达95.6%。

有趣的是,虽然在后续迭代中没有加入新的判断训练数据,AI的判断能力依然保持在较高水平。研究团队观察到一个一致的模式:判断准确率先上升,然后略有下降,最后再次上升。这个现象可以这样理解:最初AI通过评估数据获得强判断能力,随后在数学训练中略有波动,但随着数学能力的整体提升,判断能力也相应改善。

这种现象说明了数学推理能力和判断能力之间的相互促进关系。一个数学能力更强的AI,自然也能更准确地判断推理步骤的质量,形成了良性循环。

六、数据分布与推理模式的变化

研究团队通过数据可视化分析发现了训练过程中的有趣现象。他们使用BERT嵌入和t-SNE降维技术分析了不同类型数据的分布情况。结果显示,评估微调数据和指令微调数据在分布上并不重叠,这使得AI能够清晰地区分两种不同的任务模式,避免了相互干扰。

同时,模型生成的偏好对数据与指令微调数据的分布有所不同,但与评估数据相对独立。这种分布特性有助于AI在迭代过程中同时提升数学推理和判断能力,而不会因为训练数据的混杂而产生负面影响。

在推理模式方面,研究团队发现了一个清晰的趋势:随着迭代进行,AI生成的推理步骤数量逐渐减少,但每个步骤的平均长度不断增加。这表明AI学会了生成更高质量、更详细的单步推理,能够在更少的步骤中完成更复杂的思考过程。

这种变化反映了AI推理能力的质的提升。就像一个经验丰富的数学家能够用简洁而深刻的方式解决复杂问题,而初学者则需要更多的小步骤。

七、测试时扩展能力的验证

研究团队还验证了训练后的AI在测试时扩展能力方面的表现。测试时扩展是指AI在推理过程中进行搜索和选择,类似于人类在考试时会仔细思考和检查。

实验结果显示,经过过程式自我奖励训练的AI在测试时扩展方面表现优异。与直接生成答案相比,通过搜索和选择能够获得更好的性能。更重要的是,从M1到M4的迭代过程中,AI的测试时扩展能力也在不断提升,这与其数学推理和判断能力的提升是一致的。

这个结果证明了AI不仅在训练时学会了更好的推理模式,在实际应用时也能够有效利用额外的计算资源来获得更准确的结果。这为AI在实际数学问题解决中的应用提供了更多可能性。

八、方法的局限性与未来展望

尽管取得了显著成果,研究团队也诚实地指出了当前方法的局限性。首先,初始化模型M1的基础能力直接影响后续过程式自我奖励的效果。如果基础模型的数学推理和判断能力较弱,后续的自我训练效果也会受到限制。这意味着需要更高质量的初始化数据来确保良好的起点。

其次,由于计算资源限制,当前研究只进行了四轮迭代实验。更多轮次的迭代是否能带来进一步提升,以及性能提升何时会达到瓶颈,这些问题还需要更深入的研究。

此外,研究主要聚焦于数学推理任务。这种过程式自我奖励方法是否能够推广到其他需要多步推理的任务,如科学推理、逻辑推理等,也是值得探索的方向。

展望未来,这项研究为AI的自主学习和能力提升开辟了新的道路。通过让AI学会自我监督和自我改进,我们可能最终实现超越人类专家水平的AI系统。这不仅在数学领域有重要意义,在科学研究、工程设计等需要复杂推理的领域都可能产生深远影响。

结论

说到底,这项研究最大的意义在于展示了AI自主学习的巨大潜力。通过让AI既当学生又当老师,研究团队成功打破了传统训练方法的瓶颈,实现了性能的持续提升。这就像培养了一个永不疲倦、不断自我完善的学习者。

归根结底,这种过程式自我奖励的思想可能会彻底改变我们训练AI的方式。不再需要大量的人工标注和外部监督,AI可以通过自我反思和改进达到更高的水平。这对普通人意味着什么呢?未来我们可能会看到更智能的AI助手,它们不仅能解决复杂的数学问题,还能在解题过程中提供清晰的步骤说明,真正成为人类学习和工作的得力伙伴。

当然,这项研究也提出了一个有趣的哲学问题:当AI学会了自我教育和自我评判,它们是否已经具备了某种形式的"智慧"?虽然我们还无法给出确定答案,但可以肯定的是,这种技术将为教育、科研和日常问题解决带来革命性变化。

对于那些对AI技术发展感兴趣的读者,这项研究提供了一个精彩的案例,展示了如何通过巧妙的设计让机器实现自我超越。有兴趣深入了解技术细节的朋友,可以通过arXiv:2503.03746v1查阅完整的研究论文。

Q&A

Q1:什么是过程式自我奖励,它与传统AI训练有什么不同? A:过程式自我奖励是让AI像老师一样检查自己每个解题步骤的方法。传统训练只看最终答案对错,而这种方法关注解题过程中的每一步,AI会生成多个候选步骤,然后自己判断哪个更好,用这些判断结果来改进自己,实现持续的自我提升。

Q2:AI会不会真的超越人类数学家? A:目前还没有,但这项研究显示了这种可能性。通过自我奖励训练,AI在多个数学竞赛基准上都获得了显著提升,有些甚至接近人类专家水平。不过AI还缺乏创造性思维和直觉,完全超越人类数学家还需要更多突破。

Q3:普通人能用到这种技术吗? A:虽然这项技术还处于研究阶段,但未来很可能出现在智能教育软件、在线学习平台中。你可能会用到能够逐步解释数学题、检查解题过程的AI家教,它们不仅给出答案,还能像真正的老师一样指出每一步的对错和原因。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-