这项由南京大学国家重点软件技术实验室的张世茂、黄淑瑾等研究者与微软亚洲研究院的刘晓、龚业云等专家合作完成的研究,发表于2025年3月的arXiv预印本论文库。有兴趣深入了解的读者可以通过论文编号arXiv:2503.03746v1访问完整研究内容。
过去,训练人工智能解决数学问题就像请家教一样,需要人类老师不断给出评价和指导。然而,人类能力终究有限,这就像再好的家教也无法培养出超越自己水平的学生。如今,南京大学和微软的研究团队提出了一个革命性想法:让AI既当学生又当老师,通过"自我奖励"的方式不断提升数学推理能力。
想象一个学生在做数学题时,不仅要算出答案,还要像老师一样检查每一个步骤是否正确。这就是"过程式自我奖励语言模型"的核心思想。传统的AI训练方法只看最终答案对错,但这项研究让AI关注解题的每一个中间步骤,就像一位严格的数学老师会逐步检查学生的解题过程一样。
研究团队发现,现有的自我奖励方法在数学推理任务上表现不佳,甚至可能越训练越差。这就像一个学生用错误的学习方法,越努力反而越糟糕。问题的根源在于:第一,对于需要多步推理的复杂数学问题,传统方法无法提供精确的奖励信号;第二,给复杂数学解答打分比让AI进行两两比较更加困难,一致性也更差。
一、革命性的训练方法:让AI学会自我监督
这项研究的核心创新在于重新设计了AI的学习方式。传统方法就像让学生做完整套试卷后只告诉他总分,而新方法则像配备了一位贴身家教,对每个解题步骤都给出即时反馈。
具体来说,研究团队让AI掌握两项核心技能。首先是逐步数学推理能力,当面对复杂问题时,AI需要像人类学生一样一步步思考,将解题过程分解为多个清晰的步骤,每个步骤都以"第n步:"的格式输出。其次是逐步判断能力,AI需要像数学老师一样,能够评估给定推理步骤的质量,判断某个步骤是否正确或更优。
为了让AI获得这两项技能,研究团队精心构建了两套训练数据。第一套是指令微调数据,他们从NuminaMath数据集中提取了28889个样本,使用OpenAI的o1模型将原本的解答逐步分解为标准格式。第二套是评估微调数据,由于没有现成的逐步判断数据集,研究团队先训练了一个过程奖励模型,通过蒙特卡洛树搜索生成候选步骤,再用GPT-o1生成详细的判断和解释。
整个训练过程就像培养一位既会解题又会改卷的全能数学老师。AI首先通过基础训练掌握这两项技能,然后进入自我提升的循环:生成多个候选的下一步推理,对这些候选步骤进行两两比较判断,选出最好和最差的步骤形成偏好对,最后通过直接偏好优化技术来改进模型。
二、智能搜索策略:像下棋一样解数学题
研究团队设计的推理过程就像一场精密的棋局。对于每个推理步骤,AI会生成多个候选方案,就像棋手会考虑多种走法一样。然后,AI会对这些候选方案进行两两比较,通过投票机制选出最优和最差的选项。
这个过程可以用一个简单的公式来描述:对于第l步的第i个候选方案,AI会将其与所有其他候选方案比较,获得一个综合评分。评分最高的方案被选为最佳步骤,评分最低的成为最差步骤,两者组成训练用的偏好对。
特别值得注意的是,如果所有候选步骤的评分相同,说明AI无法区分好坏,这时系统会放弃当前步骤,回退到上一步重新开始。这种"反悔机制"确保了训练数据的质量,就像一位谨慎的学生发现解题思路有问题时会主动回头重新思考。
通过这种逐步的偏好优化,AI不仅学会了生成正确的最终答案,更重要的是学会了生成正确的中间推理步骤。这就像培养学生不仅要得出正确结果,更要掌握正确的思维过程。
三、循环迭代的自我提升机制
研究团队设计的训练流程是一个完整的循环系统。从基础模型M0开始,首先通过监督微调得到M1,这个模型已经具备了基本的逐步推理和判断能力。然后,M1开始生成自己的训练数据,通过逐步搜索和自我判断创建偏好对,再用这些数据训练得到M2。
这个过程会不断重复,每一代模型都比前一代更强。研究团队进行了四轮迭代,最终得到M4模型。整个过程就像一个学生通过不断的自我练习和反思逐步提高,每次都在前一次的基础上取得进步。
值得注意的是,随着迭代的进行,AI生成的推理步骤呈现出有趣的变化趋势:步骤数量逐渐减少,但每个步骤的长度逐渐增加。这表明AI学会了生成更高质量、更详细的单步推理,用更少但更精确的步骤达到最终答案。这就像一个学生从最初的小步快跑逐渐成长为大步流星的高手。
四、突破性的实验结果
研究团队在多个数学推理基准测试上验证了方法的有效性。他们选择了Qwen2.5-Math系列模型作为基础,分别测试了7B和72B参数规模的版本。测试涵盖了从基础的GSM8k和MATH数据集,到更具挑战性的高考2023英文版、奥林匹克数学竞赛、AIME2024和AMC2023等多个基准。
实验结果令人振奋。以72B模型为例,经过四轮自我奖励训练后,模型在所有测试基准上都显示出稳定的性能提升。特别是在一些复杂任务上,提升幅度尤为显著。比如在AIME2024测试中,准确率从13.3%提升到23.3%,在AMC2023中从45.0%提升到57.5%。
更重要的是,研究团队的方法在各个基准测试上都超越了传统的自我奖励方法。通过对比从M1到M4的性能变化,可以清楚地看到过程式自我奖励方法带来了更稳定、更显著的改进。这种优势在7B和72B两个不同规模的模型上都得到了验证,说明方法具有良好的通用性。
研究团队还发现,较大的模型(72B)比较小的模型(7B)获得了更稳定的改进效果。这可能是因为大模型具有更强的数学推理和判断能力,能够更好地利用自我奖励机制。
五、深入分析:AI判断能力的演变
除了数学推理能力的提升,研究团队还深入分析了AI作为"判官"的表现。他们构建了500个测试样本来评估AI进行逐步判断的准确性。结果显示,在经过少量评估微调数据的初始化后,AI就能达到很高的判断准确率:7B模型达到92.8%,72B模型更是高达95.6%。
有趣的是,虽然在后续迭代中没有加入新的判断训练数据,AI的判断能力依然保持在较高水平。研究团队观察到一个一致的模式:判断准确率先上升,然后略有下降,最后再次上升。这个现象可以这样理解:最初AI通过评估数据获得强判断能力,随后在数学训练中略有波动,但随着数学能力的整体提升,判断能力也相应改善。
这种现象说明了数学推理能力和判断能力之间的相互促进关系。一个数学能力更强的AI,自然也能更准确地判断推理步骤的质量,形成了良性循环。
六、数据分布与推理模式的变化
研究团队通过数据可视化分析发现了训练过程中的有趣现象。他们使用BERT嵌入和t-SNE降维技术分析了不同类型数据的分布情况。结果显示,评估微调数据和指令微调数据在分布上并不重叠,这使得AI能够清晰地区分两种不同的任务模式,避免了相互干扰。
同时,模型生成的偏好对数据与指令微调数据的分布有所不同,但与评估数据相对独立。这种分布特性有助于AI在迭代过程中同时提升数学推理和判断能力,而不会因为训练数据的混杂而产生负面影响。
在推理模式方面,研究团队发现了一个清晰的趋势:随着迭代进行,AI生成的推理步骤数量逐渐减少,但每个步骤的平均长度不断增加。这表明AI学会了生成更高质量、更详细的单步推理,能够在更少的步骤中完成更复杂的思考过程。
这种变化反映了AI推理能力的质的提升。就像一个经验丰富的数学家能够用简洁而深刻的方式解决复杂问题,而初学者则需要更多的小步骤。
七、测试时扩展能力的验证
研究团队还验证了训练后的AI在测试时扩展能力方面的表现。测试时扩展是指AI在推理过程中进行搜索和选择,类似于人类在考试时会仔细思考和检查。
实验结果显示,经过过程式自我奖励训练的AI在测试时扩展方面表现优异。与直接生成答案相比,通过搜索和选择能够获得更好的性能。更重要的是,从M1到M4的迭代过程中,AI的测试时扩展能力也在不断提升,这与其数学推理和判断能力的提升是一致的。
这个结果证明了AI不仅在训练时学会了更好的推理模式,在实际应用时也能够有效利用额外的计算资源来获得更准确的结果。这为AI在实际数学问题解决中的应用提供了更多可能性。
八、方法的局限性与未来展望
尽管取得了显著成果,研究团队也诚实地指出了当前方法的局限性。首先,初始化模型M1的基础能力直接影响后续过程式自我奖励的效果。如果基础模型的数学推理和判断能力较弱,后续的自我训练效果也会受到限制。这意味着需要更高质量的初始化数据来确保良好的起点。
其次,由于计算资源限制,当前研究只进行了四轮迭代实验。更多轮次的迭代是否能带来进一步提升,以及性能提升何时会达到瓶颈,这些问题还需要更深入的研究。
此外,研究主要聚焦于数学推理任务。这种过程式自我奖励方法是否能够推广到其他需要多步推理的任务,如科学推理、逻辑推理等,也是值得探索的方向。
展望未来,这项研究为AI的自主学习和能力提升开辟了新的道路。通过让AI学会自我监督和自我改进,我们可能最终实现超越人类专家水平的AI系统。这不仅在数学领域有重要意义,在科学研究、工程设计等需要复杂推理的领域都可能产生深远影响。
结论
说到底,这项研究最大的意义在于展示了AI自主学习的巨大潜力。通过让AI既当学生又当老师,研究团队成功打破了传统训练方法的瓶颈,实现了性能的持续提升。这就像培养了一个永不疲倦、不断自我完善的学习者。
归根结底,这种过程式自我奖励的思想可能会彻底改变我们训练AI的方式。不再需要大量的人工标注和外部监督,AI可以通过自我反思和改进达到更高的水平。这对普通人意味着什么呢?未来我们可能会看到更智能的AI助手,它们不仅能解决复杂的数学问题,还能在解题过程中提供清晰的步骤说明,真正成为人类学习和工作的得力伙伴。
当然,这项研究也提出了一个有趣的哲学问题:当AI学会了自我教育和自我评判,它们是否已经具备了某种形式的"智慧"?虽然我们还无法给出确定答案,但可以肯定的是,这种技术将为教育、科研和日常问题解决带来革命性变化。
对于那些对AI技术发展感兴趣的读者,这项研究提供了一个精彩的案例,展示了如何通过巧妙的设计让机器实现自我超越。有兴趣深入了解技术细节的朋友,可以通过arXiv:2503.03746v1查阅完整的研究论文。
Q&A
Q1:什么是过程式自我奖励,它与传统AI训练有什么不同? A:过程式自我奖励是让AI像老师一样检查自己每个解题步骤的方法。传统训练只看最终答案对错,而这种方法关注解题过程中的每一步,AI会生成多个候选步骤,然后自己判断哪个更好,用这些判断结果来改进自己,实现持续的自我提升。
Q2:AI会不会真的超越人类数学家? A:目前还没有,但这项研究显示了这种可能性。通过自我奖励训练,AI在多个数学竞赛基准上都获得了显著提升,有些甚至接近人类专家水平。不过AI还缺乏创造性思维和直觉,完全超越人类数学家还需要更多突破。
Q3:普通人能用到这种技术吗? A:虽然这项技术还处于研究阶段,但未来很可能出现在智能教育软件、在线学习平台中。你可能会用到能够逐步解释数学题、检查解题过程的AI家教,它们不仅给出答案,还能像真正的老师一样指出每一步的对错和原因。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。