近年来,大型语言模型(LLMs)在各个领域都展现出了惊人的能力,从日常对话到复杂的推理任务,它们似乎无所不能。但是,当面对数学这个需要严密逻辑和精确计算的领域时,如何让AI既能准确解题又能高效运行,一直是研究者们头疼的问题。
这项由东京大学、京都Rist公司和Sakana AI公司合作完成的研究,发表于2025年7月的第42届国际机器学习大会(ICML 2025)第二届AI数学研讨会上。有兴趣深入了解的读者可以通过https://github.com/analokmaus/kaggle-aimo2-fast-math-r1访问完整的研究代码和模型。研究团队由东京大学的Hiroshi Yoshihara、京都Rist公司的Taiki Yamaguchi以及Sakana AI的Yuichi Inoue领导。
这个研究团队发现了一个有趣的现象:长期以来,研究者们一直在争论到底应该用监督学习(SFT)还是强化学习(RL)来训练数学AI。这就像是在讨论做菜时到底应该先调味还是先炒制一样,大家各持己见。但是,这个团队提出了一个全新的视角——为什么不把这两种方法结合起来,发挥各自的优势呢?
他们提出的训练"配方"非常简单却有效:首先用监督学习进行长时间的"精雕细琢",让模型的解题准确率达到极限;然后再用强化学习进行"效率优化",让模型在保持高准确率的同时,大幅减少生成答案所需的文字长度。这种方法就像是先让学生刻苦练习提高解题能力,再教他们如何用更简洁的方式表达解题过程。
研究结果令人振奋。他们的模型在国际数学奥林匹克竞赛(AIMO)这个严格防止数据泄露的权威测试中,在超过2200支参赛队伍中获得了第8名的好成绩。更重要的是,这个模型不仅解题准确,而且生成的解题过程相对简洁,真正实现了"又准又快"的目标。
这项研究的意义不仅在于取得了优异的成绩,更在于为AI数学推理能力的发展提供了一个实用的训练框架。研究团队承诺将开源所有代码、模型和训练数据,让更多研究者能够在此基础上继续探索和改进。
一、重新审视AI数学学习的两大流派
在AI学习数学的世界里,长期存在着两个主要的训练流派,就像武侠小说中的两大门派一样,各有千秋但也各有局限。
第一个流派是监督学习(SFT),这就像是传统的师傅带徒弟模式。研究者们收集了大量的数学题目和标准答案,让AI模型通过反复学习这些"标准答案"来掌握解题技巧。这种方法的好处是稳定可靠,就像跟着经验丰富的老师学习一样,能够扎实地掌握基础知识。但是,这种方法也有一个明显的缺陷:AI只能学到数据集中已有的解题方法,很难突破原有的知识边界。
第二个流派是强化学习(RL),这更像是让AI在实战中自我摸索。系统会给AI一个奖励机制,解对了题目就得到奖励,解错了就受到惩罚。通过这种"试错学习",AI能够发现一些数据集中没有的新解题方法。但是,这种方法的问题在于训练过程不够稳定,就像让学生完全自学一样,容易出现各种意外情况。
过去的研究者们往往把这两种方法看作是互相竞争的关系,总是在争论哪种方法更好。但是,东京大学的研究团队提出了一个全新的思路:为什么不把它们结合起来,让各自的优势得到充分发挥呢?
他们发现,这两种方法其实在解决不同的问题。监督学习擅长提高解题的准确率,就像是让学生通过大量练习来提高解题能力;而强化学习则擅长优化解题的效率,就像是教会学生如何用更简洁的方式表达解题过程。
这个发现让研究团队意识到,与其让这两种方法互相竞争,不如让它们协同工作。于是,他们设计了一个两阶段的训练方案:先用监督学习打下扎实的基础,再用强化学习进行效率优化。这种方法就像是先让学生通过大量练习掌握扎实的基础知识,然后再教他们如何在考试中快速准确地答题。
二、突破传统的长期监督学习策略
在传统的AI训练中,监督学习通常只进行很短的时间,就像是给学生上几节课就让他们去考试一样。但是,这个研究团队发现了一个惊人的现象:当他们把监督学习的时间大幅延长到10个周期时,模型的表现出现了质的飞跃。
这个发现其实很有趣。在训练的初期,模型的表现甚至会出现暂时的下降,就像学生在学习新知识时会暂时感到困惑一样。但是,如果坚持继续训练,模型就会逐渐适应并最终达到更高的水平。这就像是运动员在高强度训练初期会感到疲劳,但经过持续训练后体能会得到显著提升。
研究团队在构建训练数据时也下了很大功夫。他们从三个不同的数据源精心挑选了约7900个高难度的数学问题。这些问题都有一个共同特点:它们都是那些即使是先进的AI模型也很难解决的难题。
从OpenR1 Math数据集中,他们选择了大约6000个问题,这些问题的特点是原始模型生成的解题过程特别长(超过12800个字符),而且准确率在50%到75%之间。这就像是选择了那些需要长篇大论才能解决,而且容易出错的复杂题目。
从openr1 hard数据集中,他们又选择了约2500个极具挑战性的问题。这些问题连32B参数的大型模型尝试四次都无法解决,可见其难度之高。
最后,他们还加入了Light-R1-SFT数据集中的第二阶段训练数据,进一步丰富了训练素材的多样性。
在数据处理过程中,研究团队特别注意去除重复内容,并且对每个问题都选择了最短的正确解答。这种做法就像是在教学中,老师会选择最简洁明了的解题方法来教授学生,避免冗长复杂的表述。
训练过程本身也经过了精心设计。他们使用了8张高性能的NVIDIA H200 GPU,这相当于动用了非常强大的计算资源。训练参数的设置也很有讲究:学习率设置为较低的1e-5,使用余弦学习率调度器,最大序列长度设置为24000个字符,这些设置都是为了确保模型能够稳定地学习复杂的数学推理过程。
整个训练过程持续了10个完整的周期,这在传统的AI训练中是相当长的时间。但正是这种"慢工出细活"的方法,让模型能够真正掌握复杂的数学推理能力。
三、强化学习的新角色:从提分转向提效
在第二阶段,研究团队引入了一种叫做GRPO(Group Relative Policy Optimization)的强化学习方法。这里需要澄清一个重要的观念转变:过去人们认为强化学习主要是为了提高准确率,但这个研究发现,强化学习在这个框架中的主要作用其实是提高效率。
这就像是在学生已经掌握了扎实的解题能力后,再教他们如何在考试中更快速、更简洁地表达答案。强化学习的目标不是让学生解出更多的题目,而是让他们用更少的文字表达同样准确的答案。
为了实现这个目标,研究团队设计了一个巧妙的奖励机制,包含三个组成部分。第一个是格式奖励,就像是给答案格式正确的学生加分。如果模型的输出符合预期的格式(比如答案放在规定的框中),就会得到+1的奖励,否则得到0。
第二个是余弦相似度奖励,这是一个更加精细的评价机制。对于格式正确的答案,系统会计算模型生成的解题过程与标准答案之间的相似度。如果答案正确,相似度奖励会在0.1到1.0之间变化,相似度越高(也就是解题过程越接近标准答案)奖励越高。如果答案错误,奖励会在-1.0到-0.1之间变化,这样就能更严厉地惩罚那些简短但错误的答案。
第三个是长度惩罚,直接针对生成文本的长度进行惩罚。这就像是在考试中,如果两个学生的答案都正确,那么用更少文字表达的学生会得到更高的分数。
这种奖励机制的设计非常聪明,它能够引导模型在保持准确性的同时,尽可能地简化解题过程。训练过程中,每次生成8个不同的答案,然后通过比较它们的奖励分数来调整模型的行为。这就像是让学生反复练习,通过比较不同答案的优劣来不断改进。
强化学习阶段的训练相对较短,只进行了50个步骤,但效果却非常显著。经过这个阶段的训练,模型不仅保持了高准确率,而且生成的解题过程变得更加简洁高效。
四、多维度实验验证效果显著
研究团队在多个权威的数学竞赛基准测试上验证了他们方法的有效性。这些测试就像是不同难度级别的数学考试,能够全面评估模型的表现。
在AIME 2024和AIME 2025这两个具有竞赛级别难度的测试中,结果令人印象深刻。以14B参数的模型为例,原始模型在AIME 2024上的准确率为63.3%,平均需要9590个字符来表达答案。经过10轮监督学习后,准确率提升到65.2%,但平均字符数增加到10268个。这说明虽然模型变得更准确了,但表达变得更冗长了。
接下来的强化学习阶段就发挥了关键作用。经过强化学习优化后,模型的准确率进一步提升到66.0%,同时平均字符数大幅减少到7932个。这意味着模型不仅更准确,而且表达更加简洁高效。
在AIME 2025的测试中,同样的趋势得到了验证。14B模型的准确率从原始的46.7%提升到最终的49.2%,同时平均字符数从10602个减少到9066个。
更有趣的是,这种改进效果在不同规模的模型上都得到了体现。1.5B参数的小模型虽然总体表现不如大模型,但同样在这个训练方案下获得了提升。7B参数的中等规模模型也表现出了类似的改进趋势。
在相对简单的MATH-500测试中,结果更加令人鼓舞。14B模型的准确率从原始的86.4%提升到最终的91.2%,同时平均字符数从2556个减少到2084个。这说明这种训练方法不仅在高难度问题上有效,在相对简单的问题上也能带来显著改善。
研究团队还进行了详细的消融实验,分析了不同奖励函数组合对结果的影响。他们发现,单纯的准确率奖励虽然能提高正确率,但不能有效控制答案长度。而他们设计的余弦相似度奖励结合长度惩罚的方案,能够在保持高准确率的同时显著减少答案长度。
特别值得关注的是,研究团队还进行了逐题分析,发现在大多数问题上,他们的方法都能同时提高准确率和减少答案长度。对于那些原本就很准确的问题,新方法能够在保持准确性的同时让答案更简洁。对于中等难度的问题,改进效果最为显著。只有对于最困难的问题,改进效果相对有限,这也为未来的研究指明了方向。
五、权威竞赛中的实战检验
最终的验证来自于AI数学奥林匹克竞赛(AIMO),这是一个具有严格防作弊措施的国际性竞赛。与普通的学术测试不同,AIMO采用了严格的数据隔离机制,确保参赛模型无法接触到测试数据,这就像是在完全封闭的考场中进行考试。
在这个包含超过2200支参赛队伍的激烈竞争中,研究团队的模型表现出色。在公开测试集上,他们的模型获得了29分(满分50分),排名第4位。在私有测试集上获得了28分,排名第8位。考虑到参赛队伍的庞大规模和竞争的激烈程度,这个成绩可以说是相当优异的。
更重要的是,这个结果证明了他们的方法具有很好的泛化能力。模型在公开测试集和私有测试集上的表现都很稳定,说明它没有出现过度拟合的问题,而是真正掌握了数学推理的能力。
这个竞赛结果特别有说服力,因为AIMO的评测环境完全模拟了真实的应用场景。在这种环境中,模型必须依靠自己学到的知识和推理能力来解决从未见过的问题,而不能依赖于记忆训练数据中的答案。
六、开源承诺与未来展望
研究团队展现出了令人赞赏的开放态度,承诺将完整的研究成果开源。这包括最终的模型权重、完整的训练和评估代码、所有精心筛选的数据集,以及强化学习阶段的全部检查点。这种开源精神就像是把自己的"独门秘籍"毫无保留地分享给整个学术界。
这种开源策略的意义不仅在于让其他研究者能够验证和复现他们的结果,更重要的是为整个AI数学推理领域提供了一个可靠的基础。其他研究团队可以在此基础上继续改进和创新,推动整个领域的发展。
从技术发展的角度来看,这项研究提出的两阶段训练方法很可能会成为AI数学推理领域的标准做法。它清晰地解决了监督学习和强化学习如何协同工作的问题,为未来的研究指明了方向。
当然,这项研究也还存在一些局限性和改进空间。比如,对于最困难的数学问题,当前的方法仍然改进有限。此外,如何进一步提高训练效率,以及如何将这种方法推广到其他推理任务中,都是值得探索的问题。
研究团队的工作也揭示了一个重要的观点:在AI发展中,准确性和效率不应该是相互对立的目标,而应该是可以同时实现的。通过巧妙的训练策略设计,我们可以让AI模型在保持高准确率的同时,变得更加高效实用。
说到底,这项研究为我们展示了一个重要的发展方向:AI不仅要能够解决复杂的问题,还要能够以人类可以理解和接受的方式来解决问题。一个能够给出简洁明了答案的AI,显然比一个只会长篇大论的AI更有实用价值。
归根结底,这项研究的意义远不止于在数学竞赛中取得好成绩。它为AI推理能力的发展提供了一个新的思路,证明了通过合理的训练策略组合,我们可以让AI变得既聪明又高效。这对于AI技术的实际应用和普及都具有重要意义。
对于普通读者来说,这项研究的启示是:未来的AI助手不仅会变得更加智能,还会变得更加简洁高效。当你向AI提问时,它不仅能给出正确答案,还会用最简洁明了的方式来表达。这种发展趋势无疑会让AI技术更加贴近人类的需求和习惯。
有兴趣深入了解这项研究的读者,可以访问他们的GitHub页面https://github.com/analokmaus/kaggle-aimo2-fast-math-r1,那里有完整的代码、数据和模型可供学习和使用。
Q&A
Q1:这个两阶段训练方法相比传统方法有什么优势? A:传统方法通常只用监督学习或强化学习中的一种,而这个方法巧妙地结合了两者的优势。先用长期监督学习让模型达到高准确率,再用强化学习优化效率,最终实现了"又准又快"的效果。在AIME测试中,14B模型准确率从63.3%提升到66.0%,同时答案长度从9590个字符减少到7932个字符。
Q2:为什么要进行10轮监督学习训练?这么长时间训练不会过拟合吗? A:研究团队发现,虽然初期训练会出现性能暂时下降,但长期训练(10轮)对提高数学推理能力至关重要。这就像运动员需要长期训练才能达到最佳状态一样。实验证明,短期训练往往无法充分发挥模型的潜力,而适当的长期训练反而能带来突破性的性能提升。
Q3:这个方法只适用于数学问题吗?能否推广到其他领域? A:虽然这项研究专注于数学推理,但其核心思想——先用监督学习建立扎实基础,再用强化学习优化效率——理论上可以应用到其他需要复杂推理的领域。比如代码生成、逻辑推理、科学问题解答等。不过具体的应用效果还需要进一步的研究验证。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。