
这项由香港浸会大学王轩武教授、马静教授团队,联合蚂蚁集团的郑达、杜伦等研究人员以及复旦大学数据科学学院合作完成的研究,发表于2025年10月的arXiv预印本论文库,论文编号为2510.00732v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当你还是学生时,是否遇到过这样的情况:明明刚做对了一道数学题,但老师稍微改动几个字或换个说法,你就完全不会了?别担心,这个问题不只困扰着人类学生,就连目前最先进的人工智能也面临着同样的尴尬。
研究团队发现了一个有趣的现象:现在的AI数学专家虽然能解决很多复杂的数学证明问题,但它们就像"书呆子"一样,只会死记硬背,缺乏真正的理解能力。比如说,如果AI学会了证明"如果x乘以y等于0,那么x等于0或者y等于0",但当题目稍微变一下,改成"如果a乘以b等于0,那么a等于0或者b等于0",AI可能就糊涂了,即使这本质上是完全相同的数学问题。
这就好比一个厨师只会按照菜谱做菜,如果菜谱上写着"放入200克土豆",他就能做得很好,但如果换成"加入0.2公斤土豆",他就不知道该怎么办了,尽管这两个表达的意思完全一样。
为了解决这个问题,研究团队开发了一套名为"EvolProver"的训练方法,就像设计了一个特殊的"训练营",专门教AI如何举一反三。这个训练营的核心理念是从两个维度来增强AI的理解能力:对称性和难度梯度。
所谓对称性,就是教AI认识到数学中的不变本质。就像一个苹果,无论你从左边看还是右边看,它都还是那个苹果。数学问题也是如此,无论怎么换个说法或者调换顺序,其核心逻辑应该保持不变。研究团队设计了两种互补的方法来训练这种对称性理解能力。
第一种方法叫做"EvolAST",它的工作原理就像一个非常严谨的翻译官。当我们把一个数学表达式输入电脑时,电脑会把它转换成一种叫做"抽象语法树"的结构化表示,就像把一句话拆解成主语、谓语、宾语一样。EvolAST就是在这个结构化表示的基础上,运用数学中已经被证明的各种等价关系,来生成表达方式不同但意思完全相同的新问题。
比如,原来的问题可能是"证明x加1乘以x减1等于0意味着x等于1或x等于负1",经过EvolAST处理后,可能变成"证明x减1乘以x加1等于0意味着x等于负1或x等于1"。虽然表达顺序发生了变化,但数学本质完全没变。这就好比把"小明比小红高"改成"小红比小明矮",意思完全一样,只是表达方式不同。
第二种方法叫做"EvolDomain",它的作用是帮助AI理解不同数学领域之间的深层联系。数学就像一个大家庭,代数、几何、微积分等都是家庭成员,它们之间存在着奇妙的相似性。EvolDomain就像一个博学的老师,能够发现一个代数问题的逻辑结构,然后在几何或其他数学领域中找到具有相同逻辑结构的对应问题。
举个例子,原本是一个关于数字的代数问题:"证明如果x减1乘以x加1等于0,那么x等于1或x等于负1。"EvolDomain可能会把它转换成一个几何问题:"证明如果一个点P在单位圆上且在水平轴上,那么它的坐标必须是(1,0)或(-1,0)。"虽然一个讲的是数字,一个讲的是几何图形,但它们的逻辑结构是完全相同的。
除了对称性训练,研究团队还非常重视难度梯度的设计。他们发现,如果AI只在难度相近的题目上训练,就会形成思维定势,无法应对难度变化较大的问题。这就像一个运动员如果只进行相同强度的训练,就无法应对比赛中的各种意外情况。
为此,他们开发了"EvolDifficulty"方法,这就像一个智能的教练,能够系统性地调整题目的难度。这个"教练"掌握着五种主要的调节策略:调整逻辑结构的复杂程度、改变所需数学知识的深度、调节抽象程度、增加或减少限制条件,以及调整参数的复杂度。
比如说,如果原题是一个相对简单的二次方程问题,EvolDifficulty可以把它升级成一个需要用到更高级数学知识的问题,或者相反,把一个复杂的高等数学问题简化成基础的代数问题。这样,AI就能在各种难度层次的问题中得到训练,就像一个学生从简单的加减法一直练习到复杂的微积分,逐步建立起完整的数学能力。
整个训练过程还包含了严格的质量控制环节。就像食品生产需要质检一样,研究团队设计了双重验证机制。首先,所有生成的数学表达式都必须通过Lean 4编译器的语法检查,确保在形式上完全正确。然后,还要经过基于大语言模型的语义评估,检查生成的问题是否在数学意义上合理、前后一致,难度是否合适。只有通过这两轮严格筛选的问题才能进入最终的训练数据集。
经过这套精心设计的训练方法培养出来的EvolProver表现令人惊喜。在多个国际标准测试中,它都取得了突破性成果。在FormalMATH-Lite测试中,EvolProver达到了53.8%的成功率,超越了所有同等规模的模型,包括那些使用推理链条的模型。在MiniF2F-Test、Ineq-Comp-Seed、Ineq-Comp-Transformed等测试中,它也刷新了非推理模型的最好成绩。
特别值得一提的是,EvolProver在面对经过轻微变换的数学问题时表现尤其出色。研究团队专门设计了一个名为Ineq-Comp的测试,其中包含75个原始的奥林匹克级别不等式问题,以及150个对应的变换版本。这些变换版本看起来略有不同,但数学本质完全相同,就像前面提到的把"小明比小红高"改成"小红比小明矮"。
测试结果显示,EvolProver在处理这些变换问题时的成功率相对于原始问题的比例达到了65.17%,远远超过其他模型。这个数字意味着什么呢?简单来说,如果EvolProver能解决10道原始问题,那么当这些问题被轻微变换后,它仍然能解决其中的6到7道,而其他模型可能只能解决3到4道甚至更少。
研究团队还进行了详细的对比实验,验证每个组件的贡献。他们发现,即使是部分应用这套训练方法,也能带来10个百分点以上的性能提升。这就像在烹饪中,即使只是改进了调料的搭配,整道菜的味道也能有显著提升。
更令人兴奋的是,这套方法的效果具有普遍性。无论是在代数、几何、微积分还是数论等不同数学领域,EvolProver都展现出了更强的适应能力。特别是在一些原本表现较弱的领域,比如微积分,EvolProver甚至能够解决一些基准模型完全无法处理的问题。
从技术实现角度来看,这套方法还具有很好的可扩展性。EvolAST方法基于严格的数学等价关系,理论上可以整合任何已知的数学定理和公理作为变换规则。随着数学知识的不断积累,这个系统可以变得越来越强大,就像一个不断学习新技能的工匠,技艺会越来越精湛。
研究团队在论文中详细分析了不同策略的具体效果。他们发现,单纯使用传统的"先生成自然语言问题再形式化"的方法,验证通过率相对较低,而他们的直接进化形式化数学语句的方法效果显著更好。这就像直接在原材料上加工比先转换成半成品再加工更加高效可靠。
此外,研究还揭示了一个有趣的现象:通过EvolDomain方法,原本在数学领域分布极不均衡的训练数据变得更加平衡。比如,原始数据中代数问题占了57.5%,而微积分问题完全没有,经过EvolDomain处理后,代数问题降到20.1%,微积分问题增加到6.8%,整体分布变得更加合理。这种平衡对AI的全面发展非常重要,就像一个学生需要在各个科目上都有所涉猎,而不是只擅长某一门课。
值得一提的是,EvolProver虽然是一个"非推理"模型,即它不会像人类那样一步步展示解题过程,而是直接给出答案,但它的性能却能够媲甚至超越那些会展示推理过程的模型。这就像一个数学天才,虽然不善于解释自己的思考过程,但总能快速准确地给出答案。从实用角度来看,这种特性使得EvolProver在计算资源和时间效率方面具有显著优势。
研究团队在构建训练数据时采用了非常谨慎的方法。他们从大约330万个已验证的形式化数学表述中选取了7万个作为种子,经过演化和验证流程后,最终得到了约3.9万个高质量的训练样本。虽然数量有所减少,但质量得到了显著提升,就像精挑细选的食材虽然不多,但能做出更美味的佳肴。
整个训练过程分为两个阶段:监督微调和强化学习。监督微调阶段就像传统的课堂教学,AI通过观察正确的问题-答案对来学习。强化学习阶段则更像实际练习,AI需要自己尝试解决问题,根据成功或失败来调整自己的策略。这种两阶段的训练方法确保了AI既能掌握基础知识,又能在实际应用中灵活运用。
研究团队还特别关注了模型的鲁棒性,即面对各种变化时的稳定表现能力。他们发现,传统的AI模型往往过度依赖题目的具体表述方式,一旦表述发生变化就容易出错。而EvolProver通过系统性的对称性训练,显著提高了这种鲁棒性。这就像训练一个翻译,不仅要会翻译标准文本,还要能处理各种方言和表达习惯。
从更广阔的视角来看,这项研究揭示了人工智能学习的一个重要原理:多样性胜过数量。与其给AI喂食大量相似的训练数据,不如提供结构多样但本质相同的问题。这个发现对整个人工智能领域都有重要启示,不仅适用于数学证明,也可能适用于自然语言处理、图像识别等其他领域。
说到底,这项研究解决的不仅仅是一个技术问题,更是探索了智能学习的本质。真正的智能不应该是死记硬背,而应该是能够理解事物的本质,并在各种情况下灵活运用这种理解。EvolProver的成功表明,通过精心设计的训练方法,我们确实可以让AI获得这种更深层次的理解能力。
这项研究的意义远不止于数学证明本身。在未来,这种"举一反三"的能力可能会应用到教育、科研、工程设计等各个领域。比如,一个具备这种能力的AI助手可能能够帮助学生更好地理解数学概念,或者协助研究人员发现不同领域之间的隐藏联系。
当然,这项研究也提出了新的思考。如果AI能够在数学证明中展现出如此强的举一反三能力,那么在其他需要深度理解和灵活应用的领域,我们是否也能开发出类似的训练方法?这个问题的答案可能会决定人工智能发展的下一个重要方向。
对于普通人来说,这项研究最直接的意义可能在于未来的教育和学习工具。设想一下,如果有一个AI老师能够根据学生的理解程度自动调整题目难度,能够用不同的方式反复解释同一个概念直到学生真正理解,那么学习数学将变得更加高效和有趣。EvolProver的成功为这种未来的学习工具奠定了重要的技术基础。
Q&A
Q1:EvolProver是什么?它和其他AI数学模型有什么不同?
A:EvolProver是由香港浸会大学团队开发的AI数学证明模型,它的特别之处在于具备"举一反三"的能力。传统AI模型就像死记硬背的学生,稍微改变题目表述就不会了,而EvolProver通过特殊训练方法,能够理解数学问题的本质,即使题目换个说法也能正确解答。
Q2:EvolProver的训练方法具体是怎样的?
A:研究团队设计了三种核心方法:EvolAST通过数学等价变换生成表达不同但本质相同的问题;EvolDomain将同一逻辑结构的问题在不同数学领域间转换;EvolDifficulty系统性调整问题难度。这就像让AI在各种变化的环境中反复练习,最终获得真正的理解能力。
Q3:这项研究对普通人有什么实际意义?
A:这项研究最直接的应用前景是智能教育工具。未来可能出现能够根据学生理解程度自动调整难度、用多种方式解释同一概念的AI老师,让数学学习变得更高效有趣。此外,这种"举一反三"的训练方法也可能应用到其他AI领域,提升人工智能的整体理解能力。
好文章,需要你的鼓励
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。
南洋理工大学与腾讯联合研究团队开发出Rolling Forcing技术,实现AI视频实时流式生成的重大突破。该技术通过滚动窗口联合去噪、注意力锚点机制和高效训练算法三项创新,解决了长视频生成中的错误累积问题,可在单GPU上以16fps速度生成多分钟高质量视频,延迟仅0.76秒,质量漂移指标从传统方法的1.66降至0.01,为交互式媒体和内容创作开辟新可能。
华中科技大学研究团队发现,通过让AI模型学习解决几何问题,能够显著提升其空间理解能力。他们构建了包含约30000个几何题目的Euclid30K数据集,使用强化学习方法训练多个AI模型。实验结果显示,几何训练在四个空间智能测试基准上都带来显著提升,其中最佳模型达到49.6%准确率,超越此前最好成绩。这项研究揭示了基础几何知识对培养AI空间智能的重要价值。