
这项突破性的研究由上海AI实验室联合上海交通大学、北京大学、西班牙国家研究委员会以及香港中文大学多媒体实验室的研究团队共同完成,研究成果发表于2025年12月。论文第一作者赵海腾、沈俊豪和张一鸣来自上海AI实验室,通讯作者是上海AI实验室的张文伟和陈恺。感兴趣的读者可以通过arXiv预印本编号2512.10534查询完整论文。
你是否曾经被复杂的几何题难倒过?那些看似简单的图形背后,往往隐藏着令人头疼的证明过程。现在,一个名为InternGeometry的人工智能系统正在改变这一切。它不仅能够解决国际数学奥林匹克竞赛中最困难的几何问题,其表现甚至超过了大多数奥数金牌得主。
传统的几何证明就像拼图游戏,需要在正确的位置放置正确的辅助线和辅助点。对于人类来说,这个过程往往需要灵感和大量的试错。而对于人工智能来说,这更是一个巨大的挑战,因为几何问题的解决往往需要创造性的辅助构造,这种创造力很难用传统的算法来实现。
研究团队面临的核心挑战是如何让AI具备几何直觉。以往的几何AI系统,比如AlphaGeometry2,主要依赖于专家模型和大规模搜索。这些系统需要消耗数百万个训练样本,就像一个学生需要刷完整个题库才能掌握解题技巧一样。但是,这种方法效率极低,而且缺乏真正的几何理解能力。
InternGeometry的创新在于它采用了一种全新的学习方式,就像一个优秀的数学家一样进行思考。它不是简单地记忆大量的题目和解法,而是学会了如何在解题过程中进行探索、思考和反思。这个过程类似于一个经验丰富的数学老师面对难题时的思考过程:先仔细观察题目,然后尝试各种可能的辅助构造,如果某个方向行不通,就及时调整策略,直到找到正确的解法。
具体来说,InternGeometry在解决几何问题时会进行长期的互动推理。它首先会用自然语言仔细分析题目,理解几何图形的性质和约束条件。然后,它会提出各种假设和辅助构造的想法,并将这些想法转换为形式化的数学语言交给符号引擎进行验证。当符号引擎给出反馈后,InternGeometry会根据结果进行反思,调整自己的策略,然后提出新的想法。这个过程可能会持续数百次交互,直到最终找到完整的证明。
为了支持这种长期推理过程,研究团队还设计了一个动态记忆管理系统。就像人类在解决复杂问题时会记住重要的中间结果一样,InternGeometry会压缩和整理之前的探索历史,保留关键信息而丢弃无用的细节。这样既能避免上下文过长的问题,又能确保重要信息不会丢失。
一、革命性的训练方法:复杂度递进强化学习
InternGeometry的训练过程就像培养一个数学天才的成长轨迹。研究团队没有一开始就让AI面对最难的题目,而是设计了一种叫做"复杂度递进强化学习"的训练方法。这种方法的核心思想是让AI从简单的题目开始练习,随着能力的提升,逐步挑战更困难的问题。
想象一下学习游泳的过程。初学者会先在浅水区练习基本动作,然后逐渐移到深水区,最后才能在激流中游泳。InternGeometry的训练过程也是如此。研究团队开发了一个可以自动生成不同难度几何题的系统,就像一个智能教练能够根据学生的水平调整训练强度。
这个系统的巧妙之处在于它能够精确控制题目的复杂度。研究团队发现,几何题的难度与解题所需的证明步骤数量高度相关。一个需要十步证明的题目通常比只需要三步证明的题目更难。基于这个发现,他们设计了一个能够生成指定复杂度题目的算法。
在训练过程中,系统会持续监控InternGeometry的表现。如果AI在当前难度级别的题目上表现良好,系统就会增加题目难度。如果表现不佳,就会适当降低难度。这种自适应的训练方式确保了AI始终在最适合的难度水平上学习,既不会因为题目太简单而浪费时间,也不会因为题目太难而无法学会。
更重要的是,这种训练方法极大地提高了学习效率。传统的方法需要数百万个训练样本,而InternGeometry只用了约13000个训练样本就达到了顶级水平,这相当于只用了传统方法0.004%的数据量。这就像一个学生只需要做少量精心挑选的练习题就能掌握整个知识体系,而不需要刷完所有的题库。
二、强大的几何推理引擎:InternGeometry-DDAR
为了支撑InternGeometry的推理能力,研究团队还开发了一个专门的几何推理引擎,叫做InternGeometry-DDAR。这个引擎就像一个无比精通几何的助手,能够验证各种几何命题并提供反馈。
传统的几何推理引擎有很多限制,就像一个只能按照固定程序工作的机器人。而InternGeometry-DDAR则更像一个灵活的合作伙伴,能够处理更复杂的几何构造和推理。
这个引擎的一个重要改进是支持"全局优化"的点构造。在一些复杂的几何题中,需要构造满足多个约束条件的点。传统方法只能一个一个地构造点,就像盲人摸象一样,很难得到最优的结果。而InternGeometry-DDAR可以同时考虑所有约束条件,通过数学优化的方法找到最佳的点位置。
另一个重要特性是对"重合点"的处理。在几何证明中,有时候两个看似不同的点实际上是同一个点,这种情况被称为重合点。识别和处理这种情况对于几何推理至关重要。InternGeometry-DDAR专门设计了处理重合点的机制,就像一个经验丰富的几何学家能够识别图形中的隐藏关系一样。
此外,引擎还加入了许多重要的几何定理,比如幂定理和梅内劳斯定理。这些定理就像工具箱中的各种工具,为解决不同类型的几何问题提供了强大的支持。
三、惊人的实验结果和创新表现
InternGeometry在国际数学奥林匹克竞赛的几何题上的表现令人震撼。在包含2000年至2024年所有几何题的测试集中,InternGeometry成功解决了50道题中的44道,这个成绩超过了奥数金牌选手的平均水平。要知道,奥数金牌选手的平均得分是40.9分,而InternGeometry的表现相当于44分。
更令人惊叹的是,InternGeometry还成功解决了2025年奥数的几何题,展现了其在最新问题上的解题能力。在与其他顶级几何AI系统的对比中,InternGeometry也表现出色。它不仅超越了AlphaGeometry2的42分成绩,也超过了SeedGeometry的43分成绩。
但真正令人印象深刻的不仅仅是成绩,还有效率。AlphaGeometry2使用了3亿个训练样本,SeedGeometry使用了2.3亿个样本,而InternGeometry只用了1.3万个样本。这种效率上的巨大差异就像是一个学生只用了别人千分之几的时间就达到了同样的水平。
研究团队还进行了深入的分析,发现长期交互推理对InternGeometry的成功至关重要。当他们限制系统的推理步数时,性能显著下降。这证明了复杂几何问题确实需要深入的思考和多次尝试,就像人类数学家解决难题时需要反复思考和调整策略一样。
在一个特别有趣的案例研究中,研究团队发现InternGeometry能够提出与人类解法完全不同的创新性辅助构造。在2018年奥数第6题中,大多数人类解题者采用反演、三角函数或复数方法,而InternGeometry却发现了一个基于经典角度追踪和基本定理的优雅几何构造。这种创造性表明AI不仅能够重现已知的解法,还能发现全新的解题思路。
四、技术创新的深度解析
InternGeometry的成功源于几个关键技术创新的完美结合。其中最重要的是动态记忆管理机制,它解决了长期推理过程中的信息管理难题。
在解决复杂几何题时,系统可能需要进行超过200次的交互。如果不进行有效的信息管理,上下文会变得过于冗长,影响推理效率。动态记忆管理就像一个智能秘书,会自动整理和压缩历史信息,保留关键的推理步骤和结果,而丢弃冗余的细节。
另一个重要创新是拒绝采样机制。在长期推理过程中,AI可能会陷入重复的行为模式,就像人在思考时可能会陷入死循环。拒绝采样机制通过检测和避免重复行为,确保系统能够持续探索新的解题方向。
复杂度递进强化学习的理论基础也值得深入了解。研究团队发现,当任务难度适中时,强化学习的效果最好。具体来说,当成功率约为50%时,学习信号最强。这就像学习新技能时,如果任务太简单就学不到新东西,如果太难就会挫败感太强无法继续。复杂度递进机制通过动态调整任务难度,始终保持最优的学习状态。
研究团队还详细分析了不同组件对系统性能的贡献。他们发现,移除命题证明步骤会使性能从44道题降到35道题,这说明逐步推理的重要性。移除慢思考机制会使性能降到23道题,证明了深入分析的价值。移除上下文压缩会使性能降到20道题,突显了记忆管理的关键作用。
五、对未来的深远影响
InternGeometry的成功不仅仅是在几何解题领域的突破,它还代表了人工智能发展的一个重要方向。这项研究证明了AI可以通过相对少量的高质量训练数据,结合巧妙的学习策略,达到甚至超越人类专家的水平。
从教育角度来看,InternGeometry可能会改变几何教学的方式。它可以作为智能助教,帮助学生理解复杂的几何概念和证明方法。更重要的是,它展示的推理过程可以作为学习材料,让学生了解如何系统性地思考几何问题。
从研究方法论的角度,InternGeometry展示了一种新的AI训练范式。传统的方法往往依赖大规模数据,而这项研究证明了通过精心设计的学习策略,可以用更少的数据达到更好的效果。这种方法可能适用于其他需要复杂推理的领域,比如物理问题求解、化学分析或工程设计。
技术层面上,InternGeometry证明了大语言模型在形式化推理任务上的巨大潜力。它不仅能够理解自然语言描述的几何问题,还能将推理过程转换为形式化的数学语言,并与符号推理系统进行有效交互。这种能力对于开发更通用的AI推理系统具有重要意义。
研究团队在论文中也诚实地指出了现有系统的局限性。InternGeometry未能解决的6道题主要涉及数值计算或超出纯几何推理范围的问题。这提示了未来的改进方向,即如何将几何推理与数值计算更好地结合。
此外,虽然InternGeometry在推理能力上表现出色,但其计算资源消耗相比传统方法有所增加。每个推理步骤都涉及自然语言生成,平均每个问题需要约8.96万个输出词元。研究团队认为,这种增加的计算成本是值得的,因为它代表了一个新的scaling维度,与增加训练数据或搜索解决方案数量并行。
六、创造性和原创性的体现
InternGeometry最令人兴奋的特质之一是其展现出的数学创造性。在2018年奥数第6题的求解过程中,系统展示了令人印象深刻的原创思维能力。
这道题目涉及一个凸四边形ABCD,其中AB·CD = BC·DA,点X位于四边形内部并满足特定的角度关系,需要证明∠BXA + ∠DXC = 180°。大多数人类解题者会采用反演几何、三角恒等式或复数方法来处理这类问题,这些都是相对高级的数学工具。
然而,InternGeometry却发现了一条完全不同的路径。它通过经典的角度追踪和基本几何定理构造了一个优雅的解法。系统首先在线段AC上构造了一个点T,使得∠BDA = ∠TDC,然后定义点K作为两个圆的交点。这两个点形成了四边形ABCD中的等角共轭对,揭示了系统能够通过探索发现这种隐含的几何结构。
更加令人惊叹的是,为了进一步利用等角性质,InternGeometry构造了T关于四边形各边的对称点。这展现了系统对旋转对称性的理解,以及将等角共轭的概念从三角形推广到四边形的能力。这种推广能力通常只有经验丰富的几何学家才具备。
这个案例说明了InternGeometry不仅仅是在重复已有的解题模式,而是真正具备了几何洞察力。它能够识别问题的本质结构,找到巧妙的构造方法,并将看似无关的几何概念联系起来。这种能力的获得不是通过记忆大量的解题模板,而是通过大量的探索和试验逐渐培养出来的。
研究团队指出,这种创造性的来源在于系统的探索机制。InternGeometry会系统性地尝试各种可能的辅助构造,通过与符号引擎的交互获得反馈,然后基于这些反馈调整探索方向。这个过程类似于数学研究中的试验和验证循环,正是这种循环使得重大数学发现成为可能。
说到底,InternGeometry的成功代表了人工智能在数学推理领域的一个重要里程碑。它不仅在技术上实现了突破,更重要的是改变了我们对AI能力边界的认知。这个系统证明了AI不仅能够学会解决已知问题,还能够产生原创性的数学见解。
对于数学教育而言,InternGeometry提供了一个全新的视角。它展示了如何通过系统性的探索和反思来解决复杂问题,这种方法论可能会启发新的教学方式。学生可以从InternGeometry的推理过程中学习如何分解复杂问题,如何进行有条理的探索,以及如何从失败的尝试中获得有价值的信息。
从更广阔的视角来看,这项研究为通用人工智能的发展提供了重要启示。它表明,通过适当的训练策略和架构设计,AI系统可以在需要深度推理和创造性的任务上达到专家水平。这种能力的实现不依赖于海量数据的堆砌,而是依赖于智能的学习方法和有效的知识表示。
研究团队已经承诺将发布模型、数据和符号引擎,这将为整个学术界提供宝贵的研究资源。这种开放的态度将加速相关技术的发展,并可能催生更多创新应用。随着这些工具的普及,我们可能会看到AI在数学、物理、化学等需要形式化推理的领域发挥越来越重要的作用。
归根结底,InternGeometry不仅仅是一个解题工具,它更是人工智能向真正理解和创造数学知识迈出的重要一步。这项研究告诉我们,AI的未来可能不仅仅是替代人类的重复性工作,而是与人类一起探索知识的前沿,共同推动科学和数学的发展。感兴趣的读者如果想要深入了解技术细节,可以查阅arXiv预印本编号2512.10534获取完整论文。
Q&A
Q1:InternGeometry相比其他几何AI系统有什么优势?
A:InternGeometry的最大优势是数据效率极高,只用了1.3万个训练样本就达到了顶级水平,而AlphaGeometry2需要3亿个样本。此外,它采用了类似人类数学家的推理方式,通过长期交互和反思来解决问题,而不是简单的模式匹配。最重要的是,它能够提出与人类解法完全不同的创新性几何构造。
Q2:复杂度递进强化学习训练方法具体是怎么工作的?
A:这种方法就像培养学生一样循序渐进。系统先让AI练习简单的几何题,然后根据表现逐步增加难度。关键在于始终保持约50%的成功率,这样学习效果最好。系统会自动生成不同复杂度的题目,并根据AI的表现动态调整难度级别,确保既不会太简单浪费时间,也不会太难导致学不会。
Q3:普通人能使用InternGeometry来解决几何问题吗?
A:目前研究团队已经承诺将发布模型、数据和符号引擎,这为学术界和开发者提供了研究基础。虽然现在还没有直接面向普通用户的产品,但这项技术未来可能会集成到教育软件中,作为智能几何助手帮助学生学习几何知识和解决几何问题。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。