微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 MIT联合多机构打造史上最大奥林匹克数学题库:当AI遇上数学竞赛,谁才是真正的"学霸"?

MIT联合多机构打造史上最大奥林匹克数学题库:当AI遇上数学竞赛,谁才是真正的"学霸"?

2026-04-28 16:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-28 16:34 科技行者

这项由麻省理工学院(MIT)联合科威特阿卜杜拉国王科技大学(KAUST)、HUMAIN公司等机构共同开展的研究,发表于2026年的国际学习表征大会(ICLR 2026)。有兴趣深入了解的读者可以通过论文编号arXiv:2604.18584查询完整论文。

**一、当AI遇到数学奥林匹克,会发生什么**

每年夏天,世界各地最聪明的中学生齐聚一堂,参加国际数学奥林匹克竞赛(IMO)。那些让顶尖选手抓耳挠腮的难题,如今成了衡量人工智能推理能力的新战场。过去几年,各大科技公司纷纷宣布自家AI在数学竞赛中取得了金牌级别的表现,一时间,"AI已经超越人类数学家"的说法甚嚣尘上。

然而,麻省理工学院的研究团队有点儿不以为然。他们发现,现有的测试题库存在一个根本性的缺陷:数量太少、来源单一、语言单调。大多数题库只收录了美国和中国的竞赛题,题目数量往往只有几百道,而且几乎清一色是英文。就好像你用一道菜来评价一位厨师的水平,实在难以服众。

于是,这支研究团队花了大量时间,从全球47个国家收集官方数学竞赛资料,整理出超过3万道奥林匹克级别的数学题,并配上专家撰写的详细解答,打造出一个名为MATHNET的超级数学题库。这个数据集横跨17种语言、143场竞赛、长达40年的时间跨度,是迄今为止规模最大、质量最高的奥林匹克数学数据集。

更有意思的是,研究团队不满足于只测试AI"解题"的能力,他们还追问了一个更深刻的问题:AI能不能像真正的数学家一样,认出"这道题我在哪儿见过,跟那道题本质上是一回事"?这种识别数学等价性的能力,研究团队称之为"数学感知检索",而实验结果颇为出乎意料。

**二、三万道难题是怎么炼成的**

收集3万道题听起来很简单,实际上是一项浩大的工程。整个数据来源于47个国家自1985年至2025年间官方出版的竞赛题册,共涉及1595份PDF文件、超过25000页内容。与其他数学数据集常见的做法不同,MATHNET的题目完全来自各国数学竞赛委员会正式发布的资料,而非从数学爱好者论坛(如AoPS)上抓取的讨论帖。这个区别很重要——官方资料的质量和准确性有保证,而论坛内容难免参差不齐。

然而,把这些资料变成可以供AI使用的结构化数据,远比听起来要复杂得多。各国的题册格式千差万别,有的是数字排版文件,有的是扫描件,有的甚至同一份文件里夹杂多种语言。有的题册把题目和解答放在不同章节,有的却交织在一起。编号规则也是五花八门,就算是同一份文件内部也可能前后不一致。

研究团队为此设计了一套三阶段的智能处理流水线。第一阶段,他们使用一个叫做dots-ocr的多语言文档解析工具,把所有题册转换成统一的Markdown格式文本,这就相当于把各种方言统一成普通话,方便后续处理。第二阶段,他们借助谷歌的Gemini-2.5-Flash模型来识别每一页中题目和解答各自对应的行号区间,然后再用GPT-4.1把这些内容提取出来,整理成标准的LaTeX数学格式。第三阶段则是最关键的质量把关环节,采用三道防线:首先用规则化程序检查提取内容与原始OCR文本的相似度,确保AI没有凭空添加或修改内容;然后再让GPT-4.1把原始页面截图与提取的题目解答进行比对,充当"质检员";最后由人工审核员逐一检查置信度较低的条目,只有三关全部通过的题目才会被收入数据集。

最终整理出的30676道题目涵盖代数、几何、数论、离散数学等多个领域,每道题都配有完整的专家级解答,平均解答长度(约184词)远超其他同类数据集,显示出内容的深度与详尽程度。在语言分布上,74%的题目为英文,其余26%覆盖葡萄牙语、法语、西班牙语、意大利语、塞尔维亚语、斯洛文尼亚语、德语、中文、罗马尼亚语、韩语、荷兰语、俄语、蒙古语、马其顿语、波兰语和匈牙利语,真正做到了"全球视野"。

**三、给AI出三种类型的考题**

有了这个庞大的题库,研究团队设计了三类不同的考试来全面评估AI的数学能力,就像一次综合素质测评,而不仅仅是考某一门功课。

第一类考试是"直接解题",对应数据集MathNet-Solve。这部分共6400道测试题,AI需要直接给出解答,然后由评分模型GPT-5对照参考答案和解题过程打0到7分,6分及以上算作正确。这类似于传统考试:给你一道题,你来解答,对了满分,错了零分。

第二类考试是"找到等价题",对应数据集MathNet-Retrieve。研究团队从10000道题中,为每道题生成了1个"数学等价变体"(例如把变量名从x换成a,或者换一种代数表达方式,本质上是同一道题)和3个"迷惑选项"(看起来很像,但实际上数学本质不同的题目)。AI的任务是:给你一道原题,在一大堆候选题中,找出那道本质上一样的题。评分标准是Recall@k,通俗地说就是"你在前k个答案里有没有找对"。

第三类考试是"借助提示来解题",对应数据集MathNet-RAG。研究团队精心挑选了35对真实的奥林匹克题目,每对都由数学专家认定为"有相似结构"的配对题。考试时,AI不仅会看到待解的题目,还会额外看到一道相关的题目及其完整解答,就像开卷考试时旁边放了一道参考例题。研究者想知道,有了这个"提示",AI能不能举一反三,做得更好?

这三类考试的组合非常聪明,因为它们测试的是数学能力的不同层面:单纯计算能力、结构识别能力,以及知识迁移能力。真正厉害的数学家,三样都得拿手。

**四、谁是最强AI数学选手——解题大赛成绩揭晓**

解题能力的测试结果呈现出非常清晰的层次分化,就像一场运动会上,顶尖运动员和普通参赛者之间差距悬殊。

最强的选手是谷歌的gemini-3.1-pro,整体正确率达到78.4%,紧随其后的是gemini-3-flash-preview(70.4%)和OpenAI的gpt-5(69.3%)。这些顶尖模型在代数领域表现最为出色,正确率高达80%以上;而几何和离散数学则是所有模型共同的软肋,即便是最强的gpt-5,几何题正确率也只有61.1%,离散数学也只有65.3%。

中等水平的模型群包括claude-opus-4.6、gpt-5-nano、gemini-2.5-flash等,整体正确率集中在38%到46%之间,算是"考上了本科线"。而更弱的模型,比如grok-3(28.5%)、gpt-4.1(21.4%)、gpt-4o(6.8%)甚至Ministral-3B(4.4%),表现就差强人意了。

最能说明问题的对比是:最强模型gemini-3.1-pro比最弱模型Ministral-3B高出整整72.7个百分点,这种差距几乎相当于大学学霸和小学生之间的差距。

有一个细节颇为有趣:支持图片输入的模型在有图题目上的表现普遍好于纯文字输入,但并非所有模型都如此——gpt-5-nano在含图题目上的成绩(30.9%)反而比纯文字题(45.1%)低了一大截,说明不同模型处理视觉数学符号的能力差异相当显著。

语言方面,中文题目是最大的挑战,即便是最强的gemini-3.1-pro,中文题正确率也只有64.2%,而意大利语和葡萄牙语题目的正确率却高达96.6%和91.8%。这种语言间的巨大差异揭示了一个现实:AI的数学能力在一定程度上依赖于训练数据的语言分布,中文数学竞赛资源在训练集中可能相对稀少。

**五、AI认得出"换了马甲的同一道题"吗——检索大赛成绩让人大跌眼镜**

如果说解题能力的测试结果还算尚可接受,那么"数学等价检索"的测试结果就真的让人大吃一惊了。

面对10000道测试题,研究团队让各种嵌入模型(一种专门用来比较文本相似度的AI工具)去找出每道题的"等价变体"。这就好比:你手上有一道题,说"证明x?+y?=1的解的集合等价于单位圆上的点的集合",然后AI需要从一堆题目里找出那道本质上完全一样、只是换了个写法的题目,而不是被那些看起来很像但其实根本不同的迷惑题给骗到。

结果呢?即便是表现最好的模型gemini-embedding-001和qwen3-embedding-4B,在"只看第一个答案对不对"(即Recall@1)这个指标上,成绩只有大约5%。换句话说,让AI在100次尝试里,只有5次能把第一选择就选对。这个成绩,用考试比喻来说,就是一道100分的题只得了5分。

把范围扩大到前5个答案里(Recall@5),最强模型的成绩提升到约68.9%,前10个答案里能达到83.8%。这说明模型在大范围内确实"意识到"这两道题有点关联,但就是无法把真正等价的题排在最前面。

更令人困惑的是,研究团队在分析余弦相似度分布时发现了一个反常现象:非等价题的相似度得分,往往比真正等价的题还要高。这就好比,你在图书馆找"《百年孤独》的另一个译本",AI却把旁边那本书名里也有"孤独"两个字的《孤独是一个人的狂欢》排在了第一位,而真正的另一个译本却被排在了第20位。

原因在于,现有的嵌入模型擅长捕捉表面的文字相似性——两道题如果都用了"triangle(三角形)"或"polynomial(多项式)"这些关键词,模型就会觉得它们很相似。但它无法真正理解:x?+y?=1和|u|?=1在数学上是完全等价的,哪怕这两个表达式用的符号一个都不重叠。

这个发现意义深远:它说明现有AI系统在"数学感知"层面存在根本性的缺陷,它们学到的是表面文字模式,而不是深层数学结构。

**六、给AI一个"参考例题",它能举一反三吗**

第三类考试的结果揭示了一个令人深思的规律:好的提示如同定海神针,差的提示反而添乱。

在这35道题的人工评分测试中,研究团队对7个顶尖模型进行了三种条件下的比较:完全不给提示(零样本)、给一道由AI自动检索到的"相关题"作为参考(嵌入检索RAG)、给一道由数学专家手工配对的"真正相关题"作为参考(专家RAG)。

最令人印象深刻的是DeepSeek-V3.2-Speciale:在零样本条件下,人工评分正确率为84.8%;给了专家配对的参考题后,正确率飙升到97.3%,提升了约12个百分点。gpt-5也有类似的表现,从零样本的76.8%提升到专家RAG条件下的86.6%。

然而,事情并非对所有模型都这么顺利。以Gemini-3-Pro为例,它在零样本条件下的人工评分已经高达89.1%,给了专家参考题后反而稍稍下降到87.5%——也许是因为这个模型本来已经够强了,额外的参考反而造成了轻微的"信息干扰"。对于oLMO-3-Think而言,提供AI检索到的参考题(54.6%)虽然比不给提示(45.2%)有所提升,但远不如专家配对的提示效果那么稳定。

用AI自动检索到的参考题,效果则更加不稳定。Grok-4.1-Fast在获得AI检索参考时,LLM打分从73.1%降至67.7%,反而不如什么都不给。这是因为AI检索到的"相关题"有时候其实是"近似而不等价"的题目,看起来很像,但解题思路根本不同,这种错误的参考反而会把模型引向歧途。

这个发现背后有一个非常重要的启示:对AI来说,检索质量决定一切。给它一道真正在数学结构上等价或相似的参考题,它能大幅提升;给它一道表面相似但本质不同的题,它可能反而变差。而当前的嵌入检索系统,恰恰还不能可靠地区分这两种情况。

**七、数学相似性的"三层楼":AI需要理解什么样的相似**

为了更精准地描述数学相似性,研究团队提出了一套三级分类体系,这对于理解为什么检索这么难特别有帮助。

最严格的一级叫"不变性",指两道题在数学上完全等价,只是换了种表达方式。比如,"找满足f(x?-y?)=(x-y)(f(x)+f(y))的所有函数"和"找满足(g(a)+g(b))(a-b)=g(a?-b?)的所有函数",这两道题其实是同一道题,只是变量名字和写法不同。又比如"找所有满足4^x+6^x=9^x的实数x"和"找所有满足(2/3)^x+(3/2)^x=5/2的实数x",这两道题经过变量替换后是完全等价的。AI要识别这种等价性,需要真正理解代数变换,而不只是对比文字。

第二级叫"共鸣",指两道题虽然不完全相同,但可以用相同的核心思路或数学工具来解答。比如,"证明对所有n≥k,k整除C(n,k)"和"证明n=Σn_i·p^i时,C(n,m)≡Π C(n_i,m_i) (mod p)",这两道题一个是特例,一个是推广,解题思路本质上一脉相承,研究团队将这类关系称为"概括"。又比如两道题都需要用到同一个引理,或者一道题可以被化归为另一道更简单的题。

第三级叫"亲缘性",指两道题属于同一个数学领域或主题,但未必有共同的解法。比如"证明C(2n,n)的最大质因子大于n^(2/3)"和"对任意n>1,存在素数p使得n<p<2n",两道都是关于素数分布的题目,都属于数论领域,但解题路径完全不同。

当前的嵌入模型往往只能做到第三级"亲缘性"的识别,对第一级"不变性"的识别能力则极为有限。而MathNet-RAG中的专家配对题目,大多属于第二级"共鸣"关系,恰好是最适合用来辅助解题、也是当前AI最难自动识别的层次。

**八、这项研究揭示了AI数学能力的真实边界**

归根结底,MATHNET这项研究做了一件很重要的事:它用一面更公平、更多元的镜子,照出了当前AI数学能力的真实轮廓。

镜子里的图像,既有令人振奋的亮点,也有不得不正视的缺陷。前沿推理模型在直接解题方面确实令人印象深刻,78.4%的整体正确率放在人类竞赛选手里也属于相当强的水平,但这个数字是在6400道题上的统计平均,并非在超高难度的题目上。对于数据集中专门设置的500道"难题"子集,模型的表现会更加吃力。

真正暴露短板的是检索能力。即便是最强的嵌入模型,在找"换了马甲的同一道题"这件事上,表现只有不到5%的精准率。这背后折射出一个深层问题:现有AI系统学到的是统计意义上的文字模式,而非真正意义上的数学结构理解。代数等价、几何等价、跨符号体系的等价——这些对人类数学家来说习以为常的思维操作,对AI来说依然是巨大的挑战。

研究团队还强调,RAG(检索增强生成)这种方法的成效高度依赖检索质量。当检索到真正有结构共鸣的参考题时,AI解题能力可以提升多达12个百分点;但当检索到貌似相关实则误导的参考题时,AI反而可能做得更差。这意味着,在数学领域部署AI辅助工具时,检索模块的数学感知能力是个绕不过去的关键瓶颈。

这项研究公开发布了全部数据集和评测代码,供学术界使用,地址为mathnet.mit.edu。如果你对AI数学推理、检索系统或者多语言基准测试感兴趣,论文编号arXiv:2604.18584提供了完整的技术细节,值得一读。

说到底,AI在数学竞赛上的故事还远未写完。解题和"懂得数学"之间,还有一段不短的距离。MATHNET的意义,或许正在于它清晰地标记出了这段距离的起点和方向。

---

**Q&A**

Q1:MATHNET数据集包含哪些类型的数学竞赛题目?

A:MATHNET数据集收录了来自全球47个国家、横跨1985年至2025年的奥林匹克级别数学题,涵盖国家级数学奥林匹克、国际数学奥林匹克(IMO)、亚太数学奥林匹克(APMO)、欧洲女子数学奥林匹克(EGMO)等143场竞赛,共30676道题目,覆盖代数、几何、数论、离散数学等领域,配有专家撰写的完整解答。

Q2:为什么现有AI模型在数学等价检索上表现这么差?

A:现有嵌入模型(用于比较文本相似度的AI工具)主要学习的是文字层面的模式匹配,擅长找到用了相同关键词的题目,但无法理解代数等价变换、符号替换或跨表达方式的数学结构等价性。比如x?+y?=1和|u|?=1在数学上完全等价,但文字上毫无重叠,现有模型无法识别。因此即便是最强模型,精准匹配率也只有约5%。

Q3:检索增强生成(RAG)在数学解题中有什么实际作用?

A:RAG的思路是给AI提供一道结构相关的参考题及其解答,让AI借鉴解题思路来解答新题。当参考题由数学专家手工配对时,效果显著,比如DeepSeek-V3.2-Speciale的正确率从84.8%提升到97.3%。但如果参考题是由AI自动检索得到的近似题目,效果则不稳定,有时反而会因为提供了错误的参考方向而导致成绩下降。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-