微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 数学天才都被AI算哭了!斯坦福大学推出史上最难数学考试,连最强AI模型都只能考42分

数学天才都被AI算哭了!斯坦福大学推出史上最难数学考试,连最强AI模型都只能考42分

2025-08-15 15:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-15 15:06 科技行者

这项由斯坦福大学计算机科学系的阿里安·古拉蒂(Aryan Gulati)、布兰多·米兰达(Brando Miranda)、埃里克·陈(Eric Chen)、艾米莉·夏(Emily Xia)、凯·弗隆斯达尔(Kai Fronsdal)、布鲁诺·杜蒙(Bruno Dumont)、埃里亚斯·奥巴德(Elyas Obbad)和桑米·科耶霍(Sanmi Koyejo)等研究人员联合完成的研究发表于2025年国际机器学习大会(ICML 2025)。这项开创性研究首次将著名的普特南数学竞赛题目转化为AI数学推理能力的基准测试,创建了迄今为止最具挑战性的数学推理测试系统。感兴趣的读者可以通过论文网址 https://github.com/brando90/putnam-axiom 获取完整的研究数据和代码。

想象一下这样的场景:当前最先进的AI模型在大多数标准数学考试中已经能够轻松拿到90分以上的高分,几乎达到了人类顶尖学生的水平。然而,当这些"数学天才"AI遇到真正的大学级数学挑战时,情况却急转直下。连OpenAI最强的o1-preview模型也只能在这个新测试中勉强获得42分的成绩,而其他大部分AI模型的得分更是惨不忍睹,只能在10分以下徘徊。这就像是一群平时在小测验中表现优异的学生,突然面对真正的期末大考时集体"翻车"的情景。

这个被称为"Putnam-AXIOM"的测试系统就像是AI界的"数学地狱模式"。研究团队从享有盛誉的威廉·洛威尔·普特南数学竞赛中精心挑选了522道大学级别的数学难题,这些题目涵盖了几何、代数、微积分、线性代数、组合数学、概率论、数论等11个不同的数学领域。普特南竞赛本身就是北美大学生数学竞赛的"奥林匹克",每年都有成千上万的数学尖子生参加,但大多数参赛者的得分都非常低,甚至零分也很常见。现在,研究人员将这些"魔鬼级"题目搬到了AI测试领域。

更巧妙的是,研究团队还开发了一套"变形金刚"般的题目生成系统。他们从这522道题目中选择了100道,通过程序化的方式改变其中的变量、常数和表述方式,创造出无限多个功能等价但表面不同的新题目。这就像是有一个神奇的题目工厂,能够源源不断地生产出同样难度的新题目,确保AI无法通过简单的"背答案"来作弊。当AI模型面对这些"变形"题目时,它们的表现出现了显著下降,暴露出了对原始题目的记忆依赖问题。

一、AI数学能力的真实检验:从"学霸"到"学渣"的惊人反差

当前的AI数学测试就像是让学生在开卷考试中展示能力一样。现有的数学基准测试大多来源于网络上公开可得的题目,这意味着AI模型在训练过程中很可能已经"见过"这些题目和答案。这种情况下,AI的高分表现更像是展示记忆力而非真正的数学推理能力。研究团队发现,即便是最优秀的AI模型,在面对它们从未"背过"的题目时,表现会急剧下降。

为了深入理解这个问题,研究人员设计了一个巧妙的对比实验。他们让AI模型分别解答原始的普特南题目和经过变形处理的版本,结果发现几乎所有模型在变形题目上的表现都明显下降。最强的o1-preview模型在原始题目上能达到51%的正确率,但在变形题目上却下降到43%,相对下降了近20%。这种下降幅度在统计学上具有显著意义,清楚地表明了AI对原始题目的记忆依赖。

这种现象就像是一个平时背诵了大量例题答案的学生,在考试中遇到稍微改动的题目时就束手无策。更令人担忧的是,大部分AI模型的下降幅度甚至更大,有的模型在变形题目上的表现下降了30%以上。这暴露了当前AI数学能力评估中存在的严重问题:我们可能一直在高估AI的真实数学推理能力。

二、从记忆到推理:揭示AI"伪装"的数学天赋

为了进一步证实AI模型对题目记忆的依赖程度,研究团队进行了一项创新的"污染模拟"实验。他们故意让一个AI模型"背诵"100道普特南原题及其答案,然后测试这个模型在原题和变形题上的表现。结果令人震惊:经过"背题"训练的模型在原题上的正确率从23%暴涨到80%,但在变形题上却仅仅从12%提升到33%。这就像是一个学生背熟了标准答案,在原题上表现优异,但面对稍作修改的题目时仍然困难重重。

这个实验生动地展示了当前AI评估中的"皇帝新装"现象。许多看似表现优异的AI模型实际上更像是"高级复读机",它们的出色表现很大程度上依赖于对训练数据中见过的题目的记忆。一旦面对真正需要推理的新题目,它们的真实水平就会暴露无遗。这种发现对整个AI评估领域具有重要意义,提醒我们需要更加严谨地设计测试方法。

研究团队的变形题目生成方法就像是给题目穿上了"隐身衣"。通过改变变量名称(比如将x改为w,将y改为v)和调整数值常数,原本相同的数学问题在表面上看起来完全不同,但本质上需要相同的推理能力来解决。这种方法确保了测试的公平性,让AI无法通过简单的模式匹配来获得高分。

三、数学推理的新标准:不只看答案,更要看过程

传统的数学AI评估就像是只看学生在答题纸上写的最终答案,完全忽略了解题过程。这种评估方式存在明显的缺陷:对于只有几个可能答案的题目(比如是非题),AI模型即使完全不会做题,也有很大概率蒙对答案。更严重的是,这种评估方式无法判断AI是否真正理解了解题思路,还是只是碰巧得到了正确答案。

为了解决这个问题,研究团队开发了一种名为"教师强制准确率"(TFA)的新评估方法。这种方法就像是一个严格的数学老师,不仅要求学生得出正确答案,还要逐步检查解题过程中的每一个推理步骤。具体来说,TFA会将标准答案的每一个推理步骤"喂给"AI模型,然后检查模型是否能够预测出下一步应该写什么。这种方法能够更准确地反映AI的真实推理能力。

通过对比不同评估方法的结果,研究团队发现TFA与传统的"答案正确率"有着良好的相关性,但能够提供更丰富的信息。例如,一个AI模型可能在某道题上得出了正确答案,但TFA评估会显示它的推理过程存在明显缺陷。这就像是一个学生虽然写对了最终答案,但推理步骤错误百出,靠的是运气而不是能力。这种细致的评估方法为改进AI数学推理能力提供了更有价值的反馈。

四、AI数学推理的真实水平:令人意外的"成绩单"

当研究团队将18个不同的AI模型放到Putnam-AXIOM这个"数学地狱"中接受考验时,结果令人大跌眼镜。即使是目前最强大的OpenAI o1-preview模型,在这个测试中也只能获得42%的正确率。相比之下,在传统的MATH数学测试中,这些模型通常能够达到80%甚至90%以上的正确率。这种巨大的性能差距就像是一个平时在班级考试中总是满分的尖子生,突然参加全国竞赛时发现自己的水平原来只是中等偏上。

更令人关注的是,专门针对数学问题训练的AI模型在这个测试中的表现同样不尽如人意。例如,被誉为"数学奥林匹克冠军"的NuminaMath模型在Putnam-AXIOM上只能达到10.34%的正确率。这些专业的"数学AI"在面对真正具有挑战性的大学级数学问题时,暴露出了它们推理能力的局限性。

通过详细分析这些模型的错误模式,研究团队发现了一些有趣的现象。即使是表现最好的o1-preview模型,其解题过程也存在明显的数学严谨性不足问题。这个模型虽然能够找到正确的解题思路,但经常会跳过关键的证明步骤,或者对某些结论缺乏充分的论证。这就像是一个聪明的学生能够直觉地找到答案,但无法提供完整的逻辑推理过程。

五、数学推理错误的深度分析:AI的"通病"

通过仔细研究AI模型在Putnam-AXIOM测试中的具体表现,研究团队发现了一些普遍存在的问题模式。最突出的问题是数学严谨性的缺失。在真正的数学推理中,每一个步骤都需要有充分的理由和证明,但AI模型经常会跳过这些关键环节。它们就像是急于展示答案的学生,忽略了展示完整推理过程的重要性。

另一个常见问题是逻辑跳跃。许多AI模型在面对复杂问题时会突然"灵光一闪",直接给出某个结论,但缺乏从前提到结论的逻辑桥梁。这种现象在GPT-4o等模型中尤为明显。例如,在解决几何优化问题时,GPT-4o会突然声称"矩形能够提供最小面积",但完全没有解释为什么矩形比其他形状更优。这就像是一个学生在考试中突然写出答案,但无法解释自己是如何得出这个结论的。

更严重的问题出现在开源AI模型中,它们不仅存在逻辑严谨性问题,还经常出现基础的计算错误、幻觉信息和对问题的根本性误解。有些模型会在解题过程中引入完全无关的信息,或者对问题的核心要求产生误解。这些错误表明,当前的AI模型在面对真正具有挑战性的数学问题时,其推理能力还存在根本性的不足。

六、变形题目的威力:揭穿AI的"背书"把戏

研究团队设计的变形题目系统就像是一个精巧的"测谎仪",能够有效识别AI是否真正具备数学推理能力。这个系统的工作原理很像是老师为了防止学生抄袭而设计的不同版本试卷:保持题目的核心内容和难度不变,但改变表面的细节,如变量名称、数值常数和问题表述方式。

以一个具体的例子来说明这种变形的效果:原题可能问的是"在0≤x≤2011, 0≤y≤2011的范围内,有多少个坐标点不能成为某种螺旋的终点",变形后的题目会问"在0≤w≤4680, 0≤v≤4680的范围内,有多少个坐标点不能成为某种螺旋的终点"。虽然变量名从x、y改为w、v,数值从2011改为4680,但解题的核心思路和方法完全相同。

这种看似简单的变形却对AI模型产生了显著影响。研究结果显示,几乎所有的AI模型在面对变形题目时都出现了明显的性能下降。这种下降不仅在统计上显著,而且在实际应用中具有重要意义。它清楚地表明,当前的AI模型很大程度上依赖于对特定题目格式和数值的记忆,而非真正的数学推理能力。

七、教师强制准确率:透视AI推理过程的新窗口

传统的AI评估方法就像是只关注学生最终成绩的"结果导向"评价系统,而教师强制准确率(TFA)则更像是全程跟踪学生思维过程的"过程导向"评价方法。这种新的评估方式能够深入AI的"大脑",观察它在每个推理步骤上的表现,从而提供更全面、更准确的能力评估。

TFA的工作机制类似于一个耐心的数学老师逐步引导学生解题。它会将标准解答的每一个步骤逐一展示给AI模型,然后检查模型是否能够正确预测下一个推理步骤。这种方法不仅能够识别AI是否掌握了正确的解题思路,还能发现它在哪些具体环节存在理解偏差或推理错误。

通过与传统评估方法的对比,研究团队发现TFA具有更好的模型区分能力和更高的评估可靠性。在对15个不同AI模型进行的大规模测试中,TFA与最终答案准确率显示出良好的相关性(相关系数达到0.66),但能够提供更丰富的诊断信息。这就像是从简单的"及格/不及格"评价升级为详细的"能力剖析报告",为AI模型的改进指明了具体方向。

八、普特南竞赛的独特挑战:为什么它如此困难

普特南数学竞赛之所以被选作AI数学推理能力的试金石,是因为它具有独特的挑战性特征。与普通的数学考试不同,普特南竞赛的题目不仅需要扎实的数学基础知识,更需要创造性的思维和深度的洞察力。这些题目就像是数学界的"智力拼图",需要解题者在有限的时间内找到巧妙的解决方案。

普特南竞赛题目的另一个特点是它们往往没有标准的解题套路可循。每道题都可能需要独特的思维角度和创新的方法组合。这种特性使得简单的模式匹配或记忆复现变得无效,迫使AI模型必须展现真正的推理能力。这就像是让AI参加一场没有标准答案模板的开放性考试,完全依靠自己的理解和创造力。

研究团队从1938年到2023年的普特南竞赛中精心挑选了522道题目,这些题目涵盖了大学数学的各个重要分支。每道题目都保持了原有的难度等级标记(从1到6,难度递增),使得研究人员能够分析AI模型在不同难度水平上的表现变化。这种全面性的题目选择确保了测试结果的代表性和可靠性。

九、AI数学教育的启示:重新思考机器学习的方向

Putnam-AXIOM测试的结果为AI数学教育和训练提供了重要启示。当前的AI训练方法过于依赖大规模数据的统计学习,这种方法在处理已见过的问题类型时表现优异,但在面对真正需要创新思维的问题时显得力不从心。这就像是培养了一批"题海战术"的学生,他们能够快速识别和解决熟悉的题目类型,但缺乏面对全新挑战的适应能力。

研究结果表明,未来的AI数学训练需要更加注重推理过程的学习,而不仅仅是答案的记忆。这需要开发新的训练方法,让AI模型学会如何构建完整的逻辑推理链,如何识别问题的核心结构,以及如何将已学知识创造性地应用到新情境中。这种转变就像是从"应试教育"向"素质教育"的转换,更加关注能力的培养而不是分数的提升。

此外,Putnam-AXIOM的成功也为其他领域的AI评估提供了新的思路。通过创建动态、防污染的测试环境,研究人员可以更准确地评估AI在各个领域的真实能力水平。这种评估方法的推广将有助于推动整个AI领域向更加诚实、更加有效的发展方向前进。

说到底,这项研究就像是给AI界敲响了一记警钟。它提醒我们,在为AI的快速进步欢呼时,也要保持清醒的头脑,认真审视这些进步的真实性和可持续性。Putnam-AXIOM不仅仅是一个新的测试工具,更是一面镜子,让我们看到了当前AI数学推理能力的真实面貌。虽然结果可能不如我们期望的那么乐观,但这种诚实的评估正是推动AI技术真正进步的第一步。

正如研究团队所指出的,这项工作为未来的AI研究指明了新的方向:我们需要开发真正具备推理能力的AI系统,而不是仅仅依靠记忆和模式匹配的"高级计算器"。只有这样,AI才能真正帮助人类解决那些需要创造性思维和深度推理的复杂问题。对于那些希望深入了解这项开创性研究的读者,完整的论文、数据集和评估代码都已在GitHub上公开发布,为进一步的研究和应用提供了宝贵的资源。

Q&A

Q1:Putnam-AXIOM数学测试到底有多难?连最强AI都只能考42分吗?

A:确实如此。Putnam-AXIOM基于威廉·洛威尔·普特南数学竞赛题目,这是北美大学生数学竞赛的最高水平。即使是目前最强的OpenAI o1-preview模型在这个测试中也只能达到42%的正确率,而大多数AI模型的得分在10%以下。这与它们在传统数学测试中80-90%的高分形成了鲜明对比,说明当前AI的数学推理能力被严重高估了。

Q2:为什么AI模型在变形题目上表现会下降?这说明了什么问题?

A:AI模型在变形题目上的表现下降暴露了它们对原始训练数据的记忆依赖。研究发现,当题目的变量名或数值常数发生改变时,AI的正确率会显著下降20-30%。这就像学生背熟了标准答案,但面对稍作修改的题目就束手无策。这说明当前的AI更像是"高级复读机",依靠记忆而非真正的数学推理能力来解题。

Q3:教师强制准确率(TFA)评估方法有什么特别之处?

A:TFA就像一个严格的数学老师,不仅看最终答案,还要逐步检查解题过程中的每一个推理步骤。它通过让AI预测标准解答中的下一步来评估推理能力,能够发现那些"蒙对答案"但推理过程错误的情况。这种方法与传统的答案正确率有良好相关性,但能提供更丰富的诊断信息,为改进AI数学能力指明具体方向。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-