
这项由独立研究者Natapong Nitarach主导的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2603.27844v2,发布于cs.CL领域。研究以2026年AIMO 3数学奥林匹克竞赛为实验舞台,系统性地测试了一系列推理时优化手段,最终得出了一个让很多AI从业者意外的结论。
你有没有想过,一道国际数学奥林匹克题,对AI来说究竟意味着什么?这不是普通的"1+1=2",而是那种让顶尖高中生也得冥思苦想几小时的题目。而这篇研究记录的,正是一场在最严苛条件下——一块GPU、五小时时限、五十道奥赛级别难题——对AI数学推理能力的极限压测。
研究者带着一个看起来很合理的想法进入这场比赛:如果让AI用不同的解题思路来尝试同一道题,错误应该会减少,因为不同思路犯相同错误的概率更低。这个策略被他称为"多样化提示混合器"(Diverse Prompt Mixer)。然而,最终的实验结果给了这个想法一记响亮的耳光。二十三个实验、三个不同的AI模型,每一个"改进"尝试都以失败告终。真正决定成败的,只有一件事:AI模型本身的能力强弱。
---
一、为什么"让AI换个角度想"听起来那么有道理?
任何曾经在考试前跟同学互相讲题的人,都能直觉地理解这项研究想做的事。当你用一种方法解题卡住了,换一个同学用完全不同的思路来看,往往能找到突破口——因为两个人的盲点不一样。
在AI领域,有一种叫做"多数投票"或"自洽性"的技术,原理与此一脉相承。具体做法是:让同一个AI对同一道题独立作答好几次,最后统计哪个答案出现次数最多,把票数最高的那个作为最终结果。这背后有一个来自法国大革命时期数学家孔多塞的理论支撑:只要每次答题的准确率超过50%,而且每次犯错都是独立随机的,那么答题次数越多,最终多数票的正确率就越高。
但现实中有个麻烦:AI每次答同一道题,犯的往往是同样的错误。同一个模型、同一套提示语,就算随机重试十次,它可能每次都在同一个推理步骤上卡壳。这就像让同一个学生用同一种解法做十遍,错还是错在同一个地方。统计学上,这种现象叫做"错误相关性"。当错误高度相关时,你答十次和答一次其实没多大区别——有效尝试次数远比你想象的少。
研究者用一个公式描述了这个现象:有效样本数等于总尝试次数除以(1加上尝试次数减一再乘以错误相关系数)。打个比方,如果你让AI答8次题,但这8次的错误之间有30%的相关性,那实际上只相当于答了不到3次独立的题。剩下那些尝试,基本是在重复同一个错误。
既然如此,解决方案似乎显而易见:给AI布置不同的解题策略,让每次答题走不同的路径。一次让它从小数字入手找规律,一次让它从答案往回推,一次让它先判断题型再解题,这样不同策略犯相同错误的概率应该更低。这就是"多样化提示混合器"的核心逻辑,也是这项研究想要验证的假设。
---
二、竞赛现场:一块GPU、五小时、五十道难题
研究者在Kaggle平台上的AIMO 3竞赛中搭建了整套系统,条件相当苛刻:唯一一块NVIDIA H100 80GB显卡,五小时墙钟时限,不能联网调用外部API,不能预先计算答案,必须在规定时间内现场解出五十道国际数学奥林匹克级别的题目。
系统的核心模型是gpt-oss-120b,这是OpenAI发布的一个开源模型,总参数量约1168亿,但通过一种叫做"专家混合"(Mixture of Experts,简单理解就是:模型里有很多"专家小组",每次只调用其中几个最相关的)的架构,每次实际运算时只激活约51亿参数。模型以FP8格式量化(相当于对数据进行了精简压缩以节省显存)存储在GPU上,大约占用75GB显存,剩余约5GB用于同时处理8道题的运算。
整个解题流程被设计成一条五步流水线。首先,系统将剩余总时间平均分配给剩余题目,这保证了在任何情况下都能在截止时间前答完所有题,不会因为某道题太难就超时失败。其次,每道题同时启动8个并行尝试,每次使用不同的随机种子,但用同样的提示语和1.0的采样温度(温度越高,AI回答越"发散",越不会重复同一条路径)。
在解题过程中,AI还可以调用Python代码工具,通过执行sympy、numpy、mpmath等数学库来辅助计算——就像让AI一边思考、一边用计算器验算一样。如果8次尝试中有4次达成了一致的非平凡答案,系统会提前停止剩余尝试,节省时间。最后,系统通过"熵加权投票"来选出最终答案:那些回答更"自信"(信息熵更低,意思是AI内部对这个答案更确定)的尝试,在投票中权重更高。
---
三、多样化提示的四种策略,以及它们的集体失败
研究者设计了四种不同的解题策略提示语,分别代表四种不同的思维路径。
第一种是"原版"提示,要求AI逐步拆解问题,先理解再探索再规划再执行最后验证,同时鼓励寻找模式、对称性和特殊情况。第二种叫"小数字先行",策略是先计算n=1、2、3、4、5时的答案,观察规律,提出猜想,再证明猜想是否普遍成立。第三种叫"从答案往回推",要求AI先列出答案必须满足的所有约束条件,缩小搜索空间,再从这些约束出发构造解法。第四种叫"先分类再解题",让AI首先判断这道题属于数论、代数、组合还是几何,然后调用该类型题目的经典解题套路。
研究者把这四种策略混合成三种不同配比进行测试。保守配置是5个原版加各1个其他策略,合计8次尝试;激进配置是3个原版加2-2-1的其他策略;均等配置是每种策略各2个,完全平均分配。此外还单独测试了每种策略"独挑大梁"的效果,即8次尝试全用同一种非原版策略。
结果让人沮丧却也一目了然。基线(21次重复测试的均值)是39.3分,满分50分。保守配置和激进配置各得了40分,仅比基线均值高出不到1分,但这点差距完全可能是运气。均等配置跌到了38分。而那些完全抛弃原版提示、只用单一其他策略的测试,表现更惨:小数字先行得37分,从答案往回推得39分,先分类再解题只有36分,都低于基线均值。
研究者还测试了一个叫"代码优先"的策略——要求AI每次都先写Python代码探索问题,再从代码结果中归纳规律。第一次测试得了41分,看起来很有希望。但接下来的两次确认实验分别得了38分和34分,三次平均下来是37.7分,低于基线均值。还有一个"形式化优先"策略,要求AI在写代码之前先用数学符号把问题的变量和约束完整定义,结果得了39分,与基线持平。
沿着多样化比例从0%到80%画一条趋势线,分数单调递减,斜率约为每增加一个百分点的多样化就下降0.01分。这个关系是清晰的:越多样化,越差。
---
四、为什么多样化提示从根本上就不可能奏效?
要理解为什么这个看似合理的策略彻底失败,需要搞清楚两件事:AI的错误其实已经不相关了,而且非原版策略本身就更弱。
先说错误相关性。多样化提示存在的理由,是假设AI在同一提示下重复作答时,错误是高度相关的,因此需要用不同策略来"打散"这些相关性。研究者实际测量了这个相关系数。测量方法是:对于每一道题,统计8次尝试中有几次答对(叫做vc),计算每次准确率p^=vc/8,然后用一个统计公式估算两次随机尝试之间错误相关性的均值。
测量结果非常出人意料:所有19个可计算数据点的相关系数全部是负数。对于尝试次数足够多(7次及以上)的数据点,相关系数的均值是-0.122,最大的也不超过0。这意味着什么?负相关意味着当AI第一次答错时,第二次反而更可能答对,而不是继续犯同样的错误。AI在高采样温度下已经在自发地探索不同路径,错误自然而然地被分散了,根本不存在需要"打散"的相关性。给多样化提示留下的空间,本来就是负数——它不可能再改善什么,只能把本已有效的机制破坏掉。
研究者为此测试了不同采样温度的效果。温度0.5时(AI回答比较保守、重复性高),得38分;温度0.8时得40分;基线温度1.0时均值39.3分;温度升到1.2并加上min_p过滤时,得37分。最优点确实在1.0附近,而且温度本身已经足够分散错误,再叠加提示多样化是多此一举。
研究者还做了一个决定性的对照实验:在温度降到0.5的情况下(此时随机性最低,错误相关性理论上最高,多样化提示应该最有帮助),使用均等配置的多样化提示。结果得了36分,比单纯用T=0.5但不加多样化(38分)还差。就算在多样化提示"最应该奏效"的条件下,它依然没有帮上忙。
另一个根本问题是:非原版策略本身就是更弱的解题方式。多样化提示器在降低相关性的同时,也降低了每次单独答题的准确率。要让整体表现变好,相关性的下降幅度必须超过准确率的下降幅度。但实验数据显示,没有任何一种替代策略能达到原版策略的水平,而相关性本来就已经接近零甚至为负。这是一个双重失败:降低了准确率,却根本没有打散什么相关性。
---
五、真正决定分数的,是模型本身
如果提示工程没有用,那什么有用?实验给出了一个清晰的答案:换个更强的模型。
研究者在同等条件下测试了多个模型,让它们都用N=8次尝试来解题,除了模型本身其他参数完全相同。gpt-oss-120b的单次答题准确率是0.69,最终竞赛得分均值39.3分。换成较小的gpt-oss-20b(参数量约200亿,激活参数约36亿),单次准确率降到0.61,得分均值31.0分——整整低了8分多。这8分的差距,是所有提示优化实验中最大正向效果(+0.7分)的约11倍。
更能说明问题的是N的调整效果。把gpt-oss-20b的尝试次数从8次扩大到32次,结果得分反而从31分降到了26分。为什么?因为每道题的总时间是固定的,尝试次数变多意味着每次尝试的时间变少,模型在时间压力下的单次准确率从0.61跌到了0.52。用数量换质量,在这里完全行不通。
研究者还测试了另外两个模型。Nemotron-Super-120B-NVFP4是一个总参数量1200亿、激活参数约120亿的混合架构模型(融合了Mamba-2序列模型、专家混合和标准注意力机制三种技术),以NVFP4格式量化,只用了3次尝试,最终得了23分。Qwen3.5-35B-A3B是一个总参数350亿但激活参数只有30亿的模型,用了16次尝试,也是23分。这两个模型尽管总参数量庞大,但实际计算时参与运算的参数少,在这类高难度数学题上表现明显弱于gpt-oss-120b。
有一个细节值得专门说明:Nemotron-Super-120B在另一个叫HMMT Feb25的数学竞赛上,NVFP4量化版本得了95.4%,而全精度BF16版本得了94.7%,说明量化本身不是它在AIMO 3上失利的原因。问题在于,不同数学竞赛的题目分布不同,在一个榜单上表现优异,不代表在另一个榜单上同样有效。
对Qwen3.5-35B-A3B的专项测试也印证了同样的结论。研究者在10道本地测试题上做了8个独立实验,每次只改变一个变量。把尝试次数从8次翻倍到16次:无改善。换成更长的提示语:-1分。使用制造商推荐的top_k=20参数:-1分。开启"思维模式"(enable_thinking):直接崩溃。添加presence_penalty参数:同样崩溃。所有干预无一例外地要么无效要么有害,没有任何实验打破了8/10的基准线。
---
六、已经知道答案在某处,却选不出来——"选择损失"的问题
尽管多样化提示失败了,研究者发现整套系统还有另一个值得注意的问题,而且这个问题有可能被解决,只是这篇研究没有去做。
竞赛主办方发布的数据显示,gpt-oss-120b在20次尝试的通过率(pass@20,意思是给20次机会,只要有一次答对就算成功)上约为45.5分,甚至在100次尝试的通过率上约为49分。换句话说,在绝大多数题目中,正确答案已经出现在AI的某次尝试里了,只是多数投票没能选出它。
研究者最好的单次竞赛得分是42分,而pass@20的均值约45.5分。这中间差了约3.5分,这个差距既不是因为准确率不够(p已经在公式里体现了),也不是因为错误相关(ρ也在公式里),而是纯粹的"选择损失":正确答案就在8次尝试里,但被更多出现的错误答案投票盖过去了。
多数投票是最廉价的选择机制,它的逻辑是:谁出现最多次谁就对。但对于高难度数学题,错误答案往往比正确答案更"多元"——AI能想到的错误路径有几十条,但正确路径可能只有一条或少数几条,因此正确答案即使存在也可能只出现1-2次,被各种不同的错误答案淹没。
真正能弥补这个差距的,是一种叫做"验证器"的机制:不依赖出现次数,而是真正检验每个候选答案是否满足题目条件,比如把答案代回题目原式看是否成立,或者用代码执行来验证。研究者明确指出,验证器方向是留待未来研究的开放问题,这篇论文本身没有测试它。
---
七、从比赛历史看AI数学能力的演进
AIMO竞赛已经举办了三届,每一届的顶尖策略都在发生根本性的转变,这个演变轨迹本身也很能说明问题。
2024年的AIMO-1,冠军方案使用了N=48次的暴力投票,用大量重复尝试来弥补单次准确率的不足,最终得了29分。2025年的AIMO-2,冠军团队投入了约54万道训练题对模型进行专项训练,并开发了一个叫GenSelect的专用选择机制,最终得了34分,代价是大量训练资源。2026年的AIMO-3,排行榜最高得分约46分,而这篇研究在零训练成本、仅使用现成模型的条件下得了42分,只用了N=8次尝试——比2024年的N=48还少得多,分数却高了13分。
这个轨迹说明:随着基础模型能力的大幅提升,增加投票次数和精心设计训练数据的边际效益在迅速下降。当模型本身的单次准确率从0.46跃升到0.69,你需要的投票次数可以从48次降到8次,同时分数还能大幅提高。
---
八、把每次提交当彩票来买
由于所有优化手段都不奏效,研究者做了一个颇为务实的决定:把42次提交机会全部用于重复提交同一套未经修改的基准系统,像买彩票一样等候幸运的一次。
基准系统21次测试的平均分是39.3,标准差1.7,得分范围从34到42。基于正态分布估计,单次提交得到42分或以上的概率约为5.6%。42次提交用完,至少有一次达到42分的累计概率约为91.2%。最终,研究者在42次提交中的确拿到了42分的最高记录。
有意思的是,即便换成多样化混合器,单次得42分以上的概率也只是微弱提升到约6.7%(因为混合器的得分分布均值略低但方差略大),但均值更低的代价远超这点尾概率的提升。从期望值和累计概率的角度看,坚持提交基准系统是更优的策略。
研究者还指出,共享GPU环境下的基础设施噪声会让得分产生约6个百分点的随机波动,这也是21次重复测试而非简单测一两次的原因——足够多的重复实验才能把这种随机噪声平均掉,得到真实的性能估计。
---
说到底,这项研究告诉我们一件既朴素又容易被忽视的事:当你面对真正困难的问题时,换个问法不如换个更聪明的大脑。
研究者花了两个多月、23个实验、3个模型,以一种非常彻底的方式证明了:在IMO级别的数学推理这类高难度任务上,提示工程的天花板低得可怜,模型本身的能力才是决定性因素。小模型用再多技巧,也很难追上大模型最简单的基准配置。这不是在否定提示工程的价值——在一些任务上它确实有效——而是在说:当基础能力差距已经达到8分量级时,±2分的提示工程效果根本不在同一个量级。
当然,研究者也坦诚地指出,这项研究的结论有明确的边界:它只否定了"提示层面"的推理时优化,而"选择层面"的优化(即如何从多次答题中挑出正确答案)是一个完全不同的问题,还有约3.5分的改进空间等待着能设计出有效验证器的人去探索。
有兴趣深入了解完整实验细节的读者,可以通过arXiv编号2603.27844查询原始论文,作者还公开了全部代码和实验笔记本。
---
Q&A
Q1:AIMO 3竞赛中"多样化提示混合器"为什么会失败?
A:多样化提示混合器失败有两个根本原因。首先,在采样温度1.0的条件下,AI每次答题时本身已经在走不同路径,错误相关系数实测接近零甚至为负,根本不存在需要"打散"的相关性。其次,非原版策略(如小数字先行、从答案往回推等)的单次答题准确率比原版提示更低,引入多样化虽然可能略微降低相关性,但准确率的损失更大,最终总分反而下降。
Q2:gpt-oss-120b的尝试次数从8增加到32为什么会让得分下降?
A:每道题的总时间是固定的,尝试次数增加意味着每次尝试分到的时间减少。在时间压力下,gpt-oss-120b的单次答题准确率从约0.69降到了0.52。虽然投票次数多了,但每票的质量大幅下降,最终得分从39.3分左右跌到了26分,用数量换质量在这里完全适得其反。
Q3:pass@20和最终竞赛得分之间的差距是什么原因造成的,能弥补吗?
A:pass@20约45.5分而最好的多数投票得分是42分,差距约3.5分,原因是"选择损失"——正确答案已经出现在8次尝试里,但被更多出现的错误答案投票盖过。多数投票是最简单的选择机制,无法识别哪个答案真正正确。理论上,一个能真正验证答案(比如把答案代回题目检验是否满足条件)的验证器机制可以弥补这个差距,但这篇研究没有测试这个方向,作者将其列为未来研究的开放问题。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。