微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当"换个提问方式"根本救不了AI数学水平——来自Natapong Nitarach的赛场实录

人工智能数学推理推理时优化

当"换个提问方式"根本救不了AI数学水平——来自Natapong Nitarach的赛场实录

作者：科技行者

2026-04-27 11:15

分享至：

这项由独立研究者发表于2026年4月（arXiv:2603.27844）的研究，以AIMO 3国际数学奥林匹克竞赛为实验场，在单块H100 GPU、五小时时限内对三个AI模型进行了23个系统实验，验证了"多样化提示混合器"能否提升多数投票的数学推理得分。结论清晰：所有提示层面的干预均以失败告终，高温度采样已足够分散错误相关性，而非原版策略只会降低单次准确率。跨模型对比显示，在相同N=8条件下，模型能力的8分差距是提示优化±2分效果的四倍，模型本身的能力是压倒性的决定因素。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-27 11:15 • 科技行者

这项由独立研究者Natapong Nitarach主导的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2603.27844v2，发布于cs.CL领域。研究以2026年AIMO 3数学奥林匹克竞赛为实验舞台，系统性地测试了一系列推理时优化手段，最终得出了一个让很多AI从业者意外的结论。

你有没有想过，一道国际数学奥林匹克题，对AI来说究竟意味着什么？这不是普通的"1+1=2"，而是那种让顶尖高中生也得冥思苦想几小时的题目。而这篇研究记录的，正是一场在最严苛条件下——一块GPU、五小时时限、五十道奥赛级别难题——对AI数学推理能力的极限压测。

研究者带着一个看起来很合理的想法进入这场比赛：如果让AI用不同的解题思路来尝试同一道题，错误应该会减少，因为不同思路犯相同错误的概率更低。这个策略被他称为"多样化提示混合器"（Diverse Prompt Mixer）。然而，最终的实验结果给了这个想法一记响亮的耳光。二十三个实验、三个不同的AI模型，每一个"改进"尝试都以失败告终。真正决定成败的，只有一件事：AI模型本身的能力强弱。

---

一、为什么"让AI换个角度想"听起来那么有道理？

任何曾经在考试前跟同学互相讲题的人，都能直觉地理解这项研究想做的事。当你用一种方法解题卡住了，换一个同学用完全不同的思路来看，往往能找到突破口——因为两个人的盲点不一样。

在AI领域，有一种叫做"多数投票"或"自洽性"的技术，原理与此一脉相承。具体做法是：让同一个AI对同一道题独立作答好几次，最后统计哪个答案出现次数最多，把票数最高的那个作为最终结果。这背后有一个来自法国大革命时期数学家孔多塞的理论支撑：只要每次答题的准确率超过50%，而且每次犯错都是独立随机的，那么答题次数越多，最终多数票的正确率就越高。

但现实中有个麻烦：AI每次答同一道题，犯的往往是同样的错误。同一个模型、同一套提示语，就算随机重试十次，它可能每次都在同一个推理步骤上卡壳。这就像让同一个学生用同一种解法做十遍，错还是错在同一个地方。统计学上，这种现象叫做"错误相关性"。当错误高度相关时，你答十次和答一次其实没多大区别——有效尝试次数远比你想象的少。

研究者用一个公式描述了这个现象：有效样本数等于总尝试次数除以（1加上尝试次数减一再乘以错误相关系数）。打个比方，如果你让AI答8次题，但这8次的错误之间有30%的相关性，那实际上只相当于答了不到3次独立的题。剩下那些尝试，基本是在重复同一个错误。

既然如此，解决方案似乎显而易见：给AI布置不同的解题策略，让每次答题走不同的路径。一次让它从小数字入手找规律，一次让它从答案往回推，一次让它先判断题型再解题，这样不同策略犯相同错误的概率应该更低。这就是"多样化提示混合器"的核心逻辑，也是这项研究想要验证的假设。

---

二、竞赛现场：一块GPU、五小时、五十道难题

研究者在Kaggle平台上的AIMO 3竞赛中搭建了整套系统，条件相当苛刻：唯一一块NVIDIA H100 80GB显卡，五小时墙钟时限，不能联网调用外部API，不能预先计算答案，必须在规定时间内现场解出五十道国际数学奥林匹克级别的题目。

系统的核心模型是gpt-oss-120b，这是OpenAI发布的一个开源模型，总参数量约1168亿，但通过一种叫做"专家混合"（Mixture of Experts，简单理解就是：模型里有很多"专家小组"，每次只调用其中几个最相关的）的架构，每次实际运算时只激活约51亿参数。模型以FP8格式量化（相当于对数据进行了精简压缩以节省显存）存储在GPU上，大约占用75GB显存，剩余约5GB用于同时处理8道题的运算。

整个解题流程被设计成一条五步流水线。首先，系统将剩余总时间平均分配给剩余题目，这保证了在任何情况下都能在截止时间前答完所有题，不会因为某道题太难就超时失败。其次，每道题同时启动8个并行尝试，每次使用不同的随机种子，但用同样的提示语和1.0的采样温度（温度越高，AI回答越"发散"，越不会重复同一条路径）。

在解题过程中，AI还可以调用Python代码工具，通过执行sympy、numpy、mpmath等数学库来辅助计算——就像让AI一边思考、一边用计算器验算一样。如果8次尝试中有4次达成了一致的非平凡答案，系统会提前停止剩余尝试，节省时间。最后，系统通过"熵加权投票"来选出最终答案：那些回答更"自信"（信息熵更低，意思是AI内部对这个答案更确定）的尝试，在投票中权重更高。

---

三、多样化提示的四种策略，以及它们的集体失败

研究者设计了四种不同的解题策略提示语，分别代表四种不同的思维路径。

第一种是"原版"提示，要求AI逐步拆解问题，先理解再探索再规划再执行最后验证，同时鼓励寻找模式、对称性和特殊情况。第二种叫"小数字先行"，策略是先计算n=1、2、3、4、5时的答案，观察规律，提出猜想，再证明猜想是否普遍成立。第三种叫"从答案往回推"，要求AI先列出答案必须满足的所有约束条件，缩小搜索空间，再从这些约束出发构造解法。第四种叫"先分类再解题"，让AI首先判断这道题属于数论、代数、组合还是几何，然后调用该类型题目的经典解题套路。

研究者把这四种策略混合成三种不同配比进行测试。保守配置是5个原版加各1个其他策略，合计8次尝试；激进配置是3个原版加2-2-1的其他策略；均等配置是每种策略各2个，完全平均分配。此外还单独测试了每种策略"独挑大梁"的效果，即8次尝试全用同一种非原版策略。

结果让人沮丧却也一目了然。基线（21次重复测试的均值）是39.3分，满分50分。保守配置和激进配置各得了40分，仅比基线均值高出不到1分，但这点差距完全可能是运气。均等配置跌到了38分。而那些完全抛弃原版提示、只用单一其他策略的测试，表现更惨：小数字先行得37分，从答案往回推得39分，先分类再解题只有36分，都低于基线均值。

研究者还测试了一个叫"代码优先"的策略——要求AI每次都先写Python代码探索问题，再从代码结果中归纳规律。第一次测试得了41分，看起来很有希望。但接下来的两次确认实验分别得了38分和34分，三次平均下来是37.7分，低于基线均值。还有一个"形式化优先"策略，要求AI在写代码之前先用数学符号把问题的变量和约束完整定义，结果得了39分，与基线持平。

沿着多样化比例从0%到80%画一条趋势线，分数单调递减，斜率约为每增加一个百分点的多样化就下降0.01分。这个关系是清晰的：越多样化，越差。

---

四、为什么多样化提示从根本上就不可能奏效？

要理解为什么这个看似合理的策略彻底失败，需要搞清楚两件事：AI的错误其实已经不相关了，而且非原版策略本身就更弱。

先说错误相关性。多样化提示存在的理由，是假设AI在同一提示下重复作答时，错误是高度相关的，因此需要用不同策略来"打散"这些相关性。研究者实际测量了这个相关系数。测量方法是：对于每一道题，统计8次尝试中有几次答对（叫做vc），计算每次准确率p^=vc/8，然后用一个统计公式估算两次随机尝试之间错误相关性的均值。

测量结果非常出人意料：所有19个可计算数据点的相关系数全部是负数。对于尝试次数足够多（7次及以上）的数据点，相关系数的均值是-0.122，最大的也不超过0。这意味着什么？负相关意味着当AI第一次答错时，第二次反而更可能答对，而不是继续犯同样的错误。AI在高采样温度下已经在自发地探索不同路径，错误自然而然地被分散了，根本不存在需要"打散"的相关性。给多样化提示留下的空间，本来就是负数——它不可能再改善什么，只能把本已有效的机制破坏掉。

研究者为此测试了不同采样温度的效果。温度0.5时（AI回答比较保守、重复性高），得38分；温度0.8时得40分；基线温度1.0时均值39.3分；温度升到1.2并加上min_p过滤时，得37分。最优点确实在1.0附近，而且温度本身已经足够分散错误，再叠加提示多样化是多此一举。

研究者还做了一个决定性的对照实验：在温度降到0.5的情况下（此时随机性最低，错误相关性理论上最高，多样化提示应该最有帮助），使用均等配置的多样化提示。结果得了36分，比单纯用T=0.5但不加多样化（38分）还差。就算在多样化提示"最应该奏效"的条件下，它依然没有帮上忙。

另一个根本问题是：非原版策略本身就是更弱的解题方式。多样化提示器在降低相关性的同时，也降低了每次单独答题的准确率。要让整体表现变好，相关性的下降幅度必须超过准确率的下降幅度。但实验数据显示，没有任何一种替代策略能达到原版策略的水平，而相关性本来就已经接近零甚至为负。这是一个双重失败：降低了准确率，却根本没有打散什么相关性。

---

五、真正决定分数的，是模型本身

如果提示工程没有用，那什么有用？实验给出了一个清晰的答案：换个更强的模型。

研究者在同等条件下测试了多个模型，让它们都用N=8次尝试来解题，除了模型本身其他参数完全相同。gpt-oss-120b的单次答题准确率是0.69，最终竞赛得分均值39.3分。换成较小的gpt-oss-20b（参数量约200亿，激活参数约36亿），单次准确率降到0.61，得分均值31.0分——整整低了8分多。这8分的差距，是所有提示优化实验中最大正向效果（+0.7分）的约11倍。

更能说明问题的是N的调整效果。把gpt-oss-20b的尝试次数从8次扩大到32次，结果得分反而从31分降到了26分。为什么？因为每道题的总时间是固定的，尝试次数变多意味着每次尝试的时间变少，模型在时间压力下的单次准确率从0.61跌到了0.52。用数量换质量，在这里完全行不通。

研究者还测试了另外两个模型。Nemotron-Super-120B-NVFP4是一个总参数量1200亿、激活参数约120亿的混合架构模型（融合了Mamba-2序列模型、专家混合和标准注意力机制三种技术），以NVFP4格式量化，只用了3次尝试，最终得了23分。Qwen3.5-35B-A3B是一个总参数350亿但激活参数只有30亿的模型，用了16次尝试，也是23分。这两个模型尽管总参数量庞大，但实际计算时参与运算的参数少，在这类高难度数学题上表现明显弱于gpt-oss-120b。

有一个细节值得专门说明：Nemotron-Super-120B在另一个叫HMMT Feb25的数学竞赛上，NVFP4量化版本得了95.4%，而全精度BF16版本得了94.7%，说明量化本身不是它在AIMO 3上失利的原因。问题在于，不同数学竞赛的题目分布不同，在一个榜单上表现优异，不代表在另一个榜单上同样有效。

对Qwen3.5-35B-A3B的专项测试也印证了同样的结论。研究者在10道本地测试题上做了8个独立实验，每次只改变一个变量。把尝试次数从8次翻倍到16次：无改善。换成更长的提示语：-1分。使用制造商推荐的top_k=20参数：-1分。开启"思维模式"（enable_thinking）：直接崩溃。添加presence_penalty参数：同样崩溃。所有干预无一例外地要么无效要么有害，没有任何实验打破了8/10的基准线。

---

六、已经知道答案在某处，却选不出来——"选择损失"的问题

尽管多样化提示失败了，研究者发现整套系统还有另一个值得注意的问题，而且这个问题有可能被解决，只是这篇研究没有去做。

竞赛主办方发布的数据显示，gpt-oss-120b在20次尝试的通过率（pass@20，意思是给20次机会，只要有一次答对就算成功）上约为45.5分，甚至在100次尝试的通过率上约为49分。换句话说，在绝大多数题目中，正确答案已经出现在AI的某次尝试里了，只是多数投票没能选出它。

研究者最好的单次竞赛得分是42分，而pass@20的均值约45.5分。这中间差了约3.5分，这个差距既不是因为准确率不够（p已经在公式里体现了），也不是因为错误相关（ρ也在公式里），而是纯粹的"选择损失"：正确答案就在8次尝试里，但被更多出现的错误答案投票盖过去了。

多数投票是最廉价的选择机制，它的逻辑是：谁出现最多次谁就对。但对于高难度数学题，错误答案往往比正确答案更"多元"——AI能想到的错误路径有几十条，但正确路径可能只有一条或少数几条，因此正确答案即使存在也可能只出现1-2次，被各种不同的错误答案淹没。

真正能弥补这个差距的，是一种叫做"验证器"的机制：不依赖出现次数，而是真正检验每个候选答案是否满足题目条件，比如把答案代回题目原式看是否成立，或者用代码执行来验证。研究者明确指出，验证器方向是留待未来研究的开放问题，这篇论文本身没有测试它。

---

七、从比赛历史看AI数学能力的演进

AIMO竞赛已经举办了三届，每一届的顶尖策略都在发生根本性的转变，这个演变轨迹本身也很能说明问题。

2024年的AIMO-1，冠军方案使用了N=48次的暴力投票，用大量重复尝试来弥补单次准确率的不足，最终得了29分。2025年的AIMO-2，冠军团队投入了约54万道训练题对模型进行专项训练，并开发了一个叫GenSelect的专用选择机制，最终得了34分，代价是大量训练资源。2026年的AIMO-3，排行榜最高得分约46分，而这篇研究在零训练成本、仅使用现成模型的条件下得了42分，只用了N=8次尝试——比2024年的N=48还少得多，分数却高了13分。

这个轨迹说明：随着基础模型能力的大幅提升，增加投票次数和精心设计训练数据的边际效益在迅速下降。当模型本身的单次准确率从0.46跃升到0.69，你需要的投票次数可以从48次降到8次，同时分数还能大幅提高。

---

八、把每次提交当彩票来买

由于所有优化手段都不奏效，研究者做了一个颇为务实的决定：把42次提交机会全部用于重复提交同一套未经修改的基准系统，像买彩票一样等候幸运的一次。

基准系统21次测试的平均分是39.3，标准差1.7，得分范围从34到42。基于正态分布估计，单次提交得到42分或以上的概率约为5.6%。42次提交用完，至少有一次达到42分的累计概率约为91.2%。最终，研究者在42次提交中的确拿到了42分的最高记录。

有意思的是，即便换成多样化混合器，单次得42分以上的概率也只是微弱提升到约6.7%（因为混合器的得分分布均值略低但方差略大），但均值更低的代价远超这点尾概率的提升。从期望值和累计概率的角度看，坚持提交基准系统是更优的策略。

研究者还指出，共享GPU环境下的基础设施噪声会让得分产生约6个百分点的随机波动，这也是21次重复测试而非简单测一两次的原因——足够多的重复实验才能把这种随机噪声平均掉，得到真实的性能估计。

---

说到底，这项研究告诉我们一件既朴素又容易被忽视的事：当你面对真正困难的问题时，换个问法不如换个更聪明的大脑。

研究者花了两个多月、23个实验、3个模型，以一种非常彻底的方式证明了：在IMO级别的数学推理这类高难度任务上，提示工程的天花板低得可怜，模型本身的能力才是决定性因素。小模型用再多技巧，也很难追上大模型最简单的基准配置。这不是在否定提示工程的价值——在一些任务上它确实有效——而是在说：当基础能力差距已经达到8分量级时，±2分的提示工程效果根本不在同一个量级。

当然，研究者也坦诚地指出，这项研究的结论有明确的边界：它只否定了"提示层面"的推理时优化，而"选择层面"的优化（即如何从多次答题中挑出正确答案）是一个完全不同的问题，还有约3.5分的改进空间等待着能设计出有效验证器的人去探索。

有兴趣深入了解完整实验细节的读者，可以通过arXiv编号2603.27844查询原始论文，作者还公开了全部代码和实验笔记本。

---

Q&A

Q1：AIMO 3竞赛中"多样化提示混合器"为什么会失败？

A：多样化提示混合器失败有两个根本原因。首先，在采样温度1.0的条件下，AI每次答题时本身已经在走不同路径，错误相关系数实测接近零甚至为负，根本不存在需要"打散"的相关性。其次，非原版策略（如小数字先行、从答案往回推等）的单次答题准确率比原版提示更低，引入多样化虽然可能略微降低相关性，但准确率的损失更大，最终总分反而下降。

Q2：gpt-oss-120b的尝试次数从8增加到32为什么会让得分下降？

A：每道题的总时间是固定的，尝试次数增加意味着每次尝试分到的时间减少。在时间压力下，gpt-oss-120b的单次答题准确率从约0.69降到了0.52。虽然投票次数多了，但每票的质量大幅下降，最终得分从39.3分左右跌到了26分，用数量换质量在这里完全适得其反。

Q3：pass@20和最终竞赛得分之间的差距是什么原因造成的，能弥补吗？

A：pass@20约45.5分而最好的多数投票得分是42分，差距约3.5分，原因是"选择损失"——正确答案已经出现在8次尝试里，但被更多出现的错误答案投票盖过。多数投票是最简单的选择机制，无法识别哪个答案真正正确。理论上，一个能真正验证答案（比如把答案代回题目检验是否满足条件）的验证器机制可以弥补这个差距，但这篇研究没有测试这个方向，作者将其列为未来研究的开放问题。

人工智能数学推理推理时优化

分享至