微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

亚利桑那州立大学找到了让AI"学多种解题方法"后再强化训练的秘诀

大语言模型强化学习多样化解题策略

亚利桑那州立大学找到了让AI"学多种解题方法"后再强化训练的秘诀

作者：科技行者

2026-05-27 13:02

分享至：

这项由亚利桑那州立大学主导的研究发现，在强化学习之前让语言模型学习同一道题的多种正确解法，能显著提升后续强化学习的效果，尤其在高难度数学和复杂推理任务上表现突出。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-27 13:02 • 科技行者

这项由亚利桑那州立大学、谷歌云AI研究院和谷歌DeepMind联合完成的研究，以预印本形式于2026年5月发表，论文编号为arXiv:2605.08472。感兴趣的读者可以通过该编号在arXiv平台查阅完整论文。

**一场关于"熟能生巧"的AI实验**

教一个孩子做数学题，你会只给他看一种解法，还是展示多种不同思路？大多数好老师会选择后者——因为掌握了多种解题方式的学生，遇到新题目时往往更灵活，更能举一反三。

这项研究的出发点，正是类似的朴素直觉。研究团队来自亚利桑那州立大学，他们一直在思考一个让AI圈子里颇为头疼的问题：大语言模型（也就是ChatGPT这类能够理解和生成文字的AI系统）经过强化学习训练之后，为什么有时候进步幅度令人失望，甚至有时候反而变差了？

强化学习，用最直白的方式来理解，就像是给AI做"答题练习"：AI给出一个回答，系统判断这个回答对不对，对的就给"奖励"，错的就给"惩罚"，AI在这种奖惩机制下不断调整自己的答题策略。理论上，经过足够多的练习，AI应该越来越厉害。但实际操作中，研究者发现这套机制并没有想象中那么万能。

问题的症结在于：如果一个AI在接受强化学习之前，脑子里只存着一种解题套路，那么强化学习充其量只能把这种套路用得更熟练，却很难帮它学会全新的思考方式。这就好比一个只会正面进攻的棋手，无论练多少次，也很难自发发展出迂回包抄的战术——因为他的脑子里根本没有这个概念的雏形。

研究团队于是提出了一个直觉上非常合理的解决方案：在正式进行强化学习之前，先让AI学习用多种不同方法解决同一道题，给它的"脑袋"里多装几套工具，然后再通过强化学习让它学会把这些工具灵活组合起来用。他们把这个中间步骤称为"中间训练"（Mid-Training）。

**一、解题高手的工具箱：波利亚的智慧**

如何让AI学会多种解题方法，而不是所有回答都千篇一律？研究团队从一本1945年出版的经典书籍中找到了灵感。

匈牙利数学家乔治·波利亚（George Pólya）写了一本名叫《怎样解题》（How to Solve It）的小书，专门讲解各种解题策略。他在书中总结了几十种人类在面对数学难题时常用的思维方式：比如"从答案往回推"（如果我已经知道答案是什么，我需要哪些条件？）、"找类比"（这道题让我想起了哪道我已经会做的题？）、"分解问题"（把一个大问题拆成几个小问题分别解决）、"引入辅助元素"（加进来一个原来题目没有的新变量，看能不能让解题更顺畅）……

研究团队把波利亚书中的64种这样的思维方式，逐一转化成可以提示AI的"指令"。对于每一种思维方式，他们都准备了详细的文字描述和几个示范例题，告诉AI："用这种思维方式来解这道题，答案要藏在最后。"

接下来的操作流程可以用"工厂筛选"来理解。团队选取了7473道GSM8K数学题（一个常用的数学题训练数据集）作为原材料。对于每道题和每种思维方式的组合，他们让AI各生成128个回答候选，就像一个工厂的流水线同时生产128件产品。然后通过两道质检关卡：第一关是数学验证程序，把答案算错的全部淘汰；第二关是一个奖励模型（可以理解为一位审稿专家），专门评判每个回答有没有真正按照指定的思维方式来解题，并给出评分。最终，每道题和每种思维方式的组合，只保留分数最高的那一个回答。

经过这套流程，团队最终得到了7112道题，每道题配有最多64种不同思维方式的正确解法。这些数据构成了中间训练的原材料。用这批数据对AI进行监督微调（一种让AI模仿示范答案的训练方式），就完成了中间训练阶段。

值得一提的是，整个数据生成过程并没有借助比被训练模型更聪明的"老师模型"——所有数据都是由被训练的模型自己生成的，再经过筛选保留高质量部分。这种"自我提升"的方式，避免了对外部强大模型的依赖。

**二、为什么学多种方法管用：一点数学直觉**

研究团队不满足于仅仅展示实验结果，他们还想从理论上解释清楚：为什么让AI学会多种解题方法，会让后续的强化学习变得更有效？

为了解释这个问题，可以用一盏水龙头来打比方。水龙头里流出来的水，代表AI在每一步决策时"分配给各个可能选项"的注意力和概率。

第一种情况叫"单模式"：AI的水龙头几乎只朝一个方向流，99%的水都流向同一个选项（一种固定的解题套路），其他所有可能性加起来才占1%。这时候，强化学习来了，想要稍微调整水流的方向——但因为水流已经太集中，能拨动的余地极其微小，就像试图用手指改变一条已经形成了深深沟壑的河流走向，效果可想而知。研究团队用数学推导出，这种情况下一次训练更新能带来的概率变化，大约只有那1%的平方，也就是万分之一量级，近乎可以忽略不计。

第二种情况叫"多模式"：经过中间训练，AI的水龙头同时朝N个方向流，每个方向分得大约1/N的水量。这时候，强化学习要调整某一个方向的水流，就容易得多了——调整的幅度大约是1/N乘以(1-1/N)，比之前那种"万分之一"量级大了许多倍，训练信号能真正发挥作用。

更有意思的是，当强化学习给某种解题方式打了"差评"（负奖励），需要减少这种方式的使用概率时，被减少的那部分概率会流向哪里？研究团队通过数学推导证明，这部分概率会主要流向其他那些同样具有较高概率的解题方式，而不是分散到无数个几乎没有概率的"噪声"选项上。换句话说，当AI学会了N种解法，强化学习的惩罚信号会引导它把注意力从一种方法转移到另一种方法，而不是一下子让它什么方法都不用了。这种机制天然地促使AI去组合不同的解法——而不是死守单一套路，也不是随机乱试。

**三、实验怎么做的，结果怎么样**

说完理论，来看具体实验。研究团队以Llama 3.2-3B-Instruct（一个由Meta开发的、参数量相对较小的语言模型）作为主要实验对象，并在最后也用了Qwen2.5-7B-Instruct做了补充验证。

中间训练的设置是：对于同一套数学题，分别构建"每道题配1种解法"、"每道题配2种解法"、……一直到"每道题配64种解法"共七个版本的训练数据，每个版本单独训练出一个中间训练模型。评估这些模型的指标是pass@k——简单说，就是如果让模型对同一道题生成k个回答，只要有一个答对就算通过，k越大，这个指标就越能反映模型"会不会做"而不只是"运气好不好"。

在没有任何额外训练的基础模型上，六个数学比赛数据集（难度从中等到奥赛级别不等）的平均pass@64是46.30%。仅做了STaR（一种让模型自我生成推理过程的训练方法）的对比组，平均pass@64是46.32%，几乎没有提升。而中间训练配64种解法的模型，平均pass@64提升到了48.17%，在更难的测试集上提升更明显——比如AIME 2025（美国数学邀请赛2025年题目）的pass@64从12.84%跃升至18.66%，AMC 2023（美国数学竞赛2023年题目）从83.49%升到85.18%，OlympiadBench（奥林匹克数学题集）从42.13%升到43.57%。

在pass@1（只生成一个回答）这个更日常的指标上，中间训练的优势相对小一些：最好的情况下平均pass@1从11.08%提升到11.50%，而STaR对比组在pass@1上表现略好，能到13.02%。这说明中间训练的核心优势不在于让模型"一次就蒙对"，而在于让模型真正掌握了更多解题路径，从而在多次尝试的情况下能找到正确答案的能力大幅提升。

接下来，在中间训练的基础上再叠加强化学习（使用GRPO算法），结果更为显著。基础模型直接做强化学习的对照组，在六个数学数据集平均pass@64能达到44.21%；STaR之后再做强化学习，能到45.69%；而中间训练16种解法后再做强化学习，平均达到48.09%；中间训练64种解法后再做强化学习，达到47.62%。单看最难的数据集，AIME 2025的pass@64从对照组的16.91%提升到23.34%，AMC 2023从78.18%提升到84.52%，提升幅度相当可观。

有一个有趣的细节：16种解法版本的强化学习结果有时比64种解法版本还略好。研究团队对此有一个解释：强化学习时每次为一道题生成的候选回答数量（称为"rollout组大小"）恰好也是16。当解法种数和rollout组大小匹配时，每一批候选回答刚好能覆盖模型学过的所有解法，让强化学习能充分利用多样性；而当解法种数远超rollout组大小时，每批候选只能随机覆盖一部分解法，效果反而有所打折。在Qwen2.5-7B的实验中，rollout组大小设为8，结果也印证了这一规律：8种解法版本表现最好。

**四、观察AI的"思维进化"过程**

除了数字层面的改善，研究团队还想直接看看：强化学习训练之后，AI的解题过程有没有真正发生质变？

为此，他们建立了一套"解题方法鉴定系统"：用GPT-4o-mini作为裁判，为64种波利亚思维方式各准备了几个正面和反面示例，然后对AI生成的每一段解题过程逐一判断："这段解题过程有没有用到'分解问题'这种方法？""有没有用到'找类比'？"……裁判对每种方法给出"有"或"没有"的二元判断。

结果发现，在只做了中间训练而没有做强化学习的模型中，每道题的解题过程大多只能检测到一种主要的解题方法，符合中间训练数据的设计（每道题每次只示范一种方法）。

但当这些模型再经过强化学习之后，情况发生了显著变化：同一道题的解题过程里，经常能同时检测到两种甚至三种解题方法。以训练了16种解法的模型为例，强化学习前只有23.3%的解答包含多种方法；强化学习后，这个比例跳升到56.7%。解法种数越多，强化学习后出现"方法融合"的比例越高。

而且，这些融合出来的组合，在中间训练的数据里根本不存在——AI从来没被明确教过"既用分解问题，又同时用从答案往回推"，但它自己在强化学习中发展出了这种组合。最常见的新组合包括"波尔扎诺逻辑推演法+分解问题"（37%的解答包含此组合）、"问题重述+分解问题"（30%）、"波尔扎诺+问题重述+分解问题"（23%）等等。这种现象被研究团队解读为：强化学习促使模型在已有的多种解法基础上，自发地尝试组合这些工具，寻找更有效的策略。

为了验证这套鉴定系统的可靠性，团队还请了两位计算机科学研究生做人工标注，对鉴定结果进行交叉验证。三位评判者（两位人类加上GPT-4o-mini）之间的一致性达到了0.65（Fleiss' κ值），属于"显著一致"级别，说明这套自动鉴定系统是可信的。

**五、深挖细节：多学几种方法，还是多学几道题**

中间训练要用多少训练数据，应该怎么分配？研究团队做了一个很有趣的对照实验来回答这个问题。

他们固定了总训练量（约7400条训练样本），然后比较两种分配方式。第一种：覆盖尽量多的不同题目，每道题只配一种解法，共约7400道不同题目各一个回答。第二种：只选463道题，但每道题配16种不同解法，总条数同样是约7400条（463×16≈7400）。

直觉上，第一种方式似乎更合理——见过更多不同题目，应该泛化能力更强。但实验结果恰恰相反：第二种方式在随后的强化学习中表现更好，在所有pass@k指标上都优于第一种方式，平均相对提升约7%。

这个结果在某种程度上颠覆了"数据量越多越好"的直觉，转而支持"深度比广度更重要"的观点——至少在为强化学习做准备这件事上，让模型深入掌握少数题目的多种解法，比浅尝众多题目的单一解法更有价值。

研究团队还追加了另一个对照实验，专门检验"多样性"和"正确性"哪个更关键。他们构造了一批同样基于波利亚思维方式、同样多样化、但最终答案是错误的解题过程，用这批数据做中间训练，然后再做强化学习。结果非常明确：这种情况下，解法种数越多，强化学习效果越差，全部低于直接做强化学习的对照组。由此得出结论：多样化的解法必须是正确的才有效，仅仅让AI接触各种各样的"思维方式"但最终算错答案，不仅没帮助，还会产生干扰。

**六、与"向更聪明的老师学习"相比如何**

既然目标是让AI学到多样化的解法，为什么不直接去问一个更聪明的模型？研究团队也测试了这个方案：从QwQ-32B（阿里巴巴开发的一个以强推理能力著称的大模型，参数量是实验主模型的十倍以上）那里，为每道题生成16个解法，用这批数据做中间训练，然后再做强化学习。

结果，这种"向更聪明老师学习"的方案在pass@1上和研究团队的方案相近，但在pass@64上反而不如。研究团队用"多样性评分"（Vendi Score，一种衡量一批文本有多少种不同写法的指标）来解释这一差异：QwQ-32B生成的16个解法，多样性评分只有10.95；而研究团队自己通过波利亚方法生成的16种解法，多样性评分高达13.81。更聪明的老师生成的解法，反而在风格上更趋于单一，因为它有自己固定的强推理风格，很难真正"跳出套路"。此外，从QwQ-32B那里蒸馏来的解法普遍更冗长、更容易重复，这也和一些其他研究的发现吻合。

**七、数学练出来的方法，能用在写代码和理解故事上吗**

研究团队最后还测试了一个很自然的问题：波利亚的这些思维方式都是针对数学的，但AI通过这些数学练习习得的"思维习惯"，能不能迁移到完全不同的领域？

他们选取了两类测试场景。第一类是代码生成：把中间训练过的模型（64种解法版本和32种解法版本）在一个代码训练集（KodCode-Light-RL-10K）上做强化学习，然后在HumanEval（一个标准代码生成测试集）上评估。结果是，64种解法版本达到52.82%，32种解法版本达到52.34%，而直接对基础模型做强化学习的对照组只有51.14%——虽然差距不算大，但确实存在。

第二类测试更有趣：MuSR（Multi-step Soft Reasoning，多步软推理），这是一个需要AI阅读长篇自然语言叙述、然后进行多步骤推理的测试集，包含"谋杀推理"（根据线索推断凶手）、"物品摆放"（推断物品的位置关系）和"团队分配"（根据约束条件进行最优分配）三个子任务。

在"谋杀推理"子任务上，对照组（基础模型直接强化学习）得分53.15%，而中间训练32种解法版本达到56.94%，64种解法版本达到57.36%，提升幅度相当可观。最令人惊讶的是"团队分配"子任务：基础模型得分25.70%，直接强化学习对照组非但没有提升，反而降到了23.46%（这种强化学习让模型"退步"的现象，在其他研究中也有记录）；而中间训练32种解法版本达到39.07%，64种解法版本达到38.57%，不仅避免了退步，还大幅超越了基础模型。

这说明，通过波利亚数学思维方式培养出来的"多角度分析、分解问题、逆向推理"等习惯，确实在某种程度上是领域无关的通用思维能力，能够迁移到需要复杂推理的非数学任务上。

**说到底，这项研究在告诉我们什么**

归根结底，这项研究的核心发现可以用一句很朴实的话来概括：在让AI做"刷题练习"（强化学习）之前，先让它接触同一道题的多种正确解法，这件事大有裨益。

具体来说，这套流程能让随后的强化学习训练信号更有效地发挥作用，而不是被AI的"思维定势"所阻碍。通过理论分析，研究团队解释了这背后的机制：多种解法让AI在每个决策节点都保持多种可能性"在线"，训练信号因此能真正影响AI的策略，而不是在单一模式的高墙前碰壁弹回。

从实验数字来看，这套方案带来的提升在pass@64这类指标上最为明显，在通常更受关注的pass@1上提升相对有限。研究团队对此很坦诚：他们的目标并不是让AI每次都能一次性蒙对，而是让AI真正"会"更多解法，从而在给它多次机会时能找到正确答案。这对于需要大量可靠推理的实际应用场景，价值可能比单次命中率更重要。

在固定训练数据总量的条件下，深度学习少量题目的多种解法，胜过浅尝大量题目的单一解法——这个反直觉的发现，对于AI训练数据的设计和资源分配，有直接的参考价值。同时，这项研究所揭示的"RL主要在扩展和组合已有能力，而非凭空创造新能力"的观点，也对关于AI是否真正"涌现"出新能力这一更宏观的讨论，提供了一个具体且有据可查的视角。

当然，研究者自己也在文章末尾提出了一个开放性问题：AI在强化学习后展现出的那些从未被明确教过的"方法组合"，究竟是全新能力的涌现，还是只是把预训练期间就已学到的、平时隐而不显的能力重新激活和重组？这个问题目前还没有答案，留待未来更深入的研究去探索。

有兴趣深入了解全部实验细节和数学推导的读者，可以通过arXiv编号2605.08472查阅完整论文。

---

Q&A

Q1：中间训练（Mid-Training）和普通的监督微调有什么区别？

A：普通的监督微调通常给每道题配一个标准答案让AI去模仿。中间训练的核心区别在于，它给同一道题配了多种不同解法——比如一道数学题同时配有"分解法"、"类比法"、"逆推法"等多种正确解题过程。这样训练出来的AI，在脑子里同时对同一道题保留了多个高概率的"思路入口"，而不是只认一条路，这正是后续强化学习能发挥更大效果的前提。

Q2：为什么强化学习会让AI学会"组合"不同解题方法？

A：这是论文里最有意思的发现之一。当AI已经掌握了多种解法，强化学习在给某种解法打"差评"时，这部分被减少的概率不会消散到无数无关选项里，而是会流向其他那些同样具有一定概率的解法。久而久之，AI会自发尝试把多种方法拼在一起用，因为这样能覆盖更多情况、更容易得到正确答案和奖励——这种组合行为不是被明确教出来的，而是在强化学习的奖惩机制下自然浮现的。

Q3：这套训练方法只对数学题有效，还是别的任务也有用？

A：实验结果显示，在数学题上训练出来的多样化推理习惯，确实能迁移到其他领域。研究团队在代码生成任务（HumanEval）和需要多步骤自然语言推理的任务（MuSR，包括推断凶手、推断物品位置、优化团队分配等）上都观察到了提升，尤其是在逻辑推理步骤复杂的任务上提升更明显。这说明波利亚式思维方式培养的是某种通用的"多角度分析"习惯，而不只是数学专属技能。

大语言模型强化学习多样化解题策略

分享至