
这项由南京大学计算机科学与技术系赖哲健、耿翔、王志君等研究者与美团公司合作完成的研究,发表于2025年10月的arXiv预印本平台(论文编号:arXiv:2510.04617v2),为解决大型语言模型在数学推理中的顽疾提供了全新思路。
在人工智能快速发展的今天,大型语言模型在数学推理方面表现出色,但却存在一个致命弱点:它们往往像背书一样机械地记住答案,而不是真正理解解题的逻辑。就好比一个学生能够准确背出"鸡兔同笼"问题的标准答案,但当把鸡的数量从8只改成9只时,就完全不知所措了。这种现象被研究者称为"虚假推理"。
南京大学的研究团队敏锐地察觉到了这个问题的本质:现有的AI模型往往依赖表面特征来产生答案,而不是掌握真正的问题求解逻辑。这就像一个厨师只会按照固定食谱做菜,一旦食材数量发生变化就手足无措,而不是理解烹饪的基本原理来灵活调整。
为了解决这个问题,研究团队提出了一个名为AdaR的创新框架,全称为"自适应推理"(Adaptive Reasoning)。这个框架的核心思想是让AI模型学会真正的数学思维——能够根据问题的内在逻辑来求解,而不是简单地记忆和重复。
一、破解AI数学推理的"伪装术"
要理解AdaR框架的巧妙之处,我们首先需要明白当前AI模型在数学推理中存在的根本问题。研究团队发现,现有的模型虽然能够生成看似合理的推理过程,但这些推理往往是"表演性质"的,缺乏真正的逻辑基础。
这种现象可以用一个生动的比喻来解释:传统的AI模型就像一个擅长模仿的演员,能够完美地重现数学老师解题的表面动作和话语,但并不真正理解每一步操作背后的数学原理。当遇到稍微变化的题目时,这种"表演"就会露出马脚。
研究团队通过大量实验验证了这个观察。他们发现,当把一道数学题中的数字稍作调整时,那些在原题上表现优秀的AI模型往往会给出错误的答案。这说明这些模型并没有真正掌握解题的核心逻辑,而是依赖于对特定数值模式的记忆。
更令人担忧的是,这种虚假推理不仅影响模型在相似问题上的表现,还严重限制了它们在完全不同类型问题上的泛化能力。就好比一个只会背诵标准答案的学生,不仅无法应对题目的微小变化,更无法将学到的解题方法应用到其他领域。
二、构建"变通思维"的数据合成机制
AdaR框架的第一个创新在于其独特的数据合成策略。研究团队意识到,要让AI模型学会真正的数学推理,就必须提供能够促进"变通思维"的训练数据。
这个过程可以比作培养一个真正优秀的数学老师。一个好的数学老师不会只教学生背答案,而是会通过各种不同的例子来展示同一个数学原理的应用。研究团队正是借鉴了这种教学思路,设计了一套精妙的数据生成机制。
具体来说,研究团队首先让一个大型语言模型(Qwen2.5-72B)分析原始的数学问题,将其分解为三个核心组成部分:问题模板、变量集合和求解逻辑。这就像把一道复杂的烹饪过程分解为基本食谱、具体食材分量和烹饪步骤。
问题模板相当于数学问题的"骨架",比如"找到满足某某条件的数值A";变量集合则包含了问题中的具体数值,如系数32和结果42592;而求解逻辑则被转换为可执行的代码,确保推理过程的准确性和一致性。
接下来,研究团队开发了一个"可控扰动"机制。这个机制能够在保持问题核心逻辑不变的前提下,系统性地调整问题中的数值。就像一个厨师在保持基本烹饪方法不变的同时,尝试不同分量的食材来练习灵活应变的能力。
为了确保生成数据的质量,研究团队还设计了一套严格的"健全性检查"程序。这套程序从三个维度对生成的数据进行验证:首先检查变量对齐,确保问题模板中的变量与求解代码中的变量一一对应;然后验证代码可执行性,确保求解逻辑能够正确运行;最后进行有效解存在性验证,通过交叉验证确认生成的问题确实有合理的解答。
这种多重验证机制就像质量控制体系,确保每一个用于训练的问题都是高质量、有意义的。研究团队发现,这种严格的筛选过程虽然会过滤掉一些数据,但显著提升了剩余数据的价值。
三、强化学习驱动的自适应训练策略
AdaR框架的第二个关键创新在于其训练策略。研究团队巧妙地运用了"可验证奖励强化学习"(RLVR)方法,但与传统应用方式不同的是,他们将这种方法与精心设计的合成数据相结合。
这种结合的威力可以用一个形象的比喻来说明:传统的训练方法就像让学生在考试中只看最终分数,无法区分那些真正理解题目的学生和那些靠猜测或背答案蒙对的学生。而AdaR的方法则像设计了一套更加精妙的考核体系,能够准确识别出哪些学生真正掌握了解题方法。
具体来说,当AI模型面对一个原始问题时,很难判断它给出的正确答案是基于真正的理解还是简单的模式记忆。但是,当同一个模型面对多个在数值上有所变化但逻辑完全相同的问题时,情况就不同了。如果模型真正掌握了解题逻辑,它应该能够在所有这些变化的问题上都给出正确答案;如果它只是依赖表面特征,那么在变化的问题上就很可能出错。
研究团队将这些逻辑相同但数值不同的问题放在同一个训练批次中,让强化学习算法能够通过比较模型在这些问题上的表现来给出更加准确的奖励信号。这就像让一个学生同时解答多道本质相同但表面不同的题目,通过整体表现来评判其真实能力。
这种训练方式的巧妙之处在于,它能够自动惩罚那些依赖虚假推理的行为,同时奖励真正基于逻辑的推理过程。随着训练的进行,模型会逐渐学会依赖问题的内在逻辑结构,而不是表面的数值特征。
四、验证效果:从理论到实践的全面检验
为了验证AdaR框架的有效性,研究团队设计了一系列全面而严格的实验。这些实验不仅要证明新方法的优越性,更要深入分析其工作机制和适用范围。
实验设计遵循了科学研究的黄金标准:对比实验。研究团队选择了三种不同类型的基础模型进行测试:专门针对数学优化的Qwen2.5-Math-7B和DeepSeekMath-7B,以及通用的LLaMA3-8B模型。这种选择确保了实验结果的普遍性和可信度。
在数据准备方面,研究团队从ORCA-MATH数据集中精选了9000个高质量的数学问题作为种子数据。使用AdaR框架,他们为每个种子问题生成了一个对应的变化版本,形成了包含9000个实例的训练集。同时,他们还准备了2500个完全独立的测试实例,确保评估的公正性。
实验结果令人印象深刻。在各项测试中,AdaR方法都显示出了显著的优势。最引人注目的是,仅使用9000个合成数据实例,AdaR就在所有基础模型上都超越了其他方法。与MetaMATH方法相比,AdaR平均提升了8.5个百分点;与MathGenie方法相比,提升幅度更是达到了11.44个百分点。
更重要的是,这种提升不仅体现在数量上,还体现在质量上。研究团队专门测试了模型的"鲁棒性"——即当问题的数值发生变化时模型的表现稳定性。结果显示,经过AdaR训练的模型在面对数值变化的问题时表现出了更强的适应能力,这正是真正理解数学逻辑的标志。
在泛化能力测试中,AdaR同样表现出色。当面对完全不同类型的数学问题时,经过AdaR训练的模型依然能够保持较高的准确率。这说明这些模型确实学会了更加通用的数学推理原理,而不是仅仅记住了特定问题的解决方案。
研究团队还进行了详细的消融实验,逐一验证框架中每个组件的贡献。结果显示,数据合成机制、强化学习策略和健全性检查三个组件都对最终效果有重要贡献,缺少任何一个都会导致性能下降。这证实了AdaR框架设计的合理性和必要性。
五、深入机制:揭示AI学会"真推理"的奥秘
为了更深入地理解AdaR框架的工作原理,研究团队进行了一系列细致的分析实验。这些分析不仅验证了方法的有效性,还为我们理解AI如何学会真正的数学推理提供了宝贵见解。
首先,研究团队发现了一个有趣的现象:经过AdaR训练的模型开始在推理过程中自发地生成类似代码的结构化表达。这种变化颇为引人注目——尽管训练过程中从未提供任何代码示例,但模型却学会了使用更加规范和逻辑性的表达方式。这就像一个学生在深入理解数学原理后,开始自然地使用更加精确和条理化的语言来表达自己的思路。
具体来说,这种结构化表达的比例从训练前的55%提升到了训练后的90%。这种变化反映了模型推理方式的根本改变:从依赖模糊的语言模式转向基于清晰逻辑结构的推理。
为了更客观地衡量这种变化,研究团队设计了一个名为"逻辑顺序影响度"的指标。这个指标的基本思想是:如果一个模型真正理解了推理逻辑,那么当我们打乱其推理步骤的顺序时,模型对最终答案的信心应该会显著下降;而如果模型只是在进行表面的模式匹配,那么步骤顺序的改变不会产生太大影响。
实验结果非常清晰地显示了AdaR的效果。对于那些能够在所有数值变化版本上都给出正确答案的推理过程,其逻辑顺序影响度达到了221.87%;而对于那些无法适应数值变化的推理过程,这个数值只有114.24%。经过AdaR训练的模型,其平均逻辑顺序影响度从119.22%提升到了150.49%,清晰地表明了推理质量的改善。
研究团队还探讨了训练数据中不同扰动程度的影响。他们发现,适度的数值扰动能够最有效地促进模型学习真正的推理逻辑。扰动程度太小,模型可能仍然依赖具体数值的记忆;扰动程度太大,则可能引入过多噪声,影响学习效果。最优的扰动幅度大约在原数值的±500%范围内,这个发现为实际应用提供了重要的参数调优指导。
另一个有趣的发现涉及不同维度扩展的效果。研究团队比较了增加问题模板数量、增加变量变化范围和增加问题逻辑类型三种不同的扩展策略。结果显示,在变量维度上的扩展(即增加数值变化的范围和频率)比在模板维度上的扩展更能促进自适应推理能力的发展。这个发现揭示了一个重要原理:要让AI学会真正的推理,关键不在于见识更多不同类型的问题,而在于深入理解同一类型问题在不同条件下的变化规律。
六、实用价值:从实验室走向真实世界
AdaR框架的价值不仅体现在实验室的测试结果中,更体现在其对实际应用的深远影响。研究团队专门测试了这个方法在现有指令调优模型上的效果,结果显示AdaR甚至能够进一步提升那些已经经过大规模训练的商业化模型的性能。
这一发现具有重要的实际意义。当前的大型语言模型通常需要在包含数百万甚至数十亿样本的数据集上进行训练,耗费大量的计算资源和时间。而AdaR方法仅使用9000个精心设计的样本就能实现显著的性能提升,这大大降低了模型改进的成本和门槛。
研究团队还验证了AdaR方法的广泛适用性。他们发现,这种方法不仅适用于专门的数学模型,也适用于通用语言模型。虽然在不同类型的基础模型上,改进幅度有所不同(数学专用模型的改进幅度更大),但所有测试的模型都显示了明显的性能提升。这说明AdaR揭示的训练原理具有普遍性,可以被广泛应用于各种AI系统的改进中。
特别值得注意的是,研究团队发现模型的基础数学能力与AdaR方法的改进效果之间存在正相关关系。基础能力越强的模型,通过AdaR训练获得的提升越大。这个发现为AI系统的发展路径提供了重要启示:高质量的基础训练和精巧的后续优化方法相结合,能够产生超过各自单独效果之和的协同效应。
从数据效率的角度来看,AdaR方法展现出了令人惊叹的效果。传统的模型改进方法通常需要大量额外的训练数据,而AdaR通过巧妙的数据合成和训练策略,用相对少量的精心设计数据就实现了显著的性能提升。这种高效性使得小型研究团队和资源有限的组织也能够利用这种方法来改进他们的AI系统。
研究团队还测试了AdaR方法在不同难度级别问题上的表现。结果显示,这种方法不仅在基础问题上有效,在更加复杂和具有挑战性的问题上也能带来改进。这种跨难度级别的有效性进一步证明了AdaR方法的robust性和实用价值。
七、局限性与未来展望
尽管AdaR框架取得了令人瞩目的成功,研究团队也诚实地指出了当前方法的局限性和未来改进的方向。
首先,AdaR方法的效果与基础模型的数学能力密切相关。对于数学基础较弱的模型,改进幅度相对有限。这提醒我们,任何后训练优化方法都不能完全弥补基础能力的不足,高质量的预训练仍然是构建强大AI系统的基础。
其次,当前的实验主要集中在相对基础的数学问题上。虽然方法在不同难度级别上都显示了效果,但在极其复杂的数学推理任务上的表现还需要进一步验证。这也为未来的研究指出了明确的方向:将AdaR的核心思想扩展到更加复杂和抽象的推理任务中。
数据合成过程虽然已经相当自动化,但仍需要一定的人工监督和质量控制。特别是在健全性检查环节,需要平衡过滤严格程度和数据保留率之间的关系。研究团队发现,过于严格的过滤会导致可用数据过少,而过于宽松的标准则可能引入低质量样本。
从计算效率角度来看,虽然AdaR方法在训练数据量上表现出了高效性,但其中的强化学习训练过程仍然需要相当的计算资源。如何进一步优化训练效率,使这种方法能够在更加有限的计算条件下应用,是一个值得探索的方向。
研究团队还指出,当前的方法主要适用于具有明确数值答案的数学问题。对于那些需要证明、推导或概念性解释的数学任务,AdaR方法的适用性还需要进一步研究和改进。
展望未来,研究团队提出了几个有前景的研究方向。首先是将AdaR的核心思想扩展到其他需要逻辑推理的领域,如物理问题求解、程序代码生成等。其次是探索更加高效的数据合成策略,减少对大型语言模型的依赖。第三是研究如何将这种方法与其他AI优化技术相结合,实现更大的性能提升。
说到底,这项研究最重要的贡献不仅在于提出了一个有效的技术方法,更在于为我们理解AI如何学会真正的推理提供了深刻洞察。它告诉我们,要让AI系统具备真正的智能,不能仅仅依赖大规模数据的暴力训练,而需要精心设计训练过程,引导模型学会抓住问题的本质而非表面特征。
这种思路不仅对数学推理有效,很可能对AI系统在各个领域的能力提升都具有启发意义。归根结底,无论是在数学推理还是其他认知任务中,真正的智能都在于能够透过现象看本质,通过抽象思维来处理各种变化的具体情况。AdaR框架为我们朝这个目标迈进提供了一个有力的工具和清晰的方向。
Q&A
Q1:AdaR框架是什么?它解决了AI数学推理中的什么问题?
A:AdaR是南京大学团队开发的"自适应推理"框架,专门解决大型语言模型在数学推理中的"虚假推理"问题。传统AI模型往往像背答案一样机械记住解题步骤,一旦题目中的数字发生变化就不知所措。AdaR通过特殊的数据合成和训练方法,让AI学会真正理解解题逻辑,能够灵活应对数值变化的问题。
Q2:AdaR框架是如何训练AI模型的?
A:AdaR采用了独特的两步训练策略。首先,它会将原始数学题分解为问题模板、变量集合和求解逻辑,然后在保持逻辑不变的情况下改变数值创造变化版本。接着使用强化学习方法,让AI同时面对多个逻辑相同但数值不同的问题,通过比较表现来奖励真正基于逻辑的推理,惩罚依赖记忆的行为。
Q3:AdaR方法的效果如何?需要多少训练数据?
A:AdaR方法效果显著,仅使用9000个合成数据样本就实现了大幅性能提升。与其他方法相比,AdaR平均提升8.5-11.44个百分点,不仅在原有问题类型上表现更好,在完全不同的数学问题上也显示出更强的泛化能力。最重要的是,它的数据效率极高,用很少的精心设计数据就能超越需要大量数据的传统方法。
好文章,需要你的鼓励
过去十年,终端厂商比拼的是“性能”和“参数”,如今,竞争的焦点正转向“智能程度”。
Fractal AI Research实验室开发了Fathom-DeepResearch智能搜索系统,该系统由两个4B参数模型组成,能够进行20多轮深度网络搜索并生成结构化报告。研究团队创新了DUETQA数据集、RAPO训练方法和认知行为奖励机制,解决了AI搜索中的浅层化、重复性和缺乏综合能力等问题,在多项基准测试中显著超越现有开源系统,为AI助手向专业研究工具转变奠定了基础。
快手科技与清华大学合作发现当前AI语言模型训练中存在严重的权重分配不平衡问题,提出了非对称重要性采样策略优化(ASPO)方法。该方法通过翻转正面样本的重要性权重,让模型把更多注意力放在需要改进的部分而非已经表现良好的部分,显著提升了数学推理和编程任务的性能,并改善了训练稳定性。