微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 数学推理能力是否真的提升了AI的整体智能?卡内基梅隆大学团队揭开大模型"偏科"之谜

数学推理能力是否真的提升了AI的整体智能?卡内基梅隆大学团队揭开大模型"偏科"之谜

2025-07-03 13:55
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-03 13:55 科技行者

在人工智能快速发展的今天,各种大型语言模型在数学推理任务上的表现越来越惊艳,有些甚至超越了人类专家的平均水平。然而,一个令人困惑的现象开始浮现:这些在数学题上表现出色的AI模型,在处理其他类型任务时却可能表现平平,甚至不如训练前的版本。这就像一个原本各科成绩都不错的学生,在专门训练数学后,虽然数学成绩大幅提升,但其他科目的成绩却意外下降了。

这项由卡内基梅隆大学、宾夕法尼亚大学、华盛顿大学等多所知名学府研究团队合作完成的研究,发表于2025年7月的arXiv预印本平台(论文编号:arXiv:2507.00432v1),深入探讨了数学推理训练对大语言模型整体能力的真实影响。研究团队包括来自卡内基梅隆大学的Maggie Huan、Seungone Kim、Graham Neubig和Xiang Yue,以及来自华盛顿大学的Yuetai Li和Radha Poovendran等多位研究者。感兴趣的读者可以通过arXiv平台查阅完整论文。

这个问题的重要性远超学术界的关注范围。当我们把这些AI模型应用到真实世界时,我们需要的往往不是单一领域的专家,而是能够处理各种复杂情况的全能助手。如果一个模型在数学方面训练得过度专精,却在日常对话、文本理解或其他推理任务上能力下降,这样的"偏科"现象可能会严重影响AI系统的实用价值。

研究团队通过对超过20个开源推理调优模型的全面评估,发现了一个令人意外的现象:大多数在数学任务上表现优异的模型,并不能将这种优势成功转移到其他领域。这种现象被研究者称为"转移能力"问题。更有趣的是,他们发现造成这种差异的关键因素并非模型的大小或架构,而是训练方法的选择。

通过精心设计的对比实验,研究团队揭示了一个重要发现:使用强化学习方法训练的模型表现出更强的跨领域泛化能力,而使用传统监督学习方法训练的模型则容易出现"灾难性遗忘",即在学习新技能的同时丢失了原有的一般性能力。这一发现对AI模型的训练策略具有重要的指导意义。

**一、研究的核心发现:AI模型的"偏科"现象**

为了理解AI模型在不同训练方法下的表现差异,我们可以把这个过程比作培养一个多才多艺的学生。研究团队构建了一个名为"转移能力指数"的评估体系,就像给学生设计了一套综合能力测试,不仅考查数学成绩,还要评估语文、科学和生活技能等各个方面。

这个评估体系将任务分为三大类别:数学推理任务、其他推理任务和非推理任务。数学推理任务包括MATH500、AIME2024/2025和奥林匹克数学竞赛等,这些就像专门的数学考试。其他推理任务涵盖了科学问答、代码生成、医学推理和逻辑规划等,相当于理科综合考试。非推理任务则包括对话问答、指令跟随和事实性问题等,类似于语文和生活常识测试。

通过这套评估体系,研究团队对20多个知名的开源推理模型进行了全面测试。结果显示了一个清晰的分化现象:使用强化学习训练的模型在数学能力提升的同时,其他能力也得到了保持甚至增强;而使用监督学习训练的模型虽然数学成绩显著提高,但在非推理任务上的表现却明显下降,有些甚至比训练前的基础模型表现更差。

这种现象可以用一个生动的比喻来理解:强化学习就像让学生在实践中学习,通过不断尝试和接受反馈来改进,这种方式能够保持学生的综合素质;而传统的监督学习则像让学生死记硬背标准答案,虽然在特定题型上表现优异,但缺乏灵活应变的能力,甚至可能忘记之前学过的其他知识。

**二、深入机制:为什么不同训练方法产生如此差异**

为了更深入地理解这种现象的内在机制,研究团队设计了一系列精巧的实验,就像医生使用不同的检查手段来诊断病因一样。他们选择了Qwen3-14B作为基础模型,使用相同的数学数据集,但采用不同的训练方法进行对比实验。

在监督学习的实验中,研究团队首先让一个更强大的教师模型(Qwen3-32B)解答数学问题,并通过筛选保留那些能得出正确答案的解题过程。然后让学生模型模仿这些标准答案,就像让学生反复抄写标准解题步骤一样。这种方法确实能让模型在数学题上表现出色,但代价是在其他类型任务上的能力下降。

相比之下,强化学习的方法更像是让学生自己探索解题思路,只在最后告诉他们答案是否正确。模型需要自己尝试不同的推理路径,通过正确性反馈来调整策略。这种训练方式虽然过程更复杂,但能够培养模型更强的适应能力和泛化能力。

实验结果验证了研究团队的假设:强化学习训练的模型不仅在数学推理上表现优异(AIME24达到55.7%,MATH500达到87.8%),在其他推理任务上也有显著提升,甚至在非推理任务上也保持了良好表现。而监督学习训练的模型虽然数学成绩不错,但在非推理任务上出现了明显的性能退化。

**三、模型内部变化的显微镜观察**

为了理解这种差异的深层原因,研究团队采用了两种创新的分析方法,就像使用显微镜和化学试剂来观察细胞内部的变化一样。

第一种方法是主成分分析,这就像给模型的"大脑"拍X光片。研究团队提取了模型在处理不同类型任务时的内部表征,观察训练前后这些表征的变化模式。结果发现,监督学习会导致模型内部表征发生大幅度偏移,特别是在处理非推理任务时,这种偏移尤其明显。这就像一个人的大脑在专门训练某项技能后,其他区域的神经连接发生了不利的改变。

相反,强化学习训练的模型内部表征变化要小得多,表明这种训练方式能够更好地保持模型原有的知识结构。具体来说,强化学习模型在各类任务上的表征偏移距离都控制在较小范围内,而监督学习模型的偏移距离要大得多,有时甚至超过十倍。

第二种分析方法关注模型输出层面的变化,通过观察模型在不同词汇上的选择倾向来理解训练效果。研究团队发现,强化学习训练的模型只会调整少数与任务相关的关键词汇,而监督学习训练的模型会改变大量词汇的使用模式,包括许多与任务无关的词汇。

这种差异可以用一个简单的比喻来理解:强化学习就像一个精准的外科医生,只在需要的地方进行微调;而监督学习则像是使用粗糙的工具进行大范围改动,虽然能解决目标问题,但也会造成不必要的附带损害。

**四、案例研究:具体看看模型是如何"思考"的**

研究团队通过具体的案例分析,展示了不同训练方法如何影响模型的"思维方式"。他们设计了一个数学推理题:十个treeks的重量等于三个squigs加一个goolee的重量,两个treeks加一个goolee的重量等于一个squig的重量,问一个squig的重量等于多少个treeks的重量?

强化学习训练的模型表现出了清晰的逻辑思路:首先定义变量,建立方程组,然后系统地求解。整个过程只有15个词汇发生了排序变化,且都是与逻辑推理相关的关键词,如"define"、"add"、"second"、"number"等。

而监督学习训练的模型虽然最终也得出了正确答案,但过程显得冗长和重复,有390个词汇发生了排序变化,包括许多与问题无关的词汇。模型似乎在过度思考,不断重复检查自己的答案,表现出一种"强迫症"般的行为模式。

更有趣的是,当面对非推理任务时,比如写一封辞职邮件,两种模型的差异更加明显。强化学习模型能够简洁明了地完成任务,只有14个词汇发生变化,都是与任务直接相关的词汇如"write"、"formally"等。而监督学习模型却表现出了"思维惯性",试图对一个简单的写作任务进行复杂的推理分析,结果导致158个词汇发生变化,产生了大量无关的推理性词汇,反而影响了任务完成的效果。

这种现象就像一个习惯了复杂数学证明的学生,在被要求写一篇简单的作文时,仍然试图用数学公式的严谨性来组织语言,结果显得过于繁琐和不自然。

**五、训练策略的重新思考**

这项研究的发现对AI模型的训练策略提出了重要启示。传统的监督学习方法虽然能够快速提升模型在特定任务上的表现,但可能以牺牲通用能力为代价。这就像让一个全能运动员专门训练某一项运动,虽然在该项目上成绩突出,但其他运动能力可能会退化。

强化学习方法虽然训练过程更加复杂,需要更多的计算资源和时间,但能够在提升特定能力的同时保持模型的通用性。这种方法更像是让运动员在保持全面发展的基础上,重点提升某项技能。

研究团队还发现,模型的大小也会影响这种转移能力。较大的模型通常表现出更好的稳定性和泛化能力,这可能是因为更大的模型有足够的"容量"来同时存储不同类型的知识,而不会出现严重的相互干扰。

此外,不同的模型架构也会影响转移能力的表现。比如,Llama系列模型在某些情况下表现出比Qwen系列更强的稳定性,这提示我们模型的底层设计对最终性能也有重要影响。

**六、对AI发展的深远影响**

这项研究的意义远不止于学术层面的发现,它对整个AI行业的发展方向都有重要启示。当前,许多AI公司都在竞相开发在特定任务上表现优异的模型,比如专门的数学解题模型、代码生成模型或翻译模型。但这项研究提醒我们,过度的专业化可能会带来意想不到的副作用。

对于普通用户而言,我们更希望拥有一个全能的AI助手,而不是需要为不同任务切换不同模型的复杂系统。一个真正有用的AI助手应该能够在擅长某个领域的同时,保持在其他方面的基本能力。

这项研究也为AI安全研究提供了新的视角。如果一个模型在特定训练后出现了能力退化,这可能会在实际应用中带来不可预见的风险。比如,一个专门训练来处理技术问题的AI助手,如果在基本的人际交往理解上能力下降,可能会在客户服务场景中产生问题。

从技术发展的角度来看,这项研究强调了训练方法创新的重要性。单纯追求某个基准测试上的高分数是不够的,我们需要更加关注模型的综合能力和稳定性。强化学习等更加精细的训练方法,虽然实施起来更加复杂,但从长远来看可能是更好的选择。

研究团队开发的UniReason模型为这种平衡提供了一个很好的范例。这个模型仅使用47000个数学样本进行训练,就在保持通用能力的同时实现了优异的数学推理性能。这证明了通过合适的训练策略,我们确实可以在专业化和通用性之间找到平衡点。

说到底,这项研究告诉我们一个简单而深刻的道理:在AI的世界里,就像在人类教育中一样,训练方法往往比训练数据的数量更加重要。一个好的训练策略能够让模型在掌握新技能的同时,保持原有的知识和能力,而不是简单地用新知识覆盖旧知识。

这种发现对每个关心AI发展的人都有意义。当我们在选择和使用AI工具时,我们应该更加关注它们的综合能力,而不仅仅是在某个特定任务上的表现。同时,这项研究也提醒AI开发者们,在追求性能突破的同时,不要忽视了模型的整体平衡性和实用性。

未来的AI发展可能会更加注重这种平衡。我们期待看到更多像强化学习这样的训练方法被开发出来,帮助AI模型在保持通用性的同时实现专业化。这样的AI系统才能真正成为人类的得力助手,在各种复杂的现实场景中发挥作用。

有兴趣深入了解这项研究细节的读者,可以通过arXiv平台访问完整论文,论文编号为2507.00432v1。研究团队还在GitHub和Hugging Face平台提供了相关的代码和模型,为后续研究提供了宝贵的资源。

Q&A

Q1:什么是"转移能力"?为什么它对AI模型很重要? A:转移能力指AI模型将在一个领域学到的技能应用到其他领域的能力。比如一个数学训练的模型能否在对话、写作等任务上保持良好表现。这很重要,因为实际应用中我们需要全能的AI助手,而不是只擅长单一任务的专门模型。

Q2:强化学习和监督学习训练AI模型有什么区别? A:监督学习像让学生背标准答案,通过模仿正确的解题过程来学习;强化学习像让学生自己探索,只在最后告诉对错,让模型自己找到解决方案。研究发现强化学习能更好地保持模型的综合能力。

Q3:这项研究对普通用户使用AI有什么影响? A:这提醒我们在选择AI工具时,不应只看它在某个任务上的表现分数,还要关注综合能力。一个在数学上得高分但在日常对话中表现差的AI,实用价值可能不如一个各方面都比较均衡的模型。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-