大型语言模型(LLMs)在数学和编程领域展现出令人瞩目的推理能力,这些能力往往通过对更强大模型生成的思维链(Chain-of-Thoughts,简称CoTs)进行后训练而得到加强。然而,当前筛选训练数据的策略主要依赖于启发式方法,这限制了其通用性,也无法捕捉数据中隐藏的微妙特性。2025年5月,上海交通大学的寇思奇、田清源、徐瀚文、曾子豪和邓志杰团队在arXiv预印本平台(arXiv:2505.19949v1)发表了一项创新研究,他们利用影响函数这一工具,系统地将LLMs在数学和编程领域的推理能力归因于特定的训练样本、序列和词元,从而深入探索了有效数据特征的奥秘。
想象一下,如果你正在训练一个AI助手来解决数学问题和编写代码,你会给它提供什么样的练习材料?是难度较高的大学数学题,还是简单直观的编程任务?或者两者的某种组合?这个问题对于构建高效的AI推理系统至关重要,而上海交通大学的研究团队给出了令人意外的答案。
研究团队开发的"基于影响力的推理归因"(Influence-based Reasoning Attribution,简称Infra)方法揭示了数学和编程领域之间存在非平凡的交叉影响:高难度数学例题能同时提升AI在数学和代码推理方面的能力,而低难度的编程任务则对提升代码推理能力最有效。基于这些发现,研究者提出了一个简单却有效的数据重新权重策略——翻转任务难度(对简单数学问题增加难度,对复杂编程问题降低难度),这一策略使Qwen2.5-7B-Instruct模型在AIME24测试中的准确率从10%翻倍至20%,在LiveCodeBench测试中的准确率从33.8%提升至35.3%。
此外,他们的细粒度归因分析还揭示了序列级别的探索行为能增强数学和代码推理性能,以及词元级别的影响模式在数学和代码推理中有明显区别:前者偏好自然语言逻辑连接词,后者则强调结构化语法。
一、影响函数:追踪数据对模型行为的影响
想象你正在教一个孩子解决问题。有些教学方法特别有效,而有些则不然。但具体是哪些教学内容让孩子进步最快呢?影响函数就像是一个能回答这个问题的神奇工具。
研究团队采用了影响函数这一经典技术,用它来追踪单个训练数据对模型行为的影响。简单来说,影响函数可以告诉我们:"如果我增加这个特定训练样本的权重,模型的性能会如何变化?"这就像是衡量每个教学例子对学生进步的具体贡献。
基于先前关于LLMs影响函数的研究,团队定义了一个易于实施且高效的影响函数,专门用于面向推理的监督微调(SFT)过程。他们还将实例级影响函数扩展到更细粒度的变体,包括序列级和词元级,以进行深入的数据归因分析。
二、基础数学和代码推理的交叉影响研究
研究团队首先调查了基本数学和代码推理场景中的交叉影响,这些场景不涉及长思维链。他们用MetaMathQA和OSS-Instruct数据集的混合对LLaMA3-8B-Base模型进行了微调,并计算了这些训练数据对GSM8k(一种数学测试)和MBPP(一种编程测试)准确率的影响函数。
通过对所有训练数据按影响分数排名,研究团队发现了一个有趣的现象:虽然领域内的数据(如数学数据对数学测试)产生的影响分数最高,但跨领域数据(如代码数据对数学测试)也做出了非平凡的贡献。更具体地说,通过按类别和难度聚合这些分数,他们发现符号数学示例和高难度数学问题对提高代码推理特别有效。
想象一下,这就像是学习弹钢琴帮助你提高了数学能力,或者解决复杂数学问题提升了你的编程技巧。这种跨领域的技能迁移在人类学习中并不罕见,现在我们看到AI学习也遵循类似的模式。
三、复杂思维链推理中的数据影响分析
接下来,研究团队将Infra方法扩展到更复杂的长思维链推理场景。他们在Bespoke-Stratos-17k数据集上微调了Qwen2.5-7B-Instruct模型,并使用AIME、MATH500和LiveCodeBench基准测试来测量影响。
与早期发现一致,他们再次观察到跨领域增益,更难的数学问题更好地帮助了代码推理。更进一步,他们发现高难度的数学和代码示例对数学推理更有影响,而低难度的代码任务对代码推理贡献最大。
这个发现可以类比为:要培养全面的解决问题能力,你需要练习解决困难的数学问题;但要提高编程技能,简单清晰的编程练习与数学思维相结合会更有效。
基于这些见解,研究团队采取了一个巧妙的策略:在训练数据中,将简单数学问题的难度提高,将困难代码任务的难度降低。这种"翻转难度"的策略显著提升了模型性能,证明了研究发现的实用价值。
四、序列级和词元级的细粒度归因分析
除了实例级分析外,研究团队还进行了更细粒度的序列和词元级归因。
在序列级分析中,他们发现一种特殊的认知行为非常有益:即使在找到正确答案后,继续探索替代方法的行为(称为"探索行为")显著提升了数学和代码推理性能。这有点像学生在解决问题后,不满足于一种解法,而是继续思考其他可能的解决途径。虽然之前的研究可能将此视为"过度思考",但数据表明,这种探索实际上对培养更强大、更通用的推理能力非常有价值。
在词元级分析中,研究团队发现数学和代码推理中的影响模式有明显区别。在数学思维链中,最有影响力的词元是自然语言逻辑连接词,如"等待"、"然而"、"验证"、"因此"等;而在代码思维链中,最有影响力的词元是结构或语法元素,如Markdown样式标题、代码块标记和语法标记。
这种对比凸显了推理范式的差异:数学推理更依赖于逻辑话语,而代码推理则由明确的结构和格式促成。这些不同的模式可能解释了为什么结构更清晰的简单代码问题与已经提供强逻辑技能的数学思维链结合时,特别有利于增强代码推理。
想象成学习风格的差异:有些人通过逻辑推理和批判性思维学习最好(类似数学推理),而其他人则通过结构化框架和模式识别学习最好(类似代码推理)。研究表明,结合这两种方法——但以适当的难度级别——可以产生最佳结果。
五、结论与启示
这项研究对人工智能教育和训练策略有深远的启示。就像人类教育中,我们不会给初学者最困难的问题,也不会让高级学习者只做简单练习一样,AI训练也需要精心设计的学习材料。
研究表明,训练强大的AI推理系统的最佳策略是:提供困难的数学问题来培养深度逻辑思维能力,结合相对简单但结构清晰的编程任务来发展代码生成技能。此外,鼓励"探索性思维"——在找到答案后继续探索替代方法——对培养全面的推理能力至关重要。
上海交通大学的这项研究不仅揭示了数据特征如何影响AI推理能力,还提供了实用的策略来优化训练数据。这些发现为构建更强大、更通用的AI推理系统铺平了道路,也让我们对AI如何"学习思考"有了更深入的理解。
对于未来的研究方向,团队指出了一些局限性,如他们在近似Hessian矩阵时仅考虑了MLP参数并将注意力视为固定,以简化影响函数计算。此外,他们的分析仅限于数学和编程推理任务,将此框架扩展到其他领域,如常识推理,仍是未来研究的开放方向。
总的来说,这项研究不仅在技术上取得了突破,还为我们理解和优化AI学习过程提供了宝贵见解,就像理解人类如何学习和思考一样重要。这为未来更智能、更适应性强的AI系统开发提供了坚实基础。
好文章,需要你的鼓励
清华大学等多家机构研究团队完成了语音分离技术的全面调研,系统梳理了从传统方法到深度学习的技术演进。研究揭示了"鸡尾酒会问题"的核心挑战,分析了各种学习范式和网络架构的优劣,并通过统一实验框架提供了公平的性能基准。调研涵盖了实时处理、轻量化设计、多模态融合等关键技术方向,为学术界和产业界的技术选型提供了重要参考,推动语音分离从实验室走向实际应用。
浙江大学和腾讯微信视觉团队发现AI图片生成训练中"时机胜过强度"的重要规律,开发出TempFlow-GRPO新方法。通过轨迹分支技术精确评估中间步骤,结合噪声感知权重调整优化不同阶段的学习强度,将训练效率提升三倍,在复杂场景理解方面准确率从63%提升至97%,为AI训练方法论带来重要突破。
谷歌DeepMind发布突破性AI规划技术,让机器人学会像人类一样进行"情境学习"规划。该技术通过Transformer架构实现了快速适应新问题的能力,在迷宫导航、机器人控制等测试中表现优异,为自动驾驶、智能制造、医疗等领域应用奠定基础,标志着向通用人工智能迈出重要一步。
新南威尔士大学研究团队开发了ZARA系统,这是首个零样本运动识别框架,能够在未经专门训练的情况下识别全新的人类活动。该系统集成了自动构建的知识库、多传感器检索机制和分层智能体推理,不仅实现了比现有最强基线高2.53倍的识别准确率,还提供清晰的自然语言解释,为可穿戴设备和健康监护等应用领域带来了突破性进展。