大型语言模型(LLMs)在数学和编程领域展现出令人瞩目的推理能力,这些能力往往通过对更强大模型生成的思维链(Chain-of-Thoughts,简称CoTs)进行后训练而得到加强。然而,当前筛选训练数据的策略主要依赖于启发式方法,这限制了其通用性,也无法捕捉数据中隐藏的微妙特性。2025年5月,上海交通大学的寇思奇、田清源、徐瀚文、曾子豪和邓志杰团队在arXiv预印本平台(arXiv:2505.19949v1)发表了一项创新研究,他们利用影响函数这一工具,系统地将LLMs在数学和编程领域的推理能力归因于特定的训练样本、序列和词元,从而深入探索了有效数据特征的奥秘。
想象一下,如果你正在训练一个AI助手来解决数学问题和编写代码,你会给它提供什么样的练习材料?是难度较高的大学数学题,还是简单直观的编程任务?或者两者的某种组合?这个问题对于构建高效的AI推理系统至关重要,而上海交通大学的研究团队给出了令人意外的答案。
研究团队开发的"基于影响力的推理归因"(Influence-based Reasoning Attribution,简称Infra)方法揭示了数学和编程领域之间存在非平凡的交叉影响:高难度数学例题能同时提升AI在数学和代码推理方面的能力,而低难度的编程任务则对提升代码推理能力最有效。基于这些发现,研究者提出了一个简单却有效的数据重新权重策略——翻转任务难度(对简单数学问题增加难度,对复杂编程问题降低难度),这一策略使Qwen2.5-7B-Instruct模型在AIME24测试中的准确率从10%翻倍至20%,在LiveCodeBench测试中的准确率从33.8%提升至35.3%。
此外,他们的细粒度归因分析还揭示了序列级别的探索行为能增强数学和代码推理性能,以及词元级别的影响模式在数学和代码推理中有明显区别:前者偏好自然语言逻辑连接词,后者则强调结构化语法。
一、影响函数:追踪数据对模型行为的影响
想象你正在教一个孩子解决问题。有些教学方法特别有效,而有些则不然。但具体是哪些教学内容让孩子进步最快呢?影响函数就像是一个能回答这个问题的神奇工具。
研究团队采用了影响函数这一经典技术,用它来追踪单个训练数据对模型行为的影响。简单来说,影响函数可以告诉我们:"如果我增加这个特定训练样本的权重,模型的性能会如何变化?"这就像是衡量每个教学例子对学生进步的具体贡献。
基于先前关于LLMs影响函数的研究,团队定义了一个易于实施且高效的影响函数,专门用于面向推理的监督微调(SFT)过程。他们还将实例级影响函数扩展到更细粒度的变体,包括序列级和词元级,以进行深入的数据归因分析。
二、基础数学和代码推理的交叉影响研究
研究团队首先调查了基本数学和代码推理场景中的交叉影响,这些场景不涉及长思维链。他们用MetaMathQA和OSS-Instruct数据集的混合对LLaMA3-8B-Base模型进行了微调,并计算了这些训练数据对GSM8k(一种数学测试)和MBPP(一种编程测试)准确率的影响函数。
通过对所有训练数据按影响分数排名,研究团队发现了一个有趣的现象:虽然领域内的数据(如数学数据对数学测试)产生的影响分数最高,但跨领域数据(如代码数据对数学测试)也做出了非平凡的贡献。更具体地说,通过按类别和难度聚合这些分数,他们发现符号数学示例和高难度数学问题对提高代码推理特别有效。
想象一下,这就像是学习弹钢琴帮助你提高了数学能力,或者解决复杂数学问题提升了你的编程技巧。这种跨领域的技能迁移在人类学习中并不罕见,现在我们看到AI学习也遵循类似的模式。
三、复杂思维链推理中的数据影响分析
接下来,研究团队将Infra方法扩展到更复杂的长思维链推理场景。他们在Bespoke-Stratos-17k数据集上微调了Qwen2.5-7B-Instruct模型,并使用AIME、MATH500和LiveCodeBench基准测试来测量影响。
与早期发现一致,他们再次观察到跨领域增益,更难的数学问题更好地帮助了代码推理。更进一步,他们发现高难度的数学和代码示例对数学推理更有影响,而低难度的代码任务对代码推理贡献最大。
这个发现可以类比为:要培养全面的解决问题能力,你需要练习解决困难的数学问题;但要提高编程技能,简单清晰的编程练习与数学思维相结合会更有效。
基于这些见解,研究团队采取了一个巧妙的策略:在训练数据中,将简单数学问题的难度提高,将困难代码任务的难度降低。这种"翻转难度"的策略显著提升了模型性能,证明了研究发现的实用价值。
四、序列级和词元级的细粒度归因分析
除了实例级分析外,研究团队还进行了更细粒度的序列和词元级归因。
在序列级分析中,他们发现一种特殊的认知行为非常有益:即使在找到正确答案后,继续探索替代方法的行为(称为"探索行为")显著提升了数学和代码推理性能。这有点像学生在解决问题后,不满足于一种解法,而是继续思考其他可能的解决途径。虽然之前的研究可能将此视为"过度思考",但数据表明,这种探索实际上对培养更强大、更通用的推理能力非常有价值。
在词元级分析中,研究团队发现数学和代码推理中的影响模式有明显区别。在数学思维链中,最有影响力的词元是自然语言逻辑连接词,如"等待"、"然而"、"验证"、"因此"等;而在代码思维链中,最有影响力的词元是结构或语法元素,如Markdown样式标题、代码块标记和语法标记。
这种对比凸显了推理范式的差异:数学推理更依赖于逻辑话语,而代码推理则由明确的结构和格式促成。这些不同的模式可能解释了为什么结构更清晰的简单代码问题与已经提供强逻辑技能的数学思维链结合时,特别有利于增强代码推理。
想象成学习风格的差异:有些人通过逻辑推理和批判性思维学习最好(类似数学推理),而其他人则通过结构化框架和模式识别学习最好(类似代码推理)。研究表明,结合这两种方法——但以适当的难度级别——可以产生最佳结果。
五、结论与启示
这项研究对人工智能教育和训练策略有深远的启示。就像人类教育中,我们不会给初学者最困难的问题,也不会让高级学习者只做简单练习一样,AI训练也需要精心设计的学习材料。
研究表明,训练强大的AI推理系统的最佳策略是:提供困难的数学问题来培养深度逻辑思维能力,结合相对简单但结构清晰的编程任务来发展代码生成技能。此外,鼓励"探索性思维"——在找到答案后继续探索替代方法——对培养全面的推理能力至关重要。
上海交通大学的这项研究不仅揭示了数据特征如何影响AI推理能力,还提供了实用的策略来优化训练数据。这些发现为构建更强大、更通用的AI推理系统铺平了道路,也让我们对AI如何"学习思考"有了更深入的理解。
对于未来的研究方向,团队指出了一些局限性,如他们在近似Hessian矩阵时仅考虑了MLP参数并将注意力视为固定,以简化影响函数计算。此外,他们的分析仅限于数学和编程推理任务,将此框架扩展到其他领域,如常识推理,仍是未来研究的开放方向。
总的来说,这项研究不仅在技术上取得了突破,还为我们理解和优化AI学习过程提供了宝贵见解,就像理解人类如何学习和思考一样重要。这为未来更智能、更适应性强的AI系统开发提供了坚实基础。
好文章,需要你的鼓励
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。
南洋理工大学与腾讯联合研究团队开发出Rolling Forcing技术,实现AI视频实时流式生成的重大突破。该技术通过滚动窗口联合去噪、注意力锚点机制和高效训练算法三项创新,解决了长视频生成中的错误累积问题,可在单GPU上以16fps速度生成多分钟高质量视频,延迟仅0.76秒,质量漂移指标从传统方法的1.66降至0.01,为交互式媒体和内容创作开辟新可能。
华中科技大学研究团队发现,通过让AI模型学习解决几何问题,能够显著提升其空间理解能力。他们构建了包含约30000个几何题目的Euclid30K数据集,使用强化学习方法训练多个AI模型。实验结果显示,几何训练在四个空间智能测试基准上都带来显著提升,其中最佳模型达到49.6%准确率,超越此前最好成绩。这项研究揭示了基础几何知识对培养AI空间智能的重要价值。