微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 数学和代码推理力的关键数据特征是什么?上海交通大学团队用影响函数揭示跨领域学习的奥秘

数学和代码推理力的关键数据特征是什么?上海交通大学团队用影响函数揭示跨领域学习的奥秘

2025-05-29 14:50
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 14:50 科技行者

大型语言模型(LLMs)在数学和编程领域展现出令人瞩目的推理能力,这些能力往往通过对更强大模型生成的思维链(Chain-of-Thoughts,简称CoTs)进行后训练而得到加强。然而,当前筛选训练数据的策略主要依赖于启发式方法,这限制了其通用性,也无法捕捉数据中隐藏的微妙特性。2025年5月,上海交通大学的寇思奇、田清源、徐瀚文、曾子豪和邓志杰团队在arXiv预印本平台(arXiv:2505.19949v1)发表了一项创新研究,他们利用影响函数这一工具,系统地将LLMs在数学和编程领域的推理能力归因于特定的训练样本、序列和词元,从而深入探索了有效数据特征的奥秘。

想象一下,如果你正在训练一个AI助手来解决数学问题和编写代码,你会给它提供什么样的练习材料?是难度较高的大学数学题,还是简单直观的编程任务?或者两者的某种组合?这个问题对于构建高效的AI推理系统至关重要,而上海交通大学的研究团队给出了令人意外的答案。

研究团队开发的"基于影响力的推理归因"(Influence-based Reasoning Attribution,简称Infra)方法揭示了数学和编程领域之间存在非平凡的交叉影响:高难度数学例题能同时提升AI在数学和代码推理方面的能力,而低难度的编程任务则对提升代码推理能力最有效。基于这些发现,研究者提出了一个简单却有效的数据重新权重策略——翻转任务难度(对简单数学问题增加难度,对复杂编程问题降低难度),这一策略使Qwen2.5-7B-Instruct模型在AIME24测试中的准确率从10%翻倍至20%,在LiveCodeBench测试中的准确率从33.8%提升至35.3%。

此外,他们的细粒度归因分析还揭示了序列级别的探索行为能增强数学和代码推理性能,以及词元级别的影响模式在数学和代码推理中有明显区别:前者偏好自然语言逻辑连接词,后者则强调结构化语法。

一、影响函数:追踪数据对模型行为的影响

想象你正在教一个孩子解决问题。有些教学方法特别有效,而有些则不然。但具体是哪些教学内容让孩子进步最快呢?影响函数就像是一个能回答这个问题的神奇工具。

研究团队采用了影响函数这一经典技术,用它来追踪单个训练数据对模型行为的影响。简单来说,影响函数可以告诉我们:"如果我增加这个特定训练样本的权重,模型的性能会如何变化?"这就像是衡量每个教学例子对学生进步的具体贡献。

基于先前关于LLMs影响函数的研究,团队定义了一个易于实施且高效的影响函数,专门用于面向推理的监督微调(SFT)过程。他们还将实例级影响函数扩展到更细粒度的变体,包括序列级和词元级,以进行深入的数据归因分析。

二、基础数学和代码推理的交叉影响研究

研究团队首先调查了基本数学和代码推理场景中的交叉影响,这些场景不涉及长思维链。他们用MetaMathQA和OSS-Instruct数据集的混合对LLaMA3-8B-Base模型进行了微调,并计算了这些训练数据对GSM8k(一种数学测试)和MBPP(一种编程测试)准确率的影响函数。

通过对所有训练数据按影响分数排名,研究团队发现了一个有趣的现象:虽然领域内的数据(如数学数据对数学测试)产生的影响分数最高,但跨领域数据(如代码数据对数学测试)也做出了非平凡的贡献。更具体地说,通过按类别和难度聚合这些分数,他们发现符号数学示例和高难度数学问题对提高代码推理特别有效。

想象一下,这就像是学习弹钢琴帮助你提高了数学能力,或者解决复杂数学问题提升了你的编程技巧。这种跨领域的技能迁移在人类学习中并不罕见,现在我们看到AI学习也遵循类似的模式。

三、复杂思维链推理中的数据影响分析

接下来,研究团队将Infra方法扩展到更复杂的长思维链推理场景。他们在Bespoke-Stratos-17k数据集上微调了Qwen2.5-7B-Instruct模型,并使用AIME、MATH500和LiveCodeBench基准测试来测量影响。

与早期发现一致,他们再次观察到跨领域增益,更难的数学问题更好地帮助了代码推理。更进一步,他们发现高难度的数学和代码示例对数学推理更有影响,而低难度的代码任务对代码推理贡献最大。

这个发现可以类比为:要培养全面的解决问题能力,你需要练习解决困难的数学问题;但要提高编程技能,简单清晰的编程练习与数学思维相结合会更有效。

基于这些见解,研究团队采取了一个巧妙的策略:在训练数据中,将简单数学问题的难度提高,将困难代码任务的难度降低。这种"翻转难度"的策略显著提升了模型性能,证明了研究发现的实用价值。

四、序列级和词元级的细粒度归因分析

除了实例级分析外,研究团队还进行了更细粒度的序列和词元级归因。

在序列级分析中,他们发现一种特殊的认知行为非常有益:即使在找到正确答案后,继续探索替代方法的行为(称为"探索行为")显著提升了数学和代码推理性能。这有点像学生在解决问题后,不满足于一种解法,而是继续思考其他可能的解决途径。虽然之前的研究可能将此视为"过度思考",但数据表明,这种探索实际上对培养更强大、更通用的推理能力非常有价值。

在词元级分析中,研究团队发现数学和代码推理中的影响模式有明显区别。在数学思维链中,最有影响力的词元是自然语言逻辑连接词,如"等待"、"然而"、"验证"、"因此"等;而在代码思维链中,最有影响力的词元是结构或语法元素,如Markdown样式标题、代码块标记和语法标记。

这种对比凸显了推理范式的差异:数学推理更依赖于逻辑话语,而代码推理则由明确的结构和格式促成。这些不同的模式可能解释了为什么结构更清晰的简单代码问题与已经提供强逻辑技能的数学思维链结合时,特别有利于增强代码推理。

想象成学习风格的差异:有些人通过逻辑推理和批判性思维学习最好(类似数学推理),而其他人则通过结构化框架和模式识别学习最好(类似代码推理)。研究表明,结合这两种方法——但以适当的难度级别——可以产生最佳结果。

五、结论与启示

这项研究对人工智能教育和训练策略有深远的启示。就像人类教育中,我们不会给初学者最困难的问题,也不会让高级学习者只做简单练习一样,AI训练也需要精心设计的学习材料。

研究表明,训练强大的AI推理系统的最佳策略是:提供困难的数学问题来培养深度逻辑思维能力,结合相对简单但结构清晰的编程任务来发展代码生成技能。此外,鼓励"探索性思维"——在找到答案后继续探索替代方法——对培养全面的推理能力至关重要。

上海交通大学的这项研究不仅揭示了数据特征如何影响AI推理能力,还提供了实用的策略来优化训练数据。这些发现为构建更强大、更通用的AI推理系统铺平了道路,也让我们对AI如何"学习思考"有了更深入的理解。

对于未来的研究方向,团队指出了一些局限性,如他们在近似Hessian矩阵时仅考虑了MLP参数并将注意力视为固定,以简化影响函数计算。此外,他们的分析仅限于数学和编程推理任务,将此框架扩展到其他领域,如常识推理,仍是未来研究的开放方向。

总的来说,这项研究不仅在技术上取得了突破,还为我们理解和优化AI学习过程提供了宝贵见解,就像理解人类如何学习和思考一样重要。这为未来更智能、更适应性强的AI系统开发提供了坚实基础。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-