微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

解构大模型的推理轨迹：上海人工智能实验室揭示大语言模型推理背后的优化机制

人工智能元学习大语言模型推理

解构大模型的推理轨迹：上海人工智能实验室揭示大语言模型推理背后的优化机制

作者：科技行者

2025-05-29 17:19

分享至：

上海人工智能实验室研究团队提出了"RaML"框架，首次从元学习视角解释大语言模型的推理机制。研究将推理轨迹解析为模型参数的"伪梯度下降"更新，揭示了不同训练方法的内在联系，并证明了更长推理轨迹和多样化训练能显著提升模型性能与泛化能力。这一理论框架不仅深化了对大模型工作原理的理解，还为推理效率优化和能力提升提供了实用指导。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 17:19 • 科技行者

2025年5月26日，来自上海人工智能实验室的研究团队，包括刘俊男、刘宏伟、肖林辰、刘书东、张涛林、马子寒等研究人员，在论文预印本平台arXiv上发布了一项突破性研究《Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective》（解构轨迹辅助的大语言模型推理：优化视角）。这项研究由张松阳和陈凯担任通讯作者，为我们理解大语言模型（LLM）如何进行推理提供了全新视角。

从思路轨迹到元学习：大模型推理的新理解

想象一下，当你面对一道复杂的数学题时，你通常会怎么做？大多数人会在纸上写下思考过程，一步步推导，最终得出答案。大语言模型也是如此，它们通过生成所谓的"思维链"（Chain of Thought，CoT）或"推理轨迹"来解决复杂问题。但一个关键问题是：这些推理轨迹到底如何帮助模型得出正确答案？

上海人工智能实验室的研究团队提出了一个全新且颇具启发性的视角：将大语言模型的推理过程视为一种"元学习"（Meta-Learning）机制。简单来说，元学习就是"学习如何学习"的能力。研究团队创造性地提出了"RaML"（Reasoning as Meta-Learning）框架，将推理轨迹解读为模型参数的"伪梯度下降更新"。

你可以这样理解：当我们写下解题思路时，每写一步，我们的大脑就在不断调整对问题的理解和解决方案。对大语言模型来说，每生成一个推理轨迹中的词元（token），就相当于微调了一次模型的内部参数，使其逐渐靠近正确答案的方向。

推理轨迹如何"更新"模型参数？

研究团队将推理过程形式化为一个元学习设置，其中： - 每个问题被视为一个独立的任务 - 推理轨迹充当"内循环优化"，用于调整模型参数 - 最终答案则是"查询集"，用于优化整个语言模型

假设你在解一道复杂的数学题。当你写下"首先，我们需要计算..."这样的思考步骤时，你实际上是在调整自己解决问题的方法。类似地，当大语言模型生成"让我们先分析..."这样的推理轨迹时，它也在微调自己的参数，使自己更接近正确答案。

研究团队通过理论推导证明，推理轨迹中的每个词元都可以被视为模型参数的一次更新。团队还使用了QwQ-32B模型在美国高中数学邀请赛（AIME24）上的实验数据，通过可视化显示，随着推理轨迹的展开，模型对正确答案的确信度（即负对数概率）确实在逐步降低，这就像是模型在不断优化自己的"内部参数"，向正确答案靠近。

元学习视角下的大模型训练方法

当我们理解了推理轨迹相当于模型参数的更新后，不同的大模型训练方法也就有了新的解读。研究团队分析了三种主要的训练技术：

1. 监督微调（SFT）：使用人工标注或合成的高质量推理轨迹训练模型。从元学习角度看，这相当于让模型学习一个"最优内循环优化器"提供的更新路径。就像一个数学老师手把手教你解题一样，模型通过观察专家解题过程来学习如何更新自己的参数。

2. 离线偏好优化（Off-Policy PO）：使用人类偏好数据调整模型。从元学习角度看，这也相当于提供一个优化过的更新路径。

3. 在线强化学习（On-Policy RL）：模型自行生成多个推理轨迹，并根据奖励信号优化生成过程。从元学习角度看，这相当于模型自己探索内循环优化路径，尽管挑战更大，但理论上可以达到更高的上限。

研究团队通过实验发现，监督微调（SFT）提供了更稳定的内循环优化，而强化学习（RL）则提供了更大的探索空间。两者结合使用时，效果最佳——先用SFT提供稳定的初始化，再用RL进一步探索和优化。

推理轨迹长度与更新步数的关系

如果把推理轨迹中的每个词元看作是一步参数更新，那么推理轨迹的长度就直接关系到更新的步数。研究表明，更长的推理轨迹确实带来了更好的性能，这与元学习理论中"更多内循环更新步数提高性能"的发现一致。

研究团队还发现，推理轨迹中的不同词元扮演着不同的角色：

- 反思性词元（如"等等"、"另一种方法"、"让我思考一下"）：这些词元在优化过程中产生较大的目标函数变化，就像是帮助模型跳出局部最优解的"摆脱鞍点"机制。 - 结束思考的分隔符（如"因此"、""）：这些特殊词元促进模型参数快速收敛，类似于优化中的"动量"机制，让模型更快地到达一个稳定状态。

这解释了为什么最近的长链思维模型（如DeepSeek-R1、QwQ等）能够在复杂数学和编程任务上表现出色——它们允许更多的"内循环更新步骤"，从而获得更优的解题能力。

推理能力的泛化性