
说起人工智能,我们通常把它当作一个整体来看待——输入问题,输出答案,就像一个黑盒子一样神秘。但中科院自动化研究所的研究团队却有了一个颠覆性的发现:原来AI大模型内部其实暗藏着许多"小助手",每一层神经网络都在悄悄地做着自己的决策。这项由谭雨桥、王旻政、何世柱等研究者完成的工作发表于2024年12月,论文编号为arXiv:2512.19673v1,为我们揭开了大模型内部推理机制的神秘面纱。
这个发现就像是发现了一个公司里每个部门其实都有自己的小决策权,而不是所有决定都必须等到最高层才能拍板。研究团队通过深入分析发现,大模型内部的每一层网络都能形成自己的"内部策略",就像一个多层管理结构,每层都在为最终的决策贡献自己的智慧。更令人惊讶的是,不同的模型家族在内部推理模式上竟然存在显著差异,这就像不同公司有着截然不同的管理风格一样。
基于这些发现,研究团队提出了一种全新的训练方法——"自底向上策略优化"(BuPO)。这种方法不再像传统方式那样把模型当作一个整体来训练,而是先从底层开始逐步优化,让每一层都学会更好的推理能力。就像培养一个团队,不是只培训老板,而是让每个员工都变得更专业,最终整个团队的表现自然会提升。
一、揭秘大模型内部的"多重人格"
传统的训练方法把大模型看作一个统一的整体,就像把一个复杂的交响乐团当作一个单独的乐手来指挥。但研究团队发现,这样做其实忽略了模型内部丰富的层次结构。每个Transformer层都像乐团中的不同声部,虽然最终要合奏出美妙的乐章,但每个声部都有自己独特的作用和表现方式。
研究团队巧妙地利用了Transformer架构中的残差连接特性,就像剥洋葱一样,把每一层的贡献都分离出来。他们发现,通过将每一层的隐藏状态与最终的输出矩阵结合,可以构造出所谓的"内部层策略"和"内部模块策略"。这就像是给交响乐团的每个声部都配上了麦克风,让我们能够听清楚每个部分在演奏什么。
更有趣的是,研究团队还定义了两种不同粒度的内部策略。内部层策略关注的是每一层的整体贡献,就像评估一个部门的总体表现。而内部模块策略则更加细致,分别关注自注意力机制和前馈网络这两个核心组件的作用,就像分别评估部门里销售团队和技术团队的表现。
通过这种分解方式,研究团队能够清晰地看到信息是如何在模型内部层层传递的。他们发现,早期的层主要负责"探索",保持高度的不确定性来广泛搜索可能的答案方向。而后期的层则专注于"收敛",逐步缩小搜索范围,最终锁定最佳答案。这个过程就像侦探破案,先广撒网收集线索,然后逐步缩小嫌疑范围,最终锁定真凶。
二、不同模型的"思维风格"大不相同
研究团队对比了目前最流行的几个大模型家族,包括Qwen系列和Llama系列,结果发现了令人惊讶的差异。这些差异就像不同文化背景的人有着截然不同的思维方式一样明显。
Qwen系列模型,特别是最新的Qwen3,展现出了一种渐进式的推理模式,研究者称之为"探索-整合-收敛"(EIC)模式。这种模式非常像人类的思考过程:刚开始时大脑会发散性地思考各种可能性(探索阶段),然后整理和组织这些想法(整合阶段),最后聚焦到最佳答案(收敛阶段)。具体来说,Qwen3的前馈网络在前几层会增加不确定性来扩大搜索空间,中间层保持相对稳定来整合信息,最后几层则迅速收敛到最终答案。
相比之下,Llama系列模型的行为模式就像一个"急性子"。它们在大部分层中都保持相对较高的探索性,只在最后几层突然"刹车"收敛到答案。这种模式虽然也能得到正确答案,但缺乏中间的整合阶段,就像一个人思考问题时缺少深度加工的过程。
研究团队还分析了不同模块的具体行为。自注意力机制在不同模型中的表现也各有特色。Qwen3的自注意力模块始终保持正向的熵变,说明它在持续扩大信息整合的范围。而Llama模型的自注意力则表现得更加保守,变化幅度较小。
这些发现不仅有助于理解不同模型的内在机制,也解释了为什么某些模型在后续训练中表现更好。拥有渐进式推理模式的模型似乎更容易吸收新知识,就像一个有条理的学习者比混乱的学习者更容易掌握新技能。
三、从底层开始的全新训练思路
基于对内部推理机制的深入理解,研究团队提出了一个革命性的训练方法——自底向上策略优化(BuPO)。这种方法颠覆了传统的"一刀切"训练方式,转而采用分层优化的策略。
传统的训练方法就像教一个合唱团唱歌时,只给整个团队一个总体评价。而BuPO方法则像是先训练各个声部,让每个声部都掌握好自己的部分,然后再协调整体效果。具体来说,BuPO会先选择某个关键的内部层进行针对性训练,让这一层学会更好的推理能力,然后再训练整个模型。
研究团队发现,这种方法的关键在于选择合适的"起点层"。通过分析不同层的熵变化模式,他们确定了最适合作为起点的层。对于Qwen系列模型,最佳起点通常是那些展现正向熵变化的层,也就是仍在进行探索性思考的层。对于Llama系列,则选择那些开始显示收敛迹象但仍保持一定探索性的层。
更有趣的是,研究团队发现了内部策略优化的一个重要现象:当对某个内部层进行优化时,该层会被迫提前捕获高层次的推理信息。这就像让公司的中层管理者提前具备了高层战略思维能力,从而为后续的整体优化奠定了更好的基础。
但这种方法也有其微妙之处。研究团队发现,过度的内部层优化会导致模型性能崩溃,就像过度训练会让运动员受伤一样。因此,他们确定了最佳的训练步数,通常在20-30步之间,既能获得底层优化的好处,又避免了过度拟合的风险。
四、实验证明新方法确实更有效
为了验证这种新方法的效果,研究团队在多个复杂的数学推理任务上进行了全面测试。这些测试就像是给不同训练方法培养出来的学生安排同样的考试,看谁的成绩更好。
实验涵盖了四个主要的数学推理基准:MATH、AMC23、AIME24和AIME25。这些测试从不同角度考察模型的推理能力,就像综合性考试既有选择题又有解答题一样全面。研究团队比较了BuPO方法与传统的PPO、GRPO、Reinforce++和RLOO等方法的表现。
结果令人印象深刻。在Qwen3-4B模型上,BuPO方法在AIME24测试中获得了4.69分的提升,在AIME25中获得了2.30分的提升。这种提升幅度在AI训练领域已经算是相当显著的改进了。更重要的是,这种提升在不同规模的模型上都能稳定复现,从4B参数的小模型到8B参数的大模型都展现出了一致的改进。
Llama系列模型的结果同样令人鼓舞。在经过中期训练优化的Llama-OctoThinker模型上,BuPO方法平均获得了1.01到3.68分的提升。这证明了新方法的通用性,不仅适用于特定的模型架构,而是一个更普遍适用的训练策略。
研究团队还进行了更深入的分析来理解这些改进的来源。他们发现,BuPO训练后的模型在推理过程中表现出更稳定的熵动态变化,这意味着模型的"思考"过程变得更加有条理和高效。同时,底层的特征表示也变得更加丰富,为后续层的处理提供了更好的基础。
五、方法背后的深层机理
研究团队不满足于仅仅证明新方法有效,他们还深入探索了这种改进背后的具体机理。通过详细的分析,他们发现了几个关键的现象。
首先,当对某个内部层进行优化时,该层的隐藏状态与最终层表示的相似度会显著增加。这就像是让中层管理者的思维水平接近高层领导,使得信息传递变得更加顺畅。这种现象表明,底层优化确实能够提升整个网络的表示质量。
其次,研究团队观察到了一个有趣的训练动态。在BuPO训练的早期阶段,模型的熵会先增加后减少,形成一个"先发散再收敛"的模式。这种模式类似于人类学习新技能时的过程:刚开始时会尝试各种方法(发散),然后逐渐找到最有效的方式(收敛)。
研究团队还发现,不同训练阶段的作用机制也不相同。在内部层优化阶段,主要是提升了模型的"基础推理能力",就像给学生打好了数学基础。而在后续的整体优化阶段,则是在这个更好的基础上进一步提升整体表现,就像在扎实的基础上学习更高级的解题技巧。
值得注意的是,这种改进并不是简单的参数调整,而是涉及到了模型内部信息流的根本性改变。通过分析残差连接的贡献模式,研究团队发现BuPO训练后的模型在信息整合方面变得更加高效,各层之间的协作也更加紧密。
更令人惊喜的是,这种方法的改进效果在更多样本的情况下会进一步放大。当研究团队测试Pass@K指标(即生成K个答案中至少有一个正确的概率)时,发现BuPO方法在K值较大时优势更加明显。这说明新方法不仅提高了单次推理的准确性,还提升了模型探索多种解决方案的能力。
说到底,这项研究最重要的贡献在于改变了我们训练AI模型的思维方式。以前我们把模型看作一个黑盒子,现在我们知道了这个盒子里有着复杂而有序的内部结构。通过理解和利用这些内部结构,我们能够设计出更有效的训练策略,让AI变得更聪明、更可靠。
这种"分层思考"的训练理念可能会推广到更多的AI应用领域。无论是自然语言处理、图像识别还是其他复杂任务,理解和优化模型的内部推理过程都可能带来显著的性能提升。对于普通用户来说,这意味着未来的AI助手会变得更加智能和可信,能够提供更准确的答案和更合理的解释。
当然,这项研究也提出了新的问题和挑战。如何自动选择最佳的内部优化策略,如何在不同类型的任务中应用这些发现,以及如何将这些技术扩展到更大规模的模型,都是值得进一步探索的方向。不过可以肯定的是,这种"自底向上"的优化思路为AI技术的发展开辟了一条新的道路,有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2512.19673v1查询完整的研究报告。
Q&A
Q1:什么是大模型的内部策略?
A:内部策略是指大模型每一层神经网络都能形成自己的决策能力,就像公司里每个部门都有自己的小决策权。研究团队发现通过分析每层的输出,可以看到模型内部的"多重人格",每层都在为最终答案贡献自己的智慧。
Q2:自底向上策略优化方法与传统训练有什么区别?
A:传统方法把整个模型当作一个整体来训练,而BuPO方法先从底层开始逐步优化每一层的推理能力,然后再训练整个模型。这就像培养团队时不只培训老板,而是让每个员工都变得更专业,最终整体表现自然提升。
Q3:为什么Qwen和Llama模型的推理模式不同?
A:Qwen系列特别是Qwen3展现出渐进式的"探索-整合-收敛"模式,很像人类思考过程。而Llama系列更像"急性子",大部分时候保持探索性,只在最后突然收敛。这些差异影响了它们在后续训练中的表现,拥有渐进式推理的模型更容易吸收新知识。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。