微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

链式模型：微软打造的"俄罗斯套娃"语言模型将提高训练效率和推理灵活性

大语言模型神经网络架构弹性推理

链式模型：微软打造的"俄罗斯套娃"语言模型将提高训练效率和推理灵活性

作者：科技行者

2025-05-22 14:01

分享至：

微软研究院提出Chain-of-Model学习范式，将因果关系融入大型语言模型的隐藏状态。这一创新通过"链式表示"将模型参数分为多个子表示链，使模型能够逐层扩展且保持前序能力。研究成果包括CoLM和CoLM-Air两种实现，实验证明它们不仅性能与标准Transformer相当，还提供了高效训练和灵活推理的优势，包括能够渐进扩展模型规模、提供多尺度子模型以及显著加速预填充计算。这一突破为解决大型语言模型训练成本高和部署缺乏灵活性的问题提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-22 14:01 • 科技行者

在2024年5月发布的研究论文中，微软研究院的宋凯涛、王晓华、谭旭等研究团队提出了一种全新的学习范式——"链式模型"（Chain-of-Model，简称CoM）。这项发表于arXiv预印本平台上的研究（arXiv:2505.11820v1）旨在解决大型语言模型（LLMs）训练和部署中的两个核心痛点：训练效率和推理灵活性。如果你曾好奇为何每次升级语言模型都需要从头训练，或者为何不能根据不同场景动态调整模型大小，那么这项研究正是对这些问题的回应。

研究团队首先指出了当前大语言模型扩展策略的两个固有问题。首先，与人类渐进式获取知识不同，现有的扩展策略无法保留已有规模的模型能力，每次扩展都需要从头开始训练，导致效率低下。其次，现有的LLM架构（无论是Dense还是MoE）只能激活固定规模的参数，缺乏根据问题复杂度动态调整解决能力的机制。

为解决这些问题，研究团队引入了"链式表示"（Chain-of-Representation，简称CoR）的概念。想象一下俄罗斯套娃，每个大娃娃里面都包含着一个小娃娃，而每个娃娃都是完整的。同样地，CoR将任何表示（即神经网络中的隐藏状态）视为多个子表示（链）在隐藏维度级别上的组合。在这种设计中，每个链对应一个"规模"或"能力级别"，后面的链可以利用前面链的信息来编码更复杂的知识。

举个例子，假设我们有一个包含三个链的表示。第一个链可能只包含基础的语言理解能力，第二个链在此基础上增加了更复杂的推理能力，而第三个链则进一步增加了专业知识和创造力。这就像一个团队，从初级成员到资深专家，每一级都能贡献不同层次的能力。

基于CoR概念，研究团队提出了"链式层"（Chain-of-Layer，简称CoL）来重新设计网络层，确保每个输出链只能看到输入表示中的前序链。例如，第三个输出链只能看到输入的第一、第二和第三链，而第二个输出链只能看到输入的第一和第二链。这种设计具有三个关键特性：通用性（任何层都可视为链数为1的特例）、因果性（获取第i级特征只需计算前i个链）和组合性（两个遵循CoL的层叠加后仍保持CoL特性）。

将多个CoL层堆叠起来，我们就得到了"链式模型"（Chain-of-Model，简称CoM）。这种模型可以包含多个规模的子模型，并能从先前的能力基础上扩展，避免从头训练。想象一下一个成长中的树，新的枝叶在已有枝干的基础上继续生长，而不是每次都要从种子开始。

在此基础上，研究团队设计了"链式语言模型"（Chain-of-Language-Model，简称CoLM），将CoM思想应用到Transformer架构的每一层中。具体来说，研究者重新设计了Transformer中的线性层、多头注意力机制、前馈网络和规范化层，使它们都符合CoL标准。这样一来，CoLM就能在单次前向传播中集成多尺度训练，为弹性推理提供多个子模型。

更进一步，研究团队还引入了一个名为CoLM-Air的变体，采用KV共享机制：所有的键（keys）和值（values）只在第一个链中计算，然后共享给所有其他链。这种设计提供了更多的扩展性和灵活性，包括允许无缝切换不同规模的LLM（无需重新计算键和值）、加速预填充（prefilling）阶段等优势。

在多个基准测试上的实验结果表明，CoLM系列模型可以达到与标准Transformer相当的性能，同时提供更好的扩展性和灵活性。例如，在常识推理任务中，使用{16,16}链配置的CoLM模型在HellaSwag、Obqa、WinoGranda等测试上取得了与基线模型相当甚至略好的结果。

研究团队还展示了CoLM的链扩展能力。他们以现有的预训练模型（如TinyLLaMA-v1.1和LLaMA-3.2-1B）作为第一个链，然后添加新的额外链。结果显示，扩展模型在多个基准测试上都取得了性能提升，TinyLLaMA-v1.1提高了0.92个百分点，LLaMA-3.2-1B提高了0.14个百分点。

在弹性推理方面，CoLM通过使用不同数量的链，可以提供不同尺度的子模型。例如，在CoLM-Air的实验中，使用所有链（Chain 1+2）的完整模型性能为43.90%，而只使用第一个链的子模型性能为41.13%，为不同部署场景提供了灵活选择。

特别值得一提的是CoLM-Air在预填充速度方面的优势。由于所有键和值都在第一个链中计算，处理长文本输入时可以显著提高速度。实验表明，处理100万个标记时，使用{16,16}链配置的CoLM-Air比同参数量的LLaMA模型快约1.6倍，而使用{8,8,8,8}配置时甚至可达到3倍速度提升。当与MInference技术结合时，加速比可达到惊人的27倍。

此外，研究团队还提出了链式微调方法，冻结前几个链同时只微调后几个链。这种方法可以减少调优成本并通过保留第一个链来缓解灾难性遗忘问题。在GLUE基准测试上，链式微调通过仅调整模型约42%的参数，将基线模型性能从48.46%提升到67.79%。

总的来说，这项研究为大型语言模型训练和部署提供了一种全新的思路，实现了模型的进阶扩展和弹性推理，为下一代基础模型的构建铺平了道路。

一、链式表示：重新思考神经网络中的隐藏状态

传统的神经网络将每一层的隐藏状态视为单一的向量或张量，但微软研究团队提出了一个全新视角：任何表示都可以被看作多个子表示的组合。这就是"链式表示"（Chain-of-Representation，CoR）的核心思想。

想象你有一个长度为8的向量，传统观点将其视为一个整体单元。而在CoR概念中，这个向量可以被划分为多个子向量，比如[2,2,4]意味着前2个元素构成第一链，中间2个元素构成第二链，最后4个元素构成第三链。每个链代表一个"规模"或"能力级别"，从基础到复杂。

这种设计的美妙之处在于，通过激活不同数量的链，我们可以在同一个模型中获取不同规模的能力。比如，只激活第一链表示使用最基础的能力，激活第一和第二链则使用中等复杂度的能力，而激活所有链则发挥模型的全部潜力。这就像一支乐队，可以根据场合选择让部分乐手或全体乐手演奏，灵活且高效。

但这种设计带来一个挑战：如何构建链之间的关系，确保每个链都能在前一个链的基础上构建更复杂的能力？这就需要重新设计网络层的工作方式。

二、链式层：在隐藏状态中注入因果关系

为了实现链式表示的潜力，研究团队引入了"链式层"（Chain-of-Layer，CoL）的概念。在传统神经网络层中，输出完全依赖于整个输入。而在链式层中，输出的第i个链只能依赖于输入的前i个链，这就创建了一种因果关系——后面的链总是建立在前面链的基础上。

举个简单的例子，假设我们有一个简单的线性层y = Wx + b，输入x和输出y都分为3个链。在CoL设计中，输出的第一链y?只能看到输入的第一链x?；输出的第二链y?可以看到输入的第一链x?和第二链x?；而输出的第三链y?可以看到所有输入链x?、x?和x?。

这种设计具有三个关键特性：

首先是通用性。当链的数量为1时，链式层就退化为标准网络层，因此任何标准层都可以视为链式层的特例。这保证了与现有模型的兼容性。

其次是因果性。由于输出的第i个链只依赖于输入的前i个链，我们可以根据需要只计算部分链。例如，如果只需要第一个链的输出，我们只需要计算与第一个链相关的参数，而无需计算整个模型。这大大提高了推理阶段的效率。

第三是组合性。如果两个层都满足链式层的要求，那么它们的组合也满足链式层的性质。这意味着我们可以将多个链式层堆叠起来，形成一个完整的链式模型，而且这个模型也会保持链式设计的所有优势。

三、链式语言模型：改造Transformer架构

有了链式表示和链式层的基础概念，研究团队将这些思想应用到语言模型中，创建了"链式语言模型"（Chain-of-Language-Model，CoLM）。这个过程涉及重新设计Transformer架构的各个组件。

首先是线性层（Linear Layer）。在CoLM中，研究者引入了"链"这一新的超参数，用于确定每个输入和输出链的大小。例如，如果设置C={c?, c?, ..., c?}作为基本比例，那么第i个输入链的维度就是(c?/总和)×输入维度，输出链的维度也类似计算。这种设计确保了线性层符合链式层的要求。

其次是多头注意力机制（Multi-head Attention）。为了支持链式表示，研究者将所有线性层（查询Q、键K、值V、输出O）替换为链式线性层。同时，他们设计了一个巧妙的技巧：要求链数总和等于注意力头数，这样每个链都有专属的查询、键和值，确保注意力机制符合链式层标准。

第三是前馈网络（Feed-Forward Network）。这一改造相对简单，只需将前馈网络中的所有线性层替换为链式线性层，并使用与注意力模块相同的超参数C，确保Transformer块（注意力+前馈）的输出特征也符合链式层的要求。

第四是规范化层（Normalization）。研究者采用了一个简单而有效的方法，对每个链分别应用规范化函数，以确保规范化后的特征保持链式表示的属性。

最后是嵌入层（Embedding）。在训练过程中，嵌入层保持不变，但在使用过程中，当需要编码第i个规模的信息时，只需使用对应前i个链的嵌入部分。

基于这些改造，CoLM不仅保持了Transformer的强大表达能力，还增加了多尺度训练和弹性推理的能力。就像一个可变形的工具，能根据任务需求调整自身的复杂度和能力。

四、KV共享：进一步提升灵活性和效率

在CoLM的基础上，研究团队提出了一个更具野心的变体——CoLM-Air，引入了KV共享机制。在传统的注意力机制中，每个链都有自己的键（K）和值（V），这虽然提供了丰富的表示能力，但也阻断了不同规模模型之间的连接。

例如，当从小型语言模型（SLM）切换到大型语言模型（LLM）进行生成时，通常需要重新计算所有前文内容的键和值。这不仅效率低下，还限制了模型的灵活性。

CoLM-Air的解决方案是：所有的键和值只在第一个链中计算，然后共享给所有其他链。如果查询头数多于键值头数，就采用GQA（Group Query Attention）的做法，通过重复键和值来匹配查询头数。

这种设计带来了几个独特的优势：

首先是预填充加速。在处理长文本输入时，模型只需要使用第一个链计算键和值，这显著减少了计算负担，提高了处理速度。实验显示，处理100万个标记时，CoLM-Air比同参数量的LLaMA模型快1.6至3倍，结合MInference技术甚至可达到27倍加速。

其次是无缝LLM切换。当使用不同规模的CoLM-Air模型进行续写生成时，由于所有模型共享来自第一个链的键和值，我们可以在不重新计算的情况下随时切换模型规模，实现前所未有的灵活性。

此外，CoLM-Air还与PD分离架构（如Distserve、Splitwise、Mooncake等）高度兼容，因为它只需要在预填充服务器上部署第一个链的权重来计算KV缓存，显著减轻了预填充服务器的计算负担。

五、训练与扩展：渐进式提升模型能力

CoM架构的一个重要特点是能够从现有模型基础上扩展，而不必从头训练。研究团队提出了"链扩展"（Chain Expansion）的概念，即使用预训练好的模型作为第一个链，然后添加新的链进行扩展。

这概念上类似于渐进式神经网络，允许在保留先前知识的同时增加额外的能力。然而，CoLM将这一理念扩展到了Transformer架构的预训练中。

在实验中，研究者选择了两个LLaMA变体（TinyLLaMA-v1.1和LLaMA-3.2-1B）作为第一个链进行扩展。具体方法是将c?设为32（查询数），然后引入第二个链c?=8，增加约0.8B参数。为了保持原始知识，研究者冻结了第一个链并仅训练新增部分。

结果表明，即使在有限的计算资源下（8B标记训练），扩展模型也在多个基准测试上取得了性能提升：TinyLLaMA-v1.1提高了0.92个百分点，LLaMA-3.2-1B提高了0.14个百分点。这表明CoM能有效地在现有模型基础上构建更强大的能力。

六、弹性推理与链式微调：实际应用的灵活性

除了训练效率，CoLM的另一个重要优势是弹性推理能力。传统语言模型只能以固定规模运行，而CoLM可以根据需求动态激活不同数量的链，提供多个规模的子模型。

在研究中，团队展示了CoLM-Air使用一个或全部链时的性能差异。例如，使用所有链的完整模型在综合测试中达到43.90%的准确率，而只使用第一个链的子模型达到41.13%。这种灵活性对于不同的部署环境（如资源受限的移动设备或功能强大的服务器）尤为宝贵。

此外，研究团队还提出了"链式微调"（Chain Tuning）方法，即冻结前几个链同时只微调后几个链。这种方法有两个主要优势：一是减少调优成本，二是通过保留第一个链来缓解灾难性遗忘问题。

在GLUE基准测试上，链式微调将基线模型性能从48.46%提升到67.79%，同时只需调整模型约42%的参数。更重要的是，当采用CoLM-Air设置并冻结第一个链时，微调后模型的键和值可以无缝转移到原始模型，无需额外计算。

七、探索与讨论：未来的可能性

虽然CoM架构在宽度（即维度）方面展现了巨大潜力，但研究团队也探讨了将其应用于模型深度（即层数）的可能性。初步实验表明，在模型深度方面应用CoM概念面临一些挑战，特别是在保持高层语义表示方面。

此外，研究者也讨论了CoM与混合专家（Mixture-of-Experts，MoE）架构的区别。MoE设计旨在创建具有相似能力的多个专家，而只激活其中一部分；CoM则是创建一系列嵌套的专家，从弱到强逐步增强能力。两种架构从不同角度构建专家，是完全正交的，意味着它们可以在同一架构中结合使用，继承各自的优势。

总结来说，链式模型（CoM）为大型语言模型的训练和部署提供了一种全新思路，通过引入链式表示和因果依赖关系，实现了模型的进阶扩展和弹性推理。这种方法不仅提高了训练效率，还增加了推理阶段的灵活性，为构建下一代基础模型提供了新的可能性。就像俄罗斯套娃般层层嵌套，又能灵活组合，CoM开辟了语言模型构建的新范式。

大语言模型神经网络架构弹性推理

分享至