微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

揭秘指令特定神经元与专家：一个分析LLM指令跟随能力的全新框架

人工智能大型语言模型机制解释

揭秘指令特定神经元与专家：一个分析LLM指令跟随能力的全新框架

作者：科技行者

2025-06-02 12:19

分享至：

这项由香港科技大学研究团队开展的创新研究揭示了大型语言模型（LLM）执行指令能力背后的神经机制。研究者通过提出SPARCOM分析框架，成功识别并分析了"指令特定神经元"和"指令特定专家"这两类稀疏组件在模型内部的分布与功能。通过精心设计的HEXAINST数据集，研究发现这些组件不仅具有功能通用性和独特性，而且在模型微调过程中发生显著变化。研究结果表明，模型的指令执行能力主要源于这些稀疏组件的精确激活，为理解LLM内部工作机制提供了新视角，对构建更可靠的AI系统具有重要指导意义。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-02 12:19 • 科技行者

大型语言模型（LLM）的指令微调技术极大地提升了这些模型理解用户意图、执行指令并与人类偏好保持一致的能力。但是，这些微调过程究竟如何改变模型内部的计算机制以实现卓越的指令跟随能力？这个关键科学问题一直以来都充满了挑战性。近期，由香港科技大学（广州）和香港科技大学的研究团队在这一领域取得了重要突破。由张钧言、高宇博（共同第一作者）、闫亦博等人组成的研究小组在2025年5月27日发表在arXiv（arXiv:2505.21191v1）上的论文《揭秘指令特定神经元与专家：一个分析LLM指令跟随能力的全新框架》中，系统地研究了指令微调如何重塑LLM内部计算过程。

想象一下，当你在使用ChatGPT这样的人工智能助手时，它是如何理解你的指令并做出相应回答的？这就像是训练一个新员工完成各种任务——最初这位员工可能对工作流程不太熟悉，但经过专门的培训后，他逐渐掌握了各种任务的处理方法。研究团队发现，这种"培训"（也就是模型的指令微调过程）实际上是通过激活模型内部特定的神经元和专家组件来实现的。

这项研究采用了解释性分析的视角，专注于识别和分析LLM内部与指令处理相关的稀疏组件。就像一个大型企业中，并非所有员工都参与每一项任务，而是有特定的专家团队负责特定类型的工作。在LLM中，研究人员发现也存在这样的"指令专家"——即指令特定神经元（ISNs）和指令特定专家（ISEs）。前者存在于传统密集型模型中，后者则存在于混合专家（MoE）架构中。

为了深入研究这些组件，研究团队精心创建了HEXAINST数据集，这是一个涵盖六个不同类别的均衡指令数据集。同时，他们提出了SPARCOM，一个创新的分析框架，包含三个关键贡献：方法论上，他们首先开发了识别这些稀疏组件的方法；评估上，他们评估了这些组件的功能通用性和独特性；分析上，他们系统地比较了这些组件在微调前后的变化。

通过这一系列实验，研究团队展示了这些组件在指令执行中的功能通用性、独特性以及关键作用。他们的发现不仅阐明了微调过程如何改变模型内部结构，还为我们理解LLM如何内化指令跟随行为提供了更深入的见解，对于构建可信赖的LLM社区具有重要意义。

一、研究背景：解锁LLM的指令跟随机制

在我们日常使用的ChatGPT或Claude等AI助手背后，隐藏着一项被称为"指令微调"的关键技术。这项技术使得大型语言模型能够理解并执行用户的各种指令，从回答问题到编写代码，从生成故事到解决数学问题。然而，尽管我们能看到这些模型表现出色，但它们内部究竟发生了什么变化，使它们能够如此精确地理解和执行指令，却一直是个谜团。

过去的研究已经在神经元层面的解释方面取得了一些进展。研究人员成功识别出了一些特定功能的神经元，比如存储事实知识的神经元、处理特定语言的神经元、回忆领域信息的神经元，以及确保模型安全的神经元。这些特定神经元虽然数量不多，但对模型的相应能力至关重要。就像一个大型乐团中，虽然每个乐手都在演奏，但某些独奏部分可能由特定的乐手完成，而这些特定乐手的表现直接影响整个乐团的演出质量。

受到这些发现的启发，香港科技大学的研究团队提出了一个核心假设：模型的指令跟随能力是否也源自某些稀疏组件？换句话说，当模型接收到一个指令并执行它时，是否有特定的神经元或专家组件被激活，扮演着关键角色？

为了验证这一假设，研究团队对两类流行的开源LLM家族（LLaMA和Mistral）以及一个混合专家（MoE）模型家族（Qwen-MoE）进行了系统研究。他们分析了这些模型在处理指令时内部组件的激活模式，特别关注两种稀疏组件：指令特定神经元（类似于乐团中的独奏者）和指令特定专家（类似于专门的小型乐团）。

研究团队首先创建了HEXAINST数据集，这是一个经过精心策划的均衡指令数据集，涵盖了六个不同的指令类别：分类、代码、通用问答、生成、数学和摘要。通过这个多样化的数据集，他们能够全面测试模型在不同类型指令下的行为模式。

接着，他们提出了SPARCOM分析框架，这个框架包含三个关键步骤：首先，识别模型中的指令特定神经元和专家；其次，评估这些组件的功能通用性和独特性；最后，分析这些组件在微调前后的变化。通过这个框架，研究团队能够深入了解模型内部的工作机制，揭示微调过程中发生的变化。

这项研究不仅是对LLM内部机制的探索，也为我们提供了一个新的视角来理解AI系统如何学习和适应人类指令。就像研究人类大脑如何学习新技能一样，研究LLM内部的指令处理机制可以帮助我们设计更高效、更可靠的AI系统。

二、研究方法：SPARCOM框架的创新之处

SPARCOM框架是这项研究的核心创新，它提供了一种系统化的方法来分析LLM内部的稀疏组件。这个框架就像是一台特殊的显微镜，能够让研究人员透视LLM的"大脑"，观察它在处理不同指令时的内部活动。

首先，让我们了解SPARCOM的第一个关键步骤：稀疏组件识别。这一步骤旨在找出模型中的指令特定神经元（ISNs）和指令特定专家（ISEs）。研究团队受到之前语言激活概率熵研究的启发，开发了一种新方法来识别这些组件。

对于普通的密集型模型（如LLaMA和Mistral），研究人员关注前馈网络组件中神经元的激活情况。当模型接收到一个指令时，他们记录每个神经元在处理这个指令时的激活值。通过计算神经元激活频率（即神经元激活值超过零的概率），他们能够确定哪些神经元对特定指令特别敏感。那些激活频率超过特定阈值的神经元被标识为指令特定神经元。

这就像是在一个大型公司中，通过观察员工在处理不同任务时的活跃度，来确定哪些员工是特定任务的专家。例如，当公司接到一个编程任务时，某些员工会表现得特别活跃，这些员工可能就是编程专家。

对于MoE模型（如Qwen-MoE），研究人员不仅关注神经元，还关注模型中的专家组件。在MoE模型中，每个输入令牌都会激活多个专家，这些专家共同处理信息。研究人员通过记录每个专家的激活频率，确定哪些专家对特定指令类型特别敏感，这些被称为指令特定专家（ISEs）。

SPARCOM的第二个关键步骤是稀疏组件评估。在这一步骤中，研究人员评估了已识别的ISNs和ISEs的功能特性，特别是它们的通用性和独特性。

通用性指的是不同指令类型之间ISNs或ISEs的重叠程度。研究人员发现，尽管不同类型的指令在表达方式和内容上存在差异，但它们之间仍然存在一定程度的神经元重叠。这些重叠的神经元可能负责处理指令的一般特性，如语言理解或基本指令解析。

独特性则是指同类指令之间ISNs或ISEs的相似程度。研究人员发现，同类指令往往激活相似的神经元或专家，即使这些指令在具体表述上有所不同。这表明模型能够识别出指令的本质特征，而不仅仅是表面的词汇或语法差异。

SPARCOM的第三个关键步骤是稀疏组件变化比较。在这一步骤中，研究人员比较了模型在微调前后ISNs和ISEs的变化情况。他们发现，尽管微调不会彻底改变模型处理指令的基本逻辑，但它会显著增加特定任务的专业化神经元和专家数量，使模型能够更准确地执行各种指令。

此外，研究人员还分析了ISNs在模型不同层次的分布情况，并提出了一个三阶段框架来理解内部机制。在早期阶段，大量ISNs被激活，负责编码和处理指令的表面概念；在中间阶段，模型进一步泛化和理解指令，ISNs数量减少；在最后阶段，特定指令的ISNs数量再次增加，负责生成相应的输出。

这个过程就像是人类学习一项新技能的过程：最初，我们需要注意很多细节；随后，我们开始形成更抽象的理解；最后，我们能够流畅地执行这项技能，专注于关键要素。

三、HEXAINST数据集：指令分析的基石

研究团队意识到，要深入理解LLM如何处理不同类型的指令，首先需要一个多样化且均衡的指令数据集。然而，现有的指令数据集在任务分布上往往不均衡，特别是缺乏摘要和分类指令，以及AI生成的指令。因此，他们构建了HEXAINST数据集作为这项研究的基础。

HEXAINST包含了1,200个实例，均匀分布在六个指令类别中：分类（CLS）、代码（CODE）、通用问答（QA）、生成（GEN）、数学（MATH）和摘要（SUM）。每个类别包含100个AI生成的指令和100个人类策划的指令，这样的设计能够控制来源的变异性，并使研究人员能够区分神经元激活模式与数据源偏差。

这就像是设计了一个全面的体检套餐，包含了多种不同类型的检查，以确保能够全面评估一个人的健康状况。同样，HEXAINST数据集通过包含多种类型的指令，确保能够全面评估模型的指令处理能力。

数据集的构建过程非常严谨。合成数据是通过DeepSeek R1模型使用受约束的元提示生成的；自然数据则基于公共基准构建，包括FLAN集合（用于分类和摘要）、HumanEval（用于代码）、TriviaQA（用于通用问答）、Alpaca（用于生成）和Math-500（用于数学）。

对于自然数据，研究团队使用正则表达式模式匹配提取指令，随后由专家验证和改进。合成指令则与公共LLM的训练数据进行交叉检查，以防止污染。所有数据都经过人工后验证，确保质量。

让我们看几个具体的例子，以更好地理解HEXAINST数据集中不同类型的指令：

分类指令的一个例子是："在这个任务中，你需要将给定的推文文本根据其内容分类为两类：1）积极，2）消极。"这类指令要求模型对文本进行情感分析或分类。

代码指令的一个例子是："从整数列表中删除所有出现多次的元素。保持左侧元素的顺序与输入相同。"这类指令测试模型的编程能力。

通用问答指令的一个例子是："蓝彼得节目的第一位女性主持人是谁？"这类指令测试模型的一般知识。

生成指令的一个例子是："为一款新的口红产品想出一个广告语。"这类指令测试模型的创意和生成能力。

数学指令的一个例子是："如果4个daps等于7个yaps，5个yaps等于3个baps，那么多少个daps等于42个baps？"这类指令测试模型的数学推理能力。

摘要指令的一个例子是："给定一些与烹饪相关的查询的背景描述，将问题概括为一个标题。"这类指令测试模型的摘要能力。

通过这个多样化且均衡的数据集，研究团队能够系统地分析模型在处理不同类型指令时的内部机制，为后续的研究提供了坚实的基础。

四、实验设置与模型选择

研究团队选择了多个流行的开源LLM进行实验，包括LLaMA、Mistral和Qwen三个家族的模型。这些模型代表了当前LLM研究的主流方向，涵盖了不同的模型规模和架构。

对于微调后的模型，研究团队选择了LLaMA-2-Chat的7B和13B变体，以及Mistral-7B-Instruct-v0.1和Qwen1.5-MoE-A2.7B-Chat。对于原始模型，他们选择了LLaMA-2-7B、LLaMA-2-13B、Mistral-7B-v0.1和Qwen1.5-MoE-A2.7B。这种配对设计使研究人员能够直接比较微调前后模型内部机制的变化。

在实现细节方面，研究团队使用了vllm和Transformer库来获取和挂钩LLM的内部状态。对于Qwen1.5-MoE-A2.7B-Chat和Qwen1.5-MoE-A2.7B模型，他们使用默认设置，即基于门控网络的分数，为每个令牌从六十个专家池中选择四个动态专家。

这就像是选择了不同类型的车辆进行测试，包括普通轿车和混合动力车，以全面评估不同类型车辆的性能特点。同样，通过选择不同类型的模型，研究团队能够获得更全面的实验结果，增强结论的普适性。

五、研究发现：稀疏组件的通用性与独特性

通过SPARCOM框架的实验，研究团队获得了一系列重要发现，深入揭示了LLM内部指令处理机制的特性。

首先，关于稀疏组件的通用性。研究人员发现，不同指令类型之间存在一定程度的ISNs重叠。这些重叠的神经元可能负责处理指令的一般特性，比如处理一般指令语言、编码共同功能或概念元素。例如，尽管不同类型的指令在语义和表达方式上存在明显差异，但它们在某些词汇上的重叠是不可避免的，这也导致了不同指令类型之间一般神经元的重叠。

特别有趣的是，研究人员发现分类和摘要指令之间的ISNs重叠程度较高，这可能反映了它们内在的联系和共享的技能需求。这就像是烹饪和烘焙虽然是不同的技能，但它们共享了测量、混合等基本技巧，因此一个人如果擅长烹饪，学习烘焙可能会相对容易。

同样，在MoE模型中，不同指令类型之间的专家激活也存在一定的相关性，尽管比起同类型指令之间的相关性要弱得多。这些一般专家可能负责处理一般指令并响应不同指令之间潜在的令牌重叠。

其次，关于稀疏组件的独特性。研究人员在所有模型中都观察到，沿对角线的颜色明显更深，特别是对于分类、摘要、代码和数学等指令类型。这表明同类型指令之间的ISNs重叠程度很高。尽管同一类别内的指令在词汇和语法上存在相当大的变化，但它们的表示仍然表现出明显的相似性。

这一发现提供了令人信服的证据，支持ISNs的独特性和专门功能。它突显了这些神经元识别和处理指令核心元素的能力，受表达方式差异的影响有限。这就像是一个经验丰富的医生能够从各种不同的症状描述中识别出同一种疾病，不管患者如何表述他们的不适。

同样，在MoE模型中，同类型指令之间的专家激活也表现出显著较高的相关性，特别是在分类、代码和数学任务中，这证明了ISEs的独特性。这支持了不同专家在MoE模型中专门处理不同技能的假设。通过负载平衡损失的设计，MoE模型确保不同专家发展出独特的能力来处理来自不同类别的指令。

六、稀疏组件的特性与工作机制

在分析稀疏组件的分布和激活模式后，研究团队发现了一些关于这些组件如何工作的重要特性。

首先，关于指令处理的相似性。根据实验结果，模型在微调前后处理指令的整体趋势基本保持不变，特别是在LLaMA-2-7B、LLaMA-2-13B和Qwen1.5-MoE-A2.7B中。这表明每个模型处理指令的基本逻辑在微调过程中没有发生重大变化。然而，微调后，这些模型表现出更多能力更强、更专业化的ISNs。这些增强的神经元使模型能够处理更广泛的任务，并生成更准确、更符合上下文的响应。

这就像是一个有天赋的音乐家在接受专业训练后，虽然他弹奏音乐的基本方式没有改变，但他能够演奏更复杂的曲目，并表现出更微妙的表现力。

另一个关键的相似性出现在不同指令类型之间。尽管指令之间存在实质性差异，但ISNs的分布模式在所有测试的模型中都遵循着显著一致的趋势，特别是在LLaMA-2-7B、LLaMA-2-13B和Mistral-7B-v0.1系列中。这表明LLM可能依赖于一种共享的计算机制来处理指令，其中底层神经激活模式不受指令类型的影响而保持稳定。

接下来，研究团队提出了一个三阶段机制框架来阐述ISNs的运作原理。

对于非MoE模型，在早期阶段，ISNs的数量显著增多，因为这个阶段涉及编码和处理各种指令的表面概念。在中间阶段，指令被语言模型进一步泛化和理解，导致ISNs数量急剧减少。在最后阶段，特定指令的神经元数量再次急剧增加。这些ISNs通过持续将内容解码为相关的输出令牌来促进相应输出的生成。

对于MoE模型，早期阶段从最浅层延伸到中间层，ISNs数量持续增加，随着更多专家参与处理，丰富了指令的表示。研究人员假设MoE模型需要更多步骤来不断理解和处理指令的内容。在中间阶段，ISNs的数量减少。同样，在最后阶段，又有一个急剧增加，使模型能够生成相应的输出。

这个三阶段过程类似于人类学习和执行复杂任务的方式：初始阶段需要注意许多细节；中间阶段形成更抽象的理解；最终阶段能够高效执行，关注关键要素。

七、微调后稀疏组件的变化

研究团队的最后一项重要发现是关于稀疏组件在微调前后的变化。这些变化揭示了微调过程如何改变模型内部的工作机制，使模型能够更好地理解和执行指令。

如实验结果所示，同一模型中相同指令的特定神经元的激活模式在微调前后表现出显著变化。这为研究团队识别ISNs的有效性提供了额外的验证。如图所示，LLaMA-2-7B中微调前后激活模式的变化是层特定的：ISNs的增加主要观察到在早期层（负责初始指令解析）和后期层（涉及输出生成），且这种模式在不同指令类型中保持一致。

那些本来就对指令有反应的重叠神经元在微调过程中得到了进一步的完善。此外，微调后出现了新的ISNs。这些新形成和精炼的神经元协同工作，建立更精确的指令到响应映射，展示出增强的功能专业化，从而提高性能。这与Prakash等人（2024）提出的见解紧密一致。

这就像是一个有天赋但经验不足的厨师经过专业培训后，不仅改进了原有的技能，还学习了新的烹饪技巧，能够烹饪更多种类的美食，而且质量更高。

对于MoE模型，研究人员观察到微调前后，相同指令仍然激活具有高度相关性的专家，表明存在强烈的线性关系。这表明，从专家的角度来看，他们的响应在微调前后保持高度一致。模型的底层架构和决策过程保持相对稳定，意味着微调并没有显著改变模型对不同专家的依赖。相反，专家的ISNs可能在提高性能方面发挥了更重要的作用。

这项研究的一个重要贡献是揭示了微调如何通过调整特定的稀疏组件来增强模型的指令跟随能力，而不是彻底改变模型的整体架构或计算方式。这种见解可能对未来设计更高效的微调策略有重要意义，允许更有针对性地调整模型中的关键组件，而不是对整个模型进行大规模修改。

八、结论与未来方向

这项研究系统地探索了LLM内部的指令处理机制，特别是指令微调如何通过稀疏组件重塑模型的计算过程。通过引入HEXAINST数据集和SPARCOM框架，研究团队成功识别并分析了指令特定神经元（ISNs）和指令特定专家（ISEs），揭示了它们的分布模式和激活行为。

研究的主要结论包括：

首先，LLM中确实存在稀疏组件，这些组件对指令处理起着关键作用。这些组件可以分为通用型和特定型，前者负责处理指令的一般特性，后者专门处理特定类型的指令。

其次，同类型指令倾向于激活相似的神经元或专家，即使这些指令在表述上有所不同。这表明模型能够捕捉指令的本质特征，而不仅仅是表面的词汇或语法差异。

第三，模型处理指令的基本逻辑在微调前后保持相对稳定，但微调会增加特定任务的专业化神经元和专家数量，使模型能够更准确地执行各种指令。

第四，LLM处理指令的过程可以概括为三个阶段：早期阶段处理指令的表面概念，中间阶段形成更抽象的理解，最后阶段生成相应的输出。

这些发现不仅深化了我们对LLM内部工作机制的理解，还为未来的研究和应用提供了新的方向。例如，通过理解哪些神经元或专家对特定类型的指令特别重要，我们可能能够开发更有针对性的微调策略，或者设计更高效的模型架构。

当然，这项研究也存在一些局限性。首先，它主要从机制可解释性的角度研究LLM处理不同指令的特性，而没有探索如何利用这些发现来增强模型的指令跟随能力和任务解决性能。其次，研究仅关注了六种代表性指令，未来的工作需要探索更大、更多样化的数据集，以识别更广泛的指令特定神经元和专家，从而增强研究发现的普适性。

总的来说，这项研究为理解LLM的指令跟随能力提供了一个新的分析框架，揭示了微调如何通过调整特定的稀疏组件来增强模型性能。这些见解不仅对LLM的可解释性研究有重要意义，也为设计更高效、更可靠的AI系统提供了新的思路。

就像人类通过练习和反馈逐渐掌握新技能一样，LLM通过微调调整其内部的特定组件，提高其理解和执行指令的能力。通过更深入地理解这一过程，我们不仅能够开发出更强大的AI系统，还能确保这些系统以我们期望的方式工作，为构建可信赖的AI社区奠定基础。