微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

让专家"接力"工作，AI模型变得更聪明了——西北大学等顶尖院校联手破解人工智能效率难题

混合专家模型专家链架构AI模型优化

让专家"接力"工作，AI模型变得更聪明了——西北大学等顶尖院校联手破解人工智能效率难题

作者：科技行者

2025-06-30 10:53

分享至：

西北大学等顶尖院校联合提出专家链(CoE)架构，通过让AI模型内部专家依次协作而非并行工作，在相同计算预算下将数学推理验证损失从1.20降至1.12，同时减少17.6%-42%内存使用。这种"接力式"处理方式为AI模型扩展提供了新维度，证明了智能协作比简单资源堆砌更有效。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-30 10:53 • 科技行者

这项突破性研究来自西北大学、伊利诺伊大学厄巴纳-香槟分校、斯坦福大学、华盛顿大学、萨里大学和牛津大学的联合团队。研究由西北大学的王子涵、伊利诺伊大学的潘瑞和姚嘉瑞等学者领导，于2025年6月23日发表在arXiv预印本服务器上（论文编号：arXiv:2506.18945v1），有兴趣深入了解的读者可以通过https://github.com/ZihanWang314/coe访问相关代码和详细资料。

当我们谈论人工智能如何变得更聪明时，一个核心挑战就像是如何让一个庞大的专家团队高效协作。目前最先进的AI模型采用了一种叫做"专家混合"的技术，就像是在一个大公司里，每当遇到问题时，系统会同时召集多个专家并行工作，然后综合他们的意见得出答案。这种方法确实提高了效率，但研究团队发现了一个问题：这些专家之间缺乏交流，各自独立工作，就像是几个专业顾问在同一个房间里各自埋头写报告，却从不互相讨论。

研究团队提出了一个革命性的解决方案，他们称之为"专家链"（Chain-of-Experts，简称CoE）。这个新方法的核心思想非常简单却极其巧妙：让专家们像接力赛一样依次工作，每个专家都能看到前一个专家的工作成果，并在此基础上继续改进。这就好比是让一支医疗团队治疗复杂病例时，先让诊断专家检查病人，然后将诊断结果传递给治疗专家，治疗专家再根据诊断结果制定更精准的治疗方案。

这种"接力式"的工作方式带来了令人瞩目的效果。在数学推理任务上，新方法将验证损失从1.20降低到1.12，这意味着AI模型在理解和解决数学问题方面变得更加准确。更重要的是，这种改进是在相同计算资源条件下实现的，就像是用同样的燃料让汽车跑得更远。

一、传统方法的局限性：各自为政的专家团队

要理解这项研究的重要性，我们首先需要了解当前AI模型是如何工作的。现代大型语言模型面临着一个根本性的挑战：如何在保持高性能的同时控制计算成本。这就像是一家公司既要提供高质量的服务，又要控制运营成本。

传统的专家混合模型采用了一种看似聪明的策略：建立一个庞大的专家库，但对于每个具体问题，只激活其中一小部分专家。这种方法的优势显而易见，就像是一家咨询公司拥有数百名专家，但每个项目只派遣最相关的几名专家参与，这样既能保证专业性，又能控制成本。

然而，这种方法存在一个根本性的缺陷：专家们是并行工作的，彼此之间没有交流。每个专家都独立地分析同一个问题，然后系统简单地将他们的意见综合起来。这就像是让几名医生同时独立诊断同一个病人，然后简单地平均他们的意见。这种方式忽略了一个重要事实：复杂问题往往需要多步骤的分析和逐步refinement，而这正是专家协作的价值所在。

研究团队通过深入分析发现，这种独立性假设可能严重限制了模型利用专家间互补推理模式的能力。在现实世界中，最好的解决方案往往来自于专家间的深度协作和知识传递，而不是简单的意见汇总。正是基于这一洞察，他们开始探索一种全新的专家协作模式。

二、创新突破：让专家学会"接力"

研究团队提出的专家链方法完全颠覆了传统的并行处理模式。在这个新系统中，专家们不再同时工作，而是形成一个有序的处理链条。当一个问题进入系统时，第一个专家会对其进行初步分析，然后将分析结果连同原始问题一起传递给下一个专家。第二个专家能够看到第一个专家的工作成果，在此基础上进行进一步的分析和改进。

这个过程可以用烹饪来类比。传统方法就像是让几个厨师同时用相同的食材制作同一道菜，然后将结果混合在一起。而新方法则像是让第一个厨师进行食材预处理，第二个厨师根据预处理结果进行调味和烹制，每一步都建立在前一步的基础上，最终产出更加精致的菜品。

这种设计的技术实现非常巧妙。系统在每个处理步骤都设置了独立的路由器，这些路由器能够根据当前的中间结果动态决定下一步应该选择哪个专家。这意味着处理路径不是预先固定的，而是根据问题的具体情况和前期处理结果自适应调整的。这就像是GPS导航系统能够根据实时路况动态调整路线一样。

更重要的是，系统在每个处理步骤都加入了残差连接。这个技术概念听起来复杂，但实际上就像是在每次专家交接时保留一份"原始档案"。这样即使某个专家的处理出现偏差，系统也能够参考原始信息进行纠正，确保处理过程的稳定性和可靠性。

三、实验验证：数字背后的突破

为了验证这种新方法的有效性，研究团队进行了大量的对比实验。他们选择了两个具有代表性的数据集：SlimPajama（包含6270亿个词汇的大规模通用语料库）和MetaMathQA（专门用于数学推理的数据集）。这种选择很有策略性，因为它既测试了模型在通用语言理解方面的能力，也考察了在特定领域（数学推理）的表现。

实验设计非常严谨，研究团队确保了公平比较的前提条件。他们构建了一个包含544百万参数的模型，采用了与DeepSeek-V2-Lite相似的架构。模型包含4个层级，每个层级有1024个隐藏单元和8个注意力头。在专家配置上，每个层级包含63个路由专家和1个共享专家，对于每个输入词汇，系统会选择8个路由专家进行处理。

实验结果令人振奋。在相同的计算预算下，专家链方法在多个基准测试上都显示出了优势。在ARC-E测试中，准确率从27.2%提升到28.1%；在HellaSwag测试中，性能基本持平但表现更稳定；在PIQA测试中，也取得了微小但一致的改进。虽然这些数字看起来提升幅度不大，但在AI领域，每一个百分点的提升都代表着显著的进步，特别是在保持相同计算成本的前提下。

更令人印象深刻的是验证损失的改进。从1.20降低到1.12的变化意味着模型在理解和预测方面变得更加准确。这种改进在数学推理任务上尤为明显，这表明专家间的协作对于需要多步骤逻辑推理的任务特别有效。

四、深度分析：为什么"接力"比"并行"更有效

研究团队不满足于仅仅展示实验结果，他们深入探究了专家链方法优越性的根本原因。通过一系列精心设计的分析实验，他们揭示了几个关键的洞察。

首先是组合灵活性的显著提升。在传统方法中，如果系统需要选择8个专家，那么可能的专家组合数量是C(64,8)，这是一个相当大但有限的数字。而在专家链方法中，通过两轮各选择4个专家的方式，可能的专家组合达到了C(64,4)?，这比传统方法多出了823倍的可能性。这种组合爆炸为模型提供了极其丰富的表达能力，就像是从有限的几种乐器组合扩展到了一个完整的交响乐团。

其次是有效深度的增加。虽然参数总量保持不变，但迭代处理实际上增加了模型的有效计算深度。每一轮专家处理都相当于为模型增加了一层逻辑推理能力。这就像是用同样的建筑材料，通过更巧妙的结构设计建造出了更高的建筑。

研究团队还发现了专家特化现象的出现。通过分析专家协作模式，他们发现不同轮次的专家开始承担不同的角色：一些专家擅长问题的初步分析，而另一些专家则专长于精细化处理。这种自发形成的角色分工大大提高了整个系统的效率。

五、技术细节：关键设计选择的影响

为了确保专家链方法的有效性，研究团队在设计中做出了几个关键的技术选择，并通过详细的消融实验验证了这些选择的重要性。

独立路由机制被证明是至关重要的。研究团队比较了使用独立路由和共享路由的效果，发现如果在所有处理步骤中使用相同的专家选择，系统性能会显著下降，验证损失会快速上升到1.5左右，甚至不如传统方法。这个结果强调了动态专家选择的重要性：每个处理步骤都需要根据当前状态重新评估和选择最合适的专家。

残差连接的设计也经过了仔细的考量。研究团队测试了三种不同的残差连接策略：内部残差（在每个处理步骤都添加残差连接）、外部残差（只在最终输出时添加残差连接）和初始残差（每步都连接到最初输入）。实验结果显示，内部残差连接效果最好，损失为1.12；初始残差连接次之，损失为1.18；而外部残差连接效果最差，损失达到1.21。这个发现表明，在每个处理步骤都保持与前一步的连接对于稳定训练过程至关重要。

稀疏性对于专家链方法的有效性也起到了关键作用。研究团队发现，当专家选择保持稀疏（即每次只选择少数专家）时，增加通信步骤能够带来明显的性能提升。但是，当系统变得密集（即每次都激活大部分或全部专家）时，迭代处理的优势就会消失。这个现象的原因在于：稀疏性促进了专家特化，让不同轮次能够专注于不同的处理方面；而在密集设置下，重复处理只是简单地增加了计算深度，却没有引入额外的多样性。

六、扩展性探索：新的AI模型scaling维度

这项研究最激动人心的发现之一是专家链为AI模型扩展提供了一个全新的维度。传统上，研究人员通过增加模型宽度（更多参数）或深度（更多层级）来提升性能，但这两种方法都会显著增加计算成本和内存需求。专家链提供了第三种选择：通过增加专家协作的轮次来提升性能。

研究团队进行了系统性的扩展性比较实验。他们发现，使用2轮专家协作的专家链模型能够匹配使用3倍专家选择宽度的传统模型的性能，同时内存使用量减少了17.6%到42%。这意味着专家链不仅提供了性能改进，还提供了资源效率方面的优势。

在深度比较实验中，4层的专家链模型（使用2轮协作）能够达到12层传统模型的性能水平，同时保持更低的内存占用和相似的训练时间。这种效果就像是用更少的楼层建造出了同样高度的建筑，通过巧妙的内部结构设计实现了空间的最大化利用。

研究团队还探索了进一步增加协作轮次的效果。虽然从1轮增加到2轮带来了明显的改进，但进一步增加到3轮或4轮的收益开始递减，有时甚至会带来训练不稳定性。这个发现提示我们，专家协作的轮次并不是越多越好，存在一个最优的平衡点。

七、专家协作模式：可视化分析的惊人发现

为了深入理解专家链中的协作模式，研究团队进行了详细的可视化分析。他们追踪了每个词汇在不同处理轮次中的专家选择模式，并生成了协作矩阵来展示专家间的交互关系。

这些分析揭示了一些非常有趣的现象。首先，专家配对并不是随机的。某些专家组合出现的频率远高于其他组合，这表明系统自发地发现了有效的专家协作模式。更重要的是，这些协作模式在不同数据集上表现出不同的特征。

在通用语言数据（SlimPajama）上，专家过渡模式相对均匀分布，反映了语言的多样性和复杂性。但在数学推理数据（MetaMathQA）上，协作模式更加集中，这表明数学问题具有更明确的解决路径和逻辑结构。

随着训练的进行，这些协作模式也在不断演化。在SlimPajama数据上，专家过渡逐渐变得更加集中，表明模型在学习过程中识别出了一些持久有效的处理路径。而在MetaMathQA上，模式反而变得更加分散，这可能是因为模型学会了为不同类型的数学问题采用不同的解决策略。

对角线强度分析显示，专家很少对自己之前处理过的词汇进行重复处理，这证实了专家链的"流动性"特征。同时，某些专家更常作为"入口点"处理初始输入，而另一些专家则更常作为"汇聚点"处理精炼后的表示。这种角色分化特别在数学推理任务中明显，表明了任务驱动的专家特化现象。

八、理论基础：组合论和表示能力的提升

研究团队从理论角度分析了专家链优势的根本原因。他们提出了两个核心理论：组合灵活性理论和有效深度理论。

组合灵活性理论指出，传统方法在单次操作中选择2k个专家，可能的组合数为C(n,2k)。而专家链通过两次独立的top-k路由操作，可能的组合数达到C(n,k)?。以n=64、k=4为例，这种变化使可能的专家配对从传统方法的几千种增加到超过400万种，增长了823倍。这种组合爆炸为模型提供了极其丰富的表示能力，能够编码更多样化的专家交互模式。

有效深度理论解释了专家链如何在不增加参数的情况下增加模型的计算深度。由于第一轮专家的输出会影响第二轮的路由决策，系统实际上为每个输入词汇应用了不同的变换序列。这种机制使得词汇可以经历多次精炼过程，或者被不同专家重新审视，从而在稀疏模块化架构内实现了类似深度的精炼效果。

这些理论分析得到了实证研究的支持。最近的分析表明，更深的内部计算路径与改进的推理能力相关，特别是在数学和逻辑推理方面。专家链通过启用逐步专家组合，在保持稀疏性的同时支持了这种类似深度的精炼过程。

九、实际应用前景和局限性

虽然这项研究取得了令人瞩目的成果，但研究团队也坦诚地讨论了当前方法的局限性和未来改进方向。

在实际应用方面，专家链方法面临的主要挑战是顺序处理带来的时间开销。虽然理论上的计算量与传统方法相当，但由于需要依次执行多个处理步骤，实际运行时间可能会有所增加。这就像是虽然总的工作量相同，但串行处理通常比并行处理需要更长时间。

另一个限制是专家链需要从头开始训练，无法直接应用于现有的预训练模型。这意味着想要利用这种技术的研究者和开发者需要重新训练他们的模型，这在资源和时间上都是一个不小的投入。

在模型规模方面，当前的实验主要在相对较小的模型上进行。虽然结果令人鼓舞，但是否能在更大规模的模型上保持同样的优势还需要进一步验证。大规模模型可能面临不同的挑战，如训练稳定性和收敛速度等问题。

研究团队也指出，当前的实现只在单设备环境下进行了测试。在多节点分布式训练环境下，专家链方法可能面临新的技术挑战，特别是在专家调度和通信优化方面。

十、未来发展方向

基于当前的研究成果，团队规划了几个重要的未来研究方向。

首先是规模扩展验证。研究团队计划在更大的模型规模、批次大小和训练步骤上验证专家链的优势是否能够持续。这种验证对于确定方法在实际应用中的可行性至关重要。

其次是领域扩展评估。虽然当前实验主要集中在数学推理领域，但研究团队计划扩展到更广泛的领域，包括语言理解、代码生成等基准测试。这种扩展将帮助确定专家链方法的通用性。

在技术层面，研究团队计划探索更深层次的专家协作。当前实验主要使用两轮协作，但更多轮次的迭代深度效果仍有待探索。同时，他们也在研究如何将专家链与其他先进技术结合，如跨层专家共享等。

另一个重要方向是优化工程实现。研究团队正在探索如何减少顺序处理带来的时间开销，以及如何在分布式环境下高效实现专家链。

说到底，这项研究代表了AI模型设计思路的一个重要转变。传统的"更多就是更好"的scaling哲学正在向"更智能的协作就是更好"的方向演进。专家链方法证明了通过巧妙的架构设计，我们可以在不显著增加计算成本的情况下获得更好的性能。

这种方法的核心洞察——让AI系统的不同组件进行有序协作而非简单并行处理——可能会启发更多类似的创新。正如现实世界中最好的解决方案往往来自团队协作而非个人努力，AI系统也可能通过更好的内部协作机制实现质的飞跃。

对于普通人来说，这项研究意味着未来的AI系统可能会变得更加智能和高效，能够以更低的成本提供更好的服务。无论是语言翻译、文档写作还是问题解答，这些应用都可能因为专家链技术的普及而变得更加精准和可靠。

这项研究也提醒我们，在AI快速发展的时代，创新往往来自于对现有方法的深入思考和巧妙改进，而不仅仅是简单的资源堆砌。正如研究团队所证明的，有时候改变工作方式比增加工作资源更加有效。

对于想要深入了解这项研究的读者，完整的论文和代码已经在GitHub上开源（https://github.com/ZihanWang314/coe），这为学术界和工业界的进一步研究和应用提供了宝贵的资源。

Q&A

Q1：专家链(CoE)是什么？它和传统AI模型有什么不同？ A：专家链是一种新的AI模型架构，让模型内部的"专家"像接力赛一样依次工作，而不是像传统方法那样同时并行工作。这种方式让后面的专家能够看到前面专家的工作成果，就像医疗团队中诊断专家先检查病人，然后治疗专家根据诊断结果制定方案一样，实现了更智能的协作。

Q2：专家链会不会让AI运行变慢？ A：理论上计算量相同，但实际运行时间可能略有增加，因为需要按顺序处理而不是并行处理。不过研究显示这种时间成本是值得的，因为能获得更好的性能和更低的内存使用（减少17.6%-42%），就像虽然串行处理需要更多时间，但能用更少资源达到更好效果。

Q3：普通用户能用到专家链技术吗？有什么实际好处？ A：目前专家链还处于研究阶段，需要从头训练模型，普通用户暂时无法直接使用。但未来如果这项技术被广泛应用，用户可能会体验到更智能、更准确的AI服务，特别是在需要复杂推理的任务上，比如数学解题、逻辑分析等方面，AI会变得更可靠。

混合专家模型专家链架构AI模型优化

分享至