微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

华为发布Pangu Pro MoE：全球首个72B参数稀疏语言模型，专为昇腾NPU优化设计

混合专家模型稀疏计算昇腾NPU

华为发布Pangu Pro MoE：全球首个72B参数稀疏语言模型，专为昇腾NPU优化设计

作者：科技行者

2025-07-02 09:08

分享至：

华为昇腾团队发布了Pangu Pro MoE，这是全球首个采用混合分组专家（MoGE）架构的72B参数稀疏语言模型。该模型专为昇腾NPU优化设计，通过创新的专家分组策略解决了传统MoE模型的负载不均衡问题，实现了完美的计算负载分配。模型仅激活16B参数处理每个token，在推理效率上显著超越同规模密集模型，为大规模AI应用提供了高效解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-02 09:08 • 科技行者

这项由华为昇腾团队开发的突破性研究于2025年5月发表在arXiv平台上，有兴趣深入了解的读者可以通过arXiv:2505.21411v2访问完整论文。

站在人工智能发展的十字路口，我们见证了大语言模型规模的惊人增长。然而，随着模型变得越来越庞大，一个关键问题日益突出：如何在保持强大性能的同时，避免计算资源的浪费？华为昇腾团队提出的Pangu Pro MoE就像是为这个难题量身定制的解决方案。

传统的大语言模型就像一个巨大的工厂，无论生产什么产品，都要启动全部生产线。而MoE（混合专家）模型则更像一个智能工厂，根据不同的任务只启动相关的生产线。虽然这种设计听起来很聪明，但在实际运行中却面临一个棘手问题：有些生产线总是忙得不可开交，而有些却经常闲置，导致整个工厂效率低下。

华为研究团队敏锐地观察到，现有MoE模型在分布式部署时存在严重的负载不均衡问题。当模型的不同专家分布在多个计算设备上时，某些设备会因为承担过多计算任务而成为瓶颈，就像高速公路上的拥堵路段一样，拖慢了整个系统的运行速度。

为了解决这个问题，研究团队提出了一种全新的架构——混合分组专家（MoGE）。这种设计就像将所有专家重新组织成若干个均衡的工作小组，确保每个设备都分配到相同数量的活跃专家。通过这种巧妙的设计，Pangu Pro MoE天生就具备了完美的负载均衡能力。

更令人印象深刻的是，这个拥有720亿参数的庞然大物，在处理每个输入时只需要激活其中的160亿参数。这就好比一个拥有72个部门的超级公司，但每次只需要16个部门协同工作就能完成任务，大大提高了运营效率。

研究团队还针对华为自主研发的昇腾NPU进行了深度优化。他们不仅重新设计了并行策略和通信机制，还开发了专门的计算核心，包括MulAttention和SwiftGMM，这些就像为昇腾NPU量身定制的高性能引擎。

在13万亿个训练数据的滋养下，Pangu Pro MoE在多个基准测试中展现出了卓越的性能。更重要的是，在推理阶段，它在昇腾800I A2上达到了每卡1148个token/秒的惊人速度，通过投机解码技术甚至可以提升到1528个token/秒。这样的表现不仅超越了同等规模的密集模型，还证明了稀疏模型与专用硬件深度融合的巨大潜力。

一、创新架构：混合分组专家的智慧设计

传统MoE模型面临的负载均衡问题，就像一个繁忙餐厅里的服务员分配难题。假设餐厅有8个服务员分布在4个区域，每个区域2人。当客人点餐时，系统会选择最合适的服务员来服务。然而问题是，某些明星服务员总是被频繁选中，他们所在的区域变得异常忙碌，而其他区域的服务员却相对清闲。这种不均衡导致整个餐厅的服务效率下降，客人等待时间延长。

华为研究团队深入分析了这个问题的根源。他们发现，在传统的Top-K路由机制中，模型会简单地选择得分最高的K个专家，完全不考虑这些专家在不同设备上的分布情况。这就像顾客总是选择同一批明星服务员，导致服务分配极不均匀。

为了量化这种不均衡程度，研究团队引入了"不均衡分数"这一概念。这个分数衡量的是在一批处理任务中，最忙设备和最闲设备之间的工作量差异。分数越高，说明不均衡越严重。通过蒙特卡洛模拟，他们发现传统MoE模型的不均衡分数几乎总是大于零，意味着负载不均衡几乎是不可避免的。

面对这个挑战，MoGE架构提出了一个优雅的解决方案。它将所有专家按照设备分布重新组织成若干个组，每个组对应一个计算设备。当处理输入时，系统不再全局选择最优专家，而是在每个组内选择固定数量的专家。这就像重新制定餐厅服务规则：无论客人有什么需求，每个区域都必须派出相同数量的服务员，确保工作量的完美平衡。

具体而言，MoGE将N个专家均匀分成M个组，每组包含N/M个专家。对于每个输入token，系统会从每个组中选择K'=K/M个专家。这种设计天然保证了每个设备承担相同的计算负载，不均衡分数永远为零。

实现这种均衡的关键在于改进的路由机制。传统方法直接对所有专家的得分进行全局Top-K选择，而MoGE首先计算所有专家的全局softmax得分，然后在每个组内进行局部Top-K'选择。这种方法既保持了专家选择的质量，又确保了负载的均衡分布。

研究团队还设计了辅助的负载均衡损失函数，用于训练过程中的进一步优化。这个损失函数鼓励模型在专家使用上保持均衡，就像给餐厅经理提供一个实时的工作量监控系统，帮助优化长期的服务分配策略。

通过大量的模拟实验，研究团队验证了MoGE架构的有效性。结果显示，相比传统MoE模型经常出现的严重负载不均衡，MoGE能够实现完美的负载平衡，大大提高了分布式部署的效率。

二、硬件协同设计：为昇腾NPU量身定制

Pangu Pro MoE的另一个重要创新在于与华为昇腾NPU的深度协同设计。这种协同就像为一位钢琴家量身定制一架钢琴，不仅要考虑演奏者的手型和习惯，还要优化每一个细节以发挥最佳性能。

研究团队首先通过系统仿真确定了最优的模型配置。他们测试了多种参数组合，包括隐藏维度（4096-8192）、查询头数（32-64）、键值头数（8-16）、层数（40-64）和专家数量（32-64）。这个过程就像为不同的演出场地调试音响设备，需要在多个参数之间找到最佳平衡点。

最终确定的配置包括5120的隐藏维度、48层网络结构、64个路由专家和4个共享专家。这种配置在昇腾300I Duo和800I A2平台上都能实现最优性能。隐藏维度的选择特别关键，因为它直接影响通信效率。更大的隐藏维度意味着每次通信传输更多数据，而更多的层数则增加通信频率。研究团队通过考虑系统的静态通信延迟和可用带宽，找到了这两个因素的最佳权衡。

在训练系统优化方面，团队采用了精心调优的并行策略。他们使用张量并行（TP）=8、专家并行（EP）=2、流水线并行（PP）=5、虚拟流水线并行（VPP）=5的配置。这种配置就像为一个大型管弦乐队安排座位，每个声部的位置都经过精心设计，以实现最佳的协调效果。

相比之前的配置，新的EP大小从8减少到2，显著降低了专家间的通信量。同时，由于模型规模的减小，训练过程中的激活内存需求大幅下降，使得系统可以在不使用复杂内存优化策略的情况下稳定训练，进一步提升了训练速度。

推理系统的优化更是体现了硬件协同设计的精髓。研究团队提出了分层混合并行（H?P）策略，针对模型的不同部分采用不同的并行方法。对于注意力模块，使用DP2+TP4的混合策略，将请求按批次维度分组，平衡CPU域之间的计算负载。对于专家模块，采用TP2+EP4的组合，既保持了计算效率，又实现了负载均衡。

通信策略的优化同样令人瞩目。团队将传统的AllReduce操作替换为Reduce-Scatter操作，将通信数据量减少了50%。他们还巧妙地重新安排了通信操作的时序，使得RMSNorm计算可以并行执行，进一步减少了75%的计算负载。

三、推理性能优化：速度与效率的双重突破

在推理性能优化方面，Pangu Pro MoE展现了多层次的创新思维。整个优化过程就像为一辆赛车进行全方位改装，从引擎到轮胎，从空气动力学到燃油系统，每个细节都经过精心调优。

量化压缩技术是性能优化的重要组成部分。研究团队针对MoE模型的特殊需求，开发了专家感知的量化方法。传统的量化方法在处理MoE模型时面临三大挑战：激活值异常值的专家特异性分布、路由机制对量化误差的敏感性，以及稀疏激活导致的校准瓶颈。

为了解决这些问题，团队提出了专家感知的平滑聚合策略。这种方法就像为不同类型的乐器设计专门的调音方法，通过构建统一的通道级平滑向量，重新分配异常值的幅度，同时保持数学等价性。他们还引入了路由logits分布对齐技术，通过双目标校准过程确保量化后的专家选择稳定性。

核心算子融合是另一个重要的优化方向。研究团队开发了两个关键的融合算子：MulAttention和SwiftGMM，专门针对昇腾硬件架构进行了优化。

MulAttention算子主要解决了注意力计算中的内存访问瓶颈。随着并发级别的提高和序列长度的扩展，键值缓存的内存占用呈线性增长，导致注意力操作延迟占总推理时间的30%-50%。分析显示，键值向量数据传输占注意力计算时间的约70%。

为了优化这个瓶颈，MulAttention采用了大包键值传输策略，利用MTE2传输单元将键值向量块加载到向量计算单元的统一缓冲区中，同时执行NZ布局转置。更重要的是，团队设计了双循环流水线和乒乓调度器，将具有不同计算模式的操作分离到不同的循环中，消除了键、softmax和值计算交错执行导致的流水线气泡。这种优化使得MTE2流水线利用率超过89%，实现了4.5倍的端到端注意力加速。

SwiftGMM算子专门优化了高并发场景下的群组矩阵乘法操作。在高并发情况下，GroupMatmul操作占端到端延迟的50%以上，动态工作负载进一步加剧了保持计算效率的挑战。SwiftGMM引入了针对动态工作负载的分块缓存策略，利用历史分析数据预测最优分块参数，减少了负载不均衡导致的频繁重计算开销。

算子还动态选择GEMV和GEMM执行模式，根据工作负载强度最大化计算吞吐量。通过充分利用昇腾300I Duo NPU的大L1缓存，SwiftGMM能够在单次传输中加载整个矩阵，大幅减少冗余内存传输。双缓冲机制的实现使得数据移动与计算重叠，将MTE2流水线利用率提升到95%，使算子性能接近权重数据传输带宽限制的理论上界。

预填充和解码阶段的分析也展现了模型设计的深思熟虑。在计算密集的预填充阶段，每个token只激活Top-8专家，有效将模型规模降低到等效16B密集模型的水平。这种稀疏激活机制显著降低了计算成本和通信开销。采用最小卡部署策略可以进一步提升预填充阶段的计算效率。

在内存密集的解码阶段，Pangu Pro MoE在小批次规模下保持了几十毫秒内的低延迟。对于64等大批次规模，模型通过维度压缩和深度缩减与稀疏专家激活范式的协同作用，有效降低了KV缓存内存占用和节点间通信开销，缓解了计算瓶颈，在100毫秒延迟约束内实现了显著更高的输出吞吐量。

四、训练策略与数据处理：构建高质量语言模型的基石

Pangu Pro MoE的训练过程就像培养一位博学的学者，需要经历从广泛学习到专业深化，再到精细调优的完整历程。整个训练策略体现了认知发展的渐进性和系统性。

预训练阶段采用了130万亿token的高质量多样化语料库，这个规模相当于让模型阅读了人类历史上绝大部分的文字记录。训练数据涵盖了网页内容、书籍、多语言资料、代码、STEM学科、工业领域、推理和合成数据等多个来源。这种多样性确保了模型具备广泛的知识基础和强大的泛化能力。

训练过程被精心设计为三个递进阶段，每个阶段都有明确的学习目标。第一个通用阶段（9.6万亿token）主要发展模型的基础知识和语言能力，就像学生的基础教育阶段，需要掌握各个学科的基本概念。这个阶段使用4K序列长度进行训练，特别强调了多个工业领域的高质量数据。

第二个推理阶段（3万亿token）专门针对模型的推理能力进行强化训练。这个阶段大幅增加了STEM、编程和内部数据等复杂内容的比例，就像进入专业深造阶段，需要掌握更高层次的思维能力。研究团队特别注重推理数据的数量和质量，通过优化数据清洗、数据生成和数据评估流水线，为困难样本设计了合成的短链和长链思维链。为了更好地适应长思维链响应，这个阶段使用32K序列长度进行训练。

第三个退火阶段（0.4万亿token）主要用于预训练到后训练的过渡，指令式数据增加到约20%。这个阶段优先使用质量和难度分数极高的数据，遵循基于课程的采样策略。团队还有意增加了高级STEM教育数据的比例，达到语料库的18%。

数据评估系统体现了精细化管理的理念。研究团队使用领域感知的基于模型的评估方法，针对不同领域微调了多个昇腾系列模型作为评估器。这种方法比使用单一统一评估器产生更好的评估性能。所有数据样本都通过这个评估系统，在清洁度、流畅性、教育价值和丰富性等多个维度获得评分，这些评分用于数据选择和采样策略。

后训练对齐阶段同样体现了精心的设计。监督微调数据被分为推理和非推理两个子集，采样比例为3:1，向推理任务倾斜。推理样本主要包括数学问题解决、代码生成和逻辑推理等任务，而非推理样本则专注于通用语言指令遵循、问答、文本生成、长上下文理解、语义分类和工具使用。

强化学习阶段采用了群组相对策略优化（GRPO）算法，并引入了创新的"零优势掩码"机制。当给定提示的所有响应都收到相同奖励时，归一化优势变为零，可能导致GRPO目标退化为简单的行为克隆损失。零优势掩码机制通过将优势为零的样本的损失贡献置零，确保策略更新仅由展现明确学习信号的有效数据驱动。

多源奖励系统的设计特别值得关注。系统包括正确性奖励、偏好奖励和辅助奖励三个模块。正确性奖励针对具有可验证真实答案的任务，数学问题通过规则验证器和LLM验证器的混合系统评估，代码响应经历提取、语法验证、在线解释器执行和测试用例比较的多阶段评估。偏好奖励针对没有真实答案的开放域任务，使用另一个LLM作为评判者模拟人类偏好。辅助奖励包括格式验证器和轻量级重复惩罚等组件。

五、性能评估与对比：全方位验证模型能力

Pangu Pro MoE的性能评估就像对一位全才学者进行全面考核，不仅要测试其在各个专业领域的知识水平，还要验证其实际应用能力和效率表现。

在预训练模型的评估中，研究团队构建了覆盖英语、中文和推理三大核心领域的综合评估套件。英语能力测试包括通用推理（Big-Bench-Hard、MMLU、MMLU-Pro）、阅读理解（DROP、RACE-M/H）和常识推理（HellaSwag、PIQA、WinoGrande）等多个维度。中文能力测试涵盖了通用知识（C-Eval、CMMLU）、阅读理解（CMRC、C3）和文化语境（CCPM、CLUEWSC）等方面。推理能力测试则专注于复杂推理任务，包括代码生成（HumanEval）和数学问题解决（GSM8K、MATH、MGSM、CMath）。

评估结果显示，Pangu Pro MoE在多个关键基准测试中取得了领先性能。特别是在MMLU和HellaSwag等英语基准测试中建立了新的性能标准，同时在大多数中文评估任务（C-Eval、C3、CCPM）中占据主导地位。数学推理能力通过GSM8K基准测试得到验证，进一步确认了模型的跨领域能力。

与同期基础模型的对比分析更加突出了Pangu Pro MoE的优势。相比Qwen3-32B-base、GLM4-32B-base、Gemma3-27B-base和Llama-4-Scout-base等模型，Pangu Pro MoE在激活参数数量更少的情况下，实现了持续的性能优势。这种效率优势特别体现在计算资源利用率上，展现了MoGE架构和稀疏激活机制的有效性。

指令模型的评估结果同样令人印象深刻。在英语推理任务中，特别是MMLU-PRO基准测试上，Pangu Pro MoE显著超越了主流密集模型和MoE模型。在DROP阅读理解任务中获得91.2分的成绩，几乎与Qwen3-32B的91.3分持平，证明了其在复杂英语语境下的语义理解能力达到了领先水平。

中文评估同样表现出色，在C-Eval上获得91.1分，超过了Qwen3-32B的89.2分。在中文常识推理方面，CLUEWSC测试中取得94.7分，比Gemma3-27B高出3.4分，与Qwen3-32B的94.6分相当，验证了模型在中文语义理解和常识推理方面的强大能力。

推理能力的评估结果特别突出了模型的逻辑思维能力。在代码生成方面，MBPP+测试达到80.2分，与Qwen3-32B的82.0分相当。数学推理方面，MATH-500测试获得96.8分，超过了Qwen3-32B的96.6分，CNMO2024测试达到70.8分，与Qwen3-32B的70.4分相当。特别值得注意的是，在SuperGPQA测试中获得54.8分，显著超越了GLM-Z1-32B的52.6分等密集模型。

推理效率的测试结果展现了硬件协同优化的巨大价值。在昇腾800I A2平台上，预填充阶段的表现格外突出。批次大小为2、序列长度为2K的配置下，模型达到了每卡4828 token/秒的平均输入吞吐量，相比72B密集模型和32B密集模型分别实现了203%和42%的性能提升。

解码阶段的性能同样令人瞩目。在低并发场景下，批次大小为1、序列长度为2K的配置实现了超低延迟，而在高并发场景下，数百个批次规模在100毫秒延迟约束内达到每卡1148 token/秒的平均输出吞吐量，相比72B密集模型和32B密集模型分别提升了97%和18%。通过多token预测解码和相关优化，模型的输出吞吐量可以进一步提升到每卡1528 token/秒。

昇腾300I Duo平台的测试结果展现了出色的成本效益比。预填充阶段使用两张昇腾300I Duo加速卡，批次大小为2的配置下，72BA16B MoE在2K长度输入序列上实现1.94秒延迟，每卡输入吞吐量达到1055 token/秒。解码阶段使用四张昇腾300I Duo加速卡的分层混合并行部署，在低并发场景下实现约50毫秒的延迟，在批次大小为80的高并发设置下保持每卡201 token/秒的吞吐量，延迟为99.5毫秒。通过多token预测解码和相关优化的加速，模型输出吞吐量可以提升到321 token/秒。

六、专家特性分析：深入理解模型内部机制

对Pangu Pro MoE内部专家特性的分析就像解剖一个复杂的生态系统，需要观察不同物种（专家）之间的分工协作和相互关系。这种分析不仅验证了MoGE架构的有效性，还揭示了模型学习和决策的内在规律。

领域专业化分析展现了专家分工的精妙之处。研究团队选择了C-Eval、MMLU、GSM8K和HumanEval四个代表性数据集，分别对应中文语言能力、英文语言能力、数学推理和编程能力。通过分析三个代表性层次（浅层、中层、深层，即第0层、第23层和第47层）的token到专家分配模式，发现了令人着迷的专业化模式。

在浅层（第0层），专家表现出高度均匀的激活模式，就像新入职的员工，大家的工作分配相对平均。然而随着网络深度的增加，专家展现出越来越强的专业化特征。深层专家比中层专家表现出更高的专业化程度，而中层专家又超过浅层专家。这种渐进的专业化趋势表明，专家分工随着网络深度而加强，这与深度神经网络从一般特征到特定特征的学习模式完全吻合。

更有趣的是，不同类型任务展现出不同的专家激活分布特征。对于主要评估一般语言理解的任务（如C-Eval和MMLU），专家激活分布趋向于在专家集合中更加平衡。相比之下，对于推理密集型任务（如GSM8K和HumanEval），专家激活表现出更高的专业化程度，表明更加选择性和任务特定的路由行为。这种差异化的专业化模式证明了Pangu Pro MoE已经发展出实质性的任务特定专家分化，增强了模型的表征能力。

专家协同激活分析揭示了专家之间的协作模式。通过可视化专家协同激活矩阵，研究团队发现了几个重要规律。首先，同组内专家之间的协同激活分数沿对角线的空白区域表明组内专家之间不存在协同激活。这种稀疏性直接源于群组路由策略，该策略在组级别强制实现互斥的专家选择，从而促进模块化并减少学习表征中的潜在重叠。

其次，来自不同组的专家之间的协同激活分数在所有层次中都保持一致的低水平，表明组间交互最小。这一观察支持了模型实现低专家冗余度和鼓励专业化的假设，不同专家负责表征学习的不同方面。

特别有趣的是，协同激活分数在不同层次呈现出非均匀趋势：浅层和深层的协同激活分数相对于中层略有升高。这种模式可能反映了模型在早期阶段特征提取期间受益于更广泛的专家协作（学习通用模式），在后期阶段集成期间也需要专家协作（将多样化信号结合用于复杂的任务特定预测）。相比之下，中层可能优先进行更细粒度的孤立处理，导致更大的专业化和减少的专家间依赖。

组内专家分布分析验证了MoGE架构的均衡性设计。通过可视化前四个组在三个代表性层次中的专家激活频率，研究发现组内专家之间的token分布大致均匀，每个专家接收接近12.5%的token，这与8个专家组中top-1激活的理论平均值一致。这种观察证实了MoGE架构不仅在组间实现负载均衡，在组内也保持了平衡的专家利用，使其本质上有利于均衡的专家利用。

值得注意的是，在更深的层次中观察到了与完美均匀性的轻微偏差，token分配变得稍微倾斜。这种趋势与专家路由在更大模型深度处观察到的增强专业化一致，表明更深的层次可能自适应地调节专家使用以捕获更多任务特定或抽象表征。

全局专家分布的对比分析进一步突出了Pangu Pro MoE的优势。与DeepSeek-V2的对比显示了显著差异。DeepSeek-V2表现出明显的不平衡，最重负载的专家处理多达30%的总token。相比之下，Pangu Pro MoE在专家间展现出几乎均匀的分布，每个专家处理大约12.5%的token，与理论理想值密切一致。

这种平衡的激活模式反映了对专家容量的更有效利用，可能有助于增强训练稳定性和泛化能力。这种对比突出了在实现大规模MoE模型中高效和可扩展性能时负载均衡的重要性。

通过这些深入的专家特性分析，我们可以看到Pangu Pro MoE不仅在架构设计上具有创新性，在实际运行中也表现出了理想的专家分工和协作模式。这种内在的均衡性和专业化为模型的优异性能提供了坚实的理论基础。

七、技术创新与工程实现：从理论到实践的完美转化

Pangu Pro MoE的成功不仅体现在理论创新上，更在于其出色的工程实现能力。整个项目就像建造一座精密的现代化工厂，需要将先进的设计理念转化为高效运行的实际系统。

训练系统的优化展现了工程技术的精湛水平。相比基础配置，优化后的训练系统在模型FLOPs利用率（MFU）方面实现了35%的相对提升。这种改进主要来自于三个方面的优化：精细化的分层专家全通信、自适应流水线重叠机制以及融合操作符。

分层专家全通信优化重新设计了通信模式，减少了通信数据量。传统的专家并行通信往往存在大量冗余，就像在多个部门之间传递文件时，每次都要复制全部内容。优化后的方案只传递必要的信息，大大提高了通信效率。

自适应流水线重叠机制则通过更精细的操作调度和更有效的重叠策略，最大化了计算与通信的并行度。这就像在装配线上重新安排工序，让每个环节都能充分利用时间，避免出现闲置等待的情况。

训练并行策略的选择体现了对系统特性的深度理解。张量并行（TP）=8、专家并行（EP）=2的配置专门针对分层专家全通信方案进行了优化。相比之前的配置，EP规模减少到2，在内存容量允许的情况下最小化了专家通信量。流水线并行和虚拟流水线并行的5×5配置确保了跨设备的平衡计算和通信开销，提升了训练过程的整体可扩展性和吞吐量。

内存优化策略的简化是另一个重要改进。由于Pangu Pro MoE规模的减小以及PP-VPP配置的调整，预热阶段累积的激活内存显著减少。这种内存需求的降低使得系统能够在不依赖之前所需的细粒度重计算和张量交换策略的情况下稳定训练，进一步通过消除冗余开销加速了训练过程。

推理系统的优化同样展现了工程实现的精妙之处。量化压缩技术针对MoE模型的特殊挑战进行了专门设计。专家感知的量化方法解决了三个关键问题：专家特异性的激活异常值分布、路由机制对量化扰动的敏感性，以及稀疏激活导致的校准瓶颈。

KV缓存的量化和稀疏化技术进一步优化了推理效率。KVTuner算法通过硬件友好的混精度量化，为粗粒度KV缓存段导出Pareto最优的逐层量化配置。这种方法的适应性确保了在MoGE架构中的有效KV缓存压缩，通过解决逐层敏感性和动态token-专家交互来实现。

算子级别的优化展现了对硬件特性的深度挖掘。MulAttention和SwiftGMM两个关键融合算子都是专门为昇腾硬件架构定制的。MulAttention通过大包KV传输策略和双循环流水线设计，将注意力操作的延迟降低了4.5倍。SwiftGMM通过分块缓存策略和双缓冲机制，使得GroupMatmul操作的MTE2利用率达到95%，性能接近理论上界。

这些技术创新的成功实现，不仅验证了理论设计的正确性，更展现了华为研究团队在系统工程方面的深厚功底。每一个优化都经过了精心的设计和严格的验证，确保了从实验室到生产环境的平滑过渡。

说到底，Pangu Pro MoE的成功为人工智能领域带来了多重启示。从技术角度看，MoGE架构证明了通过巧妙的设计可以同时实现性能提升和效率优化。这种思路不仅适用于语言模型，对其他需要分布式部署的大规模模型同样具有借鉴价值。

从工程角度看，硬件协同设计的重要性得到了充分验证。在算力日益成为AI发展瓶颈的今天，如何充分发挥硬件潜力变得越来越关键。Pangu Pro MoE与昇腾NPU的深度融合，为其他AI硬件和软件的协同发展提供了优秀范例。

从生态角度看，这项研究展现了自主创新的巨大潜力。在全球AI竞争日趋激烈的背景下，拥有从硬件到软件的完整技术栈，不仅能够实现更好的性能优化，更能够确保技术发展的自主可控。

当然，这项研究也面临一些挑战和限制。MoGE架构虽然解决了负载均衡问题，但在某些特定任务上可能会限制专家选择的灵活性。如何在保持负载均衡的同时进一步提升专家选择的质量，仍然是值得探索的方向。另外，当前的实验主要在昇腾NPU上进行，在其他硬件平台上的表现还需要进一步验证。

展望未来，Pangu Pro MoE的成功为大规模稀疏模型的发展指明了新的方向。随着计算需求的不断增长和硬件技术的持续演进，类似的硬件协同设计思路有望在更多场景中发挥作用。同时，MoGE架构的理念也可能启发更多创新的专家组织和路由方法，推动整个领域的持续发展。

这项研究的另一个重要意义在于，它为中文AI技术的发展注入了新的活力。在英文主导的AI研究环境中，Pangu Pro MoE在中文任务上的出色表现，证明了针对特定语言和文化背景进行优化的重要性。这不仅有助于提升中文AI应用的质量，更为其他非英语语言的AI发展提供了有益参考。

华为昇腾团队的这项工作，不仅是技术层面的突破，更是对AI民主化的重要贡献。通过开源代码和详细的技术文档，研究团队为整个社区提供了宝贵的资源。这种开放的态度有助于推动整个行业的共同进步，让更多的研究者和开发者能够站在巨人的肩膀上继续创新。

有兴趣深入了解技术细节的读者，可以访问团队提供的开源代码库（https://gitcode.com/ascend-tribe/pangu-pro-moe）获取完整的实现代码，或者查阅原始论文（arXiv:2505.21411v2）了解更多理论细节。

Q&A

Q1：什么是MoGE架构？它和传统MoE有什么区别？ A：MoGE是混合分组专家架构，它将所有专家分成若干组，每个组分配到一个计算设备上。与传统MoE随意选择专家不同，MoGE强制从每个组中选择相同数量的专家，就像餐厅规定每个区域必须派出相同数量的服务员一样，天然实现了完美的负载均衡。

Q2：Pangu Pro MoE的推理速度为什么这么快？ A：主要有三个原因：首先，稀疏激活机制让720亿参数的模型每次只需激活160亿参数；其次，专门为昇腾NPU开发的MulAttention和SwiftGMM算子大幅提升了计算效率；最后，精心设计的并行策略和通信优化减少了设备间的数据传输开销。

Q3：这个模型在实际应用中有什么优势？ A：Pangu Pro MoE在保持大模型能力的同时大幅降低了推理成本。在昇腾800I A2上每卡可达1148 token/秒的吞吐量，在昇腾300I Duo上实现了优秀的成本效益比。对于需要大规模部署AI服务的企业来说，这意味着用更少的硬件资源就能提供更好的服务。

混合专家模型稀疏计算昇腾NPU

分享至