这项由蚂蚁集团、中国人民大学以及西湖大学联合完成的研究发表于2025年8月,题为《MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs》。有兴趣深入了解技术细节的读者可以通过arXiv平台(arXiv:2508.05257v1)获取完整论文。这项研究解决了当前AI领域一个非常现实的问题:如何让体积庞大的人工智能模型变得更轻便,同时保持其强大的能力。
近年来,人工智能模型变得越来越庞大,有些模型甚至拥有万亿级别的参数。这些超大模型虽然能力惊人,但部署和使用时面临着巨大的挑战——它们需要消耗大量的计算资源和存储空间。就好比一座功能齐全的豪华酒店,虽然设施完备服务周到,但维护成本极高,普通企业很难负担得起。研究团队提出的MoBE(Mixture-of-Basis-Experts)技术,就像是一位巧妙的建筑师,能够在保持酒店所有核心功能的同时,大幅减少建筑面积和维护成本。
这项研究的核心创新在于重新设计了AI模型内部的"专家系统"架构。传统的混合专家模型就像一个拥有数百位专业顾问的咨询公司,每位顾问都有自己完整的知识库和工作流程。虽然这样能处理各种复杂问题,但需要为每位顾问配备完整的办公设施和资料库,成本自然居高不下。MoBE技术的巧妙之处在于,它发现这些专家顾问的很多知识是重叠的,于是创建了一个共享的"基础知识库",让所有专家都能访问这些共同的基础知识,而每位专家只需要保留自己独特的专业技能部分。
一、传统专家系统的困境与挑战
在理解MoBE技术的革命性之前,我们需要先了解传统AI专家系统面临的困境。当前最先进的AI模型,比如DeepSeek-V3(拥有6710亿参数)和Kimi-K2-Instruct(参数量达到万亿级别),都采用了混合专家(MoE)架构。这种架构可以想象成一个超大型的专业咨询集团,集团内部有成百上千位不同领域的专家,每当遇到问题时,系统会智能地选择最合适的几位专家来协作解决。
这种设计的优势显而易见:不同的专家擅长处理不同类型的问题,数学专家负责计算推理,语言专家负责文本理解,逻辑专家负责因果分析等等。当用户提出问题时,系统只需要激活相关的几位专家,而不是让所有专家都参与工作,这样既保证了答案的专业性,又提高了处理效率。
然而,这种架构也带来了严重的资源消耗问题。每位专家都需要配备完整的"知识库"——在技术层面,这些知识库体现为巨大的参数矩阵。以Kimi-K2-Instruct为例,即便是最先进的8块H100 GPU集群(价值数百万人民币),也难以流畅运行这样的模型。这就好比一家咨询公司虽然业务能力超强,但租金、工资、设备维护等成本过高,导致大多数客户都用不起它的服务。
更具体地说,这些模型在实际部署时面临两大挑战。第一个挑战是存储空间的巨大需求:万亿参数的模型需要几TB的存储空间,相当于数千台普通笔记本电脑的硬盘容量。第二个挑战是运行时的内存消耗:即使只激活其中一小部分专家,整个模型的所有参数都必须加载到内存中待命,这就像是为了让几位顾问工作,却必须为整个咨询集团的所有员工都准备办公室一样。
研究团队通过深入分析发现,现有的模型压缩方法主要分为两大类。第一类是"专家裁剪法",就像是直接辞退一些顾问来降低成本。这种方法虽然能立竿见影地减少资源消耗,但往往会永久性地失去某些专业能力,导致模型在特定任务上的表现显著下降。第二类是"知识分解法",通过数学方法将每个专家的知识库进行简化压缩。现有的两种主要方法D2-MoE和MoLAE都属于这一类,但它们在压缩过程中往往会丢失重要信息,导致7%-14%的性能损失。
二、MoBE技术的核心创新理念
MoBE技术的突破性创新来自于一个深刻的洞察:不同专家之间存在大量的共同基础知识,这些重叠的部分可以被巧妙地提取出来形成共享的"基础知识库"。这个想法就像发现了一个咨询集团中,法律顾问、财务顾问、管理顾问虽然专业领域不同,但他们都需要掌握基本的商业常识、沟通技巧和分析方法。与其让每个顾问都单独学习和存储这些基础知识,不如建立一个共享的基础培训中心和参考资料库。
MoBE技术通过数学分解的方式,将每个专家的完整知识库分解为两个部分:一个是该专家独有的"个性化变换矩阵"(相当于专家的独特技能),另一个是由多个"基础矩阵"线性组合而成的共享知识部分。这种分解就像是把每个专家的工作流程拆分为两个阶段:首先访问共享的基础知识库获取相关信息,然后运用自己独特的专业技能对这些信息进行个性化处理。
这种设计的巧妙之处在于,基础知识库是所有专家共同使用的,因此只需要存储一份,而不是像传统方法那样每个专家都存储一份完整的知识库。假设一个AI模型有128位专家,传统方法需要为每位专家都配备完整的知识存储空间,而MoBE技术可能只需要16个基础知识模块,所有专家都从这16个模块中按不同比例提取知识。这样一来,存储需求大幅减少,但每个专家依然能够访问到丰富的知识内容。
研究团队在设计MoBE技术时,还特别考虑了一个重要的数学细节:如何让专家在组合基础知识时具有足够的灵活性。他们引入了非线性激活函数,这就像给每个专家配备了一台"智能处理器",能够对从基础知识库中提取的信息进行复杂的加工和变换。经过大量实验验证,他们发现SiLU和Tanh这两种激活函数效果最佳,而常用的ReLU函数反而会导致信息损失。
另一个值得注意的技术创新是"Z-score标准化"处理。研究团队发现,不同专家的知识库中数值范围差异很大,这会影响基础知识提取的稳定性。因此,他们采用了统计学中的标准化方法,将所有专家的知识数值调整到相同的分布范围内,就像是把不同专家使用的度量单位统一起来,确保信息交流的准确性。
三、MoBE技术的工作机制详解
MoBE技术的工作流程可以比作一个高效的图书馆系统。传统的专家模型就像每个研究员都拥有自己的私人图书馆,虽然功能完备,但造成了大量的重复购书和空间浪费。MoBE系统则建立了一个中央图书馆,存放所有的基础参考书籍,每个研究员只需要保留自己专业领域的特殊资料和个人笔记。
当系统接收到一个问题时,相关的专家会首先访问中央基础知识库,从中提取需要的信息。这个过程通过数学上的"线性组合"来实现:每个专家都有自己独特的"提取配方",决定从不同基础知识模块中提取多少信息。比如处理数学问题的专家可能从逻辑推理模块中提取80%的信息,从符号处理模块中提取60%的信息,从语言理解模块中提取20%的信息。不同专家的提取配方不同,确保了它们的专业特色。
提取到基础信息后,每个专家会运用自己独有的"变换矩阵"对这些信息进行个性化处理。这个变换矩阵就像是专家的个人工作方式和思维模式,决定了如何将基础信息转化为专业的解答。比如同样的基础逻辑信息,数学专家会将其转化为公式推导,而语言专家会将其转化为语义分析。
研究团队通过精心设计的优化算法来学习这些基础知识模块和个人变换矩阵。这个学习过程就像是在已有的专家团队基础上,逐步建立共享的知识库系统。算法会分析每个专家的工作模式,找出它们之间的共同点,将这些共同点抽象成基础知识模块。同时,算法也会确保每个专家保持自己的专业特色,通过调整个人变换矩阵来补偿共享化过程中可能丢失的独特信息。
整个优化过程采用了梯度下降算法,这是一种类似于"试错学习"的方法。系统会不断尝试不同的知识模块组合方式,观察压缩后的模型与原始模型在处理相同问题时的差异,然后调整参数以最小化这种差异。这个过程就像是一个学徒在观察大师的工作方式,通过不断模仿和调整来达到相似的工作效果。
值得特别提及的是,MoBE技术在处理不同类型的专家知识时采用了差异化策略。研究发现,专家系统中的"上投影矩阵"和"门控矩阵"更适合进行共享化处理,而"下投影矩阵"由于存储了关键的专业知识,应该保持独立。这就像在图书馆改革中,基础参考资料和工具书可以共享,但每个研究员的核心研究资料和个人心得笔记应该保持私有。
四、实验验证与性能表现
研究团队在六个不同规模的AI模型上验证了MoBE技术的效果,这些模型的参数规模从几十亿到万亿不等,涵盖了当前主流的AI系统。实验设计就像是一次全面的"瘦身效果测试":既要检验模型在压缩后是否真的变得更轻便,也要确保它们在各种任务上的表现不会显著下降。
在模型压缩效果方面,MoBE技术展现出了令人印象深刻的成果。以万亿参数的Kimi-K2-Instruct模型为例,MoBE技术成功将其参数量减少了24%,相当于减掉了2400亿个参数。这种压缩幅度就像是把一栋50层的摩天大楼成功压缩到38层,同时保持所有重要功能完好无损。更重要的是,压缩后的模型在综合性能测试中仅下降了约2%,远低于其他压缩方法7%-14%的性能损失。
为了全面评估模型的能力保持情况,研究团队设计了覆盖15个不同领域的综合测试套件。这些测试就像是对AI模型进行的"全科体检",包括常识推理、数学计算、代码编程、语言理解等多个维度。在数学推理方面,压缩后的模型在GSM8k测试中保持了96%以上的准确率;在代码生成方面,HumanEval测试显示模型能力几乎没有损失;在语言理解任务上,MMLU测试结果表明模型的知识回答能力依然强劲。
特别值得关注的是,MoBE技术在处理不同复杂度任务时表现出了良好的稳定性。无论是相对简单的常识问答,还是需要复杂推理的数学证明题,压缩后的模型都能保持与原始模型相似的表现水平。这种一致性表明,MoBE技术在提取共享知识时并没有偏向某些特定类型的任务,而是保持了良好的通用性。
研究团队还特别分析了模型压缩过程中的"重构误差",这个指标反映了压缩后的专家知识与原始知识的相似程度。结果显示,MoBE技术的重构误差比现有最好的方法降低了50%以上。这就像是在照片压缩中,MoBE技术能够保留更多的原始细节,避免了传统压缩方法可能造成的"失真"现象。
在不同规模模型的实验中,研究团队发现了一个有趣的规律:模型规模越大,MoBE技术的相对优势越明显。对于参数量在万亿级别的超大模型,MoBE技术的性能优势特别突出,这表明这项技术特别适合处理当前和未来的超大规模AI系统。
五、技术优化与实用化考量
在将MoBE技术从理论构想转化为实用系统的过程中,研究团队遇到了许多工程实践中的挑战,并通过巧妙的技术优化逐一解决。这个过程就像是将一个完美的建筑设计图纸转化为真正可居住的房屋,需要考虑诸多现实约束和使用需求。
首先是激活参数数量的平衡问题。虽然MoBE技术大幅减少了模型的总参数量,但在实际运行时,由于需要同时访问基础知识库和个人变换矩阵,激活的参数数量可能会有所增加。这就像是虽然图书馆的总藏书量减少了,但读者在查阅资料时需要同时翻看基础参考书和专业资料。为了解决这个问题,研究团队提出了MoBE+变体技术,通过适度减少同时工作的专家数量来控制激活参数的规模。实验表明,将激活专家数量从8个减少到6个,对模型性能的影响微乎其微,却能显著降低运行时的内存需求。
在激活函数的选择上,研究团队进行了深入的对比实验。他们发现传统的ReLU函数在这个应用场景中表现不佳,原因是它会造成过度的稀疏化,导致重要信息丢失。相比之下,SiLU和Tanh函数能够保持信息的丰富性,同时提供足够的非线性变换能力。这个发现就像是在烹饪中发现某些调料搭配虽然常见,但在特定菜品中效果并不理想,需要根据具体情况选择最合适的搭配方案。
数据预处理方面的创新也值得关注。研究团队发现,不同专家的知识表示在数值分布上存在较大差异,这会影响基础知识提取的稳定性。他们采用了Z-score标准化技术,将所有专家的知识表示调整到相同的数值范围内。更巧妙的是,他们发现大多数AI模型中专家知识的均值接近于零,这意味着在实际部署时可以省略均值调整步骤,进一步简化了计算流程。
在处理超大规模模型时,研究团队还开发了分组优化策略。对于拥有数百个专家的层级,同时优化所有专家的知识分解在计算上是不现实的。他们将专家分成若干个小组,每组独立进行优化,然后通过精心设计的协调机制确保不同组之间的一致性。这种策略就像是在管理大型企业时,将员工分成不同部门分别管理,但通过统一的企业文化和制度确保整体协调。
研究团队还考虑了不同压缩比例下的性能权衡。他们发现,当基础知识模块的数量设置为专家总数的1/4到1/8时,能够达到最佳的压缩效果与性能保持的平衡。这个比例就像是在团队重组中,保留核心骨干员工的同时最大化资源利用效率。
六、技术影响与未来展望
MoBE技术的成功不仅仅是一次技术突破,更代表了AI模型优化领域的一个重要转折点。这项技术的意义就像是在汽车工业中发明了涡轮增压技术:在不增加发动机体积的前提下大幅提升了动力输出,改变了整个行业的发展方向。
从经济角度来看,MoBE技术显著降低了部署大型AI模型的门槛。原本需要价值数百万元的GPU集群才能运行的万亿参数模型,现在可能只需要几十万元的硬件配置就能流畅运行。这种成本降低将使更多的企业和研究机构能够使用最先进的AI技术,就像智能手机的普及让先进的计算技术走进了千家万户。
在技术生态方面,MoBE技术为AI模型的边缘部署开辟了新的可能性。压缩后的模型不仅能在云端服务器上高效运行,还有望部署到本地服务器甚至高性能个人设备上。这意味着用户可以拥有真正私密的AI助手,数据处理完全在本地完成,无需担心隐私泄露问题。
研究团队在论文中也坦诚地指出了当前技术的局限性。首要的挑战是压缩过程中仍然存在的轻微性能损失,虽然相比其他方法已经大幅改善,但距离"零损失压缩"的理想目标还有距离。研究团队建议可以通过知识蒸馏技术来进一步缓解这个问题,即让压缩后的模型向原始模型学习,补偿丢失的细节信息。
另一个技术挑战是计算效率的优化。当前的MoBE实现需要多次调用现有的计算核心,这在一定程度上增加了计算开销。研究团队指出,开发专门针对MoBE架构的计算核心将是未来工作的重要方向,这将进一步提升压缩后模型的运行效率。
从更宏观的角度来看,MoBE技术体现了AI发展的一个重要趋势:从单纯追求模型规模扩大转向追求效率与性能的最优平衡。这种转变就像是建筑设计从追求高度转向追求宜居性和可持续性,标志着AI技术正在走向更加成熟和实用的发展阶段。
研究团队已经将MoBE技术的代码开源,这将加速该技术在学术界和工业界的应用推广。开源决策体现了研究者推动整个AI领域共同进步的愿景,也为其他研究团队在此基础上进行进一步创新提供了基础。
展望未来,MoBE技术还有许多扩展应用的可能性。研究团队提到,该技术的核心思想不仅适用于混合专家模型,还可能推广到其他类型的大规模神经网络架构中。此外,结合硬件加速技术的发展,MoBE压缩后的模型有望在移动设备和嵌入式系统中实现更广泛的应用。
这项研究的成功也为AI democratization(AI民主化)目标的实现提供了重要支撑。当强大的AI能力不再被高昂的硬件成本所束缚时,更多的创新者和创业者将能够基于这些技术开发出惠及社会的应用,真正实现AI技术的普惠价值。
说到底,MoBE技术的核心价值在于它证明了"瘦身"和"强大"并不矛盾。通过巧妙的架构设计和数学优化,我们可以让AI模型变得更加高效和实用,而不必牺牲其核心能力。这个发现不仅对当前的AI应用具有立竿见影的价值,更为未来AI技术的可持续发展指明了方向。正如研究团队在论文中所展现的,科学研究的魅力在于通过深入的理论分析和严谨的实验验证,找到看似不可能的解决方案,推动整个领域向前发展。对于那些希望深入了解技术细节的读者,完整的研究论文和开源代码将是宝贵的学习资源。
Q&A
Q1:MoBE技术是什么?它与传统AI模型压缩方法有什么不同?
A:MoBE是蚂蚁集团等机构开发的AI模型压缩技术,全称"混合基础专家"。它的核心创新是将AI模型中不同专家的知识分解为共享的基础知识库和独特的个人技能两部分,而不是像传统方法那样直接删除专家或简单压缩知识。这种方法能够在压缩30%参数的同时,性能损失控制在2%以内,远优于其他方法7%-14%的性能损失。
Q2:MoBE技术压缩后的AI模型在实际应用中表现如何?
A:经过MoBE技术压缩的AI模型在15个不同领域的测试中表现优异。以万亿参数的Kimi-K2-Instruct为例,压缩24%参数后,在数学推理、代码生成、语言理解等任务上的准确率都保持在96%以上。更重要的是,原本需要数百万元GPU集群才能运行的超大模型,现在可能只需要几十万元的硬件就能流畅运行。
Q3:普通用户什么时候能用上MoBE技术压缩的AI模型?
A:研究团队已经将MoBE技术开源,这将加速其在AI产品中的应用。由于该技术显著降低了部署成本,预计很快就会有基于MoBE技术的AI产品面市。这意味着用户将能够以更低的成本使用更强大的AI服务,甚至可能在本地设备上运行原本只能在云端使用的高级AI功能。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。