微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 WINA:微软推出权重感知神经元激活技术,让大语言模型推理速度提升60%以上

WINA:微软推出权重感知神经元激活技术,让大语言模型推理速度提升60%以上

2025-05-29 15:53
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 15:53 科技行者

当我们谈论人工智能大语言模型(如ChatGPT)时,往往聚焦于它们能做什么,却很少关注这些技术奇迹背后的运行成本。来自微软、人民大学、纽约大学和华南理工大学的研究团队在2025年5月26日发布的一项新研究中,提出了一个名为"WINA"(Weight Informed Neuron Activation)的创新方法,这项技术可以显著加速大语言模型的推理过程,同时保持模型性能几乎不变。该研究论文已发表在arXiv预印本平台(arXiv:2505.19427v1),其源代码也已在GitHub上公开(https://github.com/microsoft/wina)。

想象一下,如果大语言模型是一座巨大的图书馆,传统方法是每次查询都需要检索整个图书馆的每一本书。而像MoE(Mixture-of-Experts)这样的技术则类似于雇佣专家馆员,他们知道哪些书架与你的问题最相关。但问题是,培训这些"专家馆员"需要大量时间和资源。WINA则提供了一种不需要额外培训的方法,它就像一个聪明的图书管理系统,可以立即判断哪些书架(神经元)对回答当前问题最重要,而暂时忽略其他不太相关的书架,从而大大提高检索效率。

当今大型语言模型规模庞大,计算需求惊人,特别是在推理阶段,控制计算成本同时保持输出质量成为关键挑战。虽然已有一些方法,如专家混合(MoE)架构和模型蒸馏等技术,可以减少推理时的计算量,但它们通常需要大量的训练或再训练。相比之下,无训练稀疏激活方法则更具广泛适用性,因为它们可以即插即用,无需额外训练即可应用于现成的模型。

然而,现有的无训练方法如TEAL和CATS仅依靠隐藏状态的大小来决定激活,导致高估计误差和次优推理准确性。正如研究的第一作者、人民大学的陈思汉和微软的陈天毅(共同第一作者)所指出的,这些方法忽略了权重矩阵在误差传播中的影响,未能考虑输入元素与权重矩阵在前向传播过程中的交互如何影响模型输出。

WINA的核心创新在于同时考虑隐藏状态大小和权重矩阵的列式l2范数。这听起来很专业,但可以简单理解为:WINA不仅看神经元当前的"活跃度"有多高,还考虑每个神经元对下游层影响的"重要性权重"。这就像在决定去听哪场讲座时,不仅考虑讲座的热度,还要考虑讲者的专业水平和影响力。

这种方法创建了一个稀疏激活框架,允许模型在推理时仅激活最具影响力的神经元,从而构建一个能保持原始模型表达能力的稀疏子网络。理论分析表明,在温和假设下(如权重的列式正交性和单调激活函数),WINA的输出误差期望值低于其他可比方法,这一保证可扩展到多层架构。

研究团队在多个流行的大语言模型上评估了WINA,包括Qwen-2.5(7B参数)、LLaMA系列(7B和8B)以及Phi-4(14B)。实验显示,WINA在相同稀疏度水平下比最先进的无训练方法(如TEAL)的平均性能高出最多2.94%,同时减少了高达60-65%的计算量。

一、权重感知激活:WINA如何工作?

想象你是一位电影导演,需要从一个大型演员阵容中选择合适的演员出演一场特定的戏。传统方法(如TEAL)只关注演员的个人能力(隐藏状态大小),但WINA不仅考虑演员的能力,还考虑这场戏在整部电影中的重要性(权重矩阵的影响)。

WINA的工作原理可以分为几个关键步骤。首先,对于每一层神经网络,它会计算输入张量(即隐藏状态)的大小,这类似于测量每个演员的个人表演能力。接着,它计算相关权重矩阵的列式l2范数,这相当于评估每个角色对整部电影的重要性。然后,WINA将这两个因素结合起来(通过元素乘积),找出影响最大的输入维度,即那些既有高激活强度又有高权重重要性的神经元。

在数学上,WINA构建二进制激活门,通过选择特定标准的前K个组件:如果|xici|在|x⊙c|中是前K个值之一,则mi=1,否则mi=0。这里,c∈R?表示W的列式l2范数,⊙表示Hadamard或元素乘积。K的选择可以灵活调整,从粗粒度的通用标准(所有层共享同一个K)到细粒度的层特定策略(为每层单独分配K以更好地最小化近似误差)。

这种方法的优势在于,它不仅考虑了神经元的当前激活状态,还考虑了每个神经元对网络整体输出的潜在贡献。这就像在组建一个高效团队时,不仅看个人能力,还要看每个人如何与团队互补并对最终目标做出贡献。

二、理论基础:为什么WINA比其他方法更优?

为了理解WINA的理论优势,让我们想象一个简单的类比。假设你正在整理一个大型书架,但只有有限的时间,因此需要决定保留哪些书籍。传统方法可能只考虑书的受欢迎程度(隐藏状态大小),而WINA同时考虑书的受欢迎程度和它在整个藏书系统中的独特价值(权重矩阵的影响)。

研究团队证明,在单层网络的情况下,WINA的激活策略可以获得比TEAL更紧的近似误差界。具体来说,当权重矩阵W满足列式正交性(即W^TW=I,其中I是单位矩阵)时,WINA保留具有最大|xj·‖W·,j‖2|值的k个元素,其期望输出误差小于或等于TEAL(保留具有最大|xj|值的k个元素)的误差。

这一理论结果可以扩展到具有L个线性层的网络。研究表明,如果网络中存在一个子集S?{1,...,N},使得每个矩阵W^(l)(l∈S)是列式正交的,那么WINA的期望偏差仍小于TEAL的偏差。

更重要的是,这些结果对于配备各种激活函数的真实深度神经网络仍然有效,只要这些函数满足单调递增特性(如ReLU及其变体、sigmoid和softmax等)。这一事实确保了WINA在各种深度神经网络架构中的广泛适用性。

为了弥合理论和实践之间的差距,研究团队还提出了一个张量变换框架,在不改变模型输出的情况下,强制相关权重矩阵满足列正交性。具体地,他们通过奇异值分解(SVD)对权重矩阵W进行变换,使得变换后的矩阵满足列正交性条件。然后,他们通过计算不变性来补偿这种变换的影响,确保模型的最终输出保持不变。

三、实验结果:WINA在现实中的表现如何?

想象你正在比较不同的交通路线,希望找到一条既快速又安全的路线。类似地,研究团队在多个主流大语言模型上评估了WINA,以测试它在现实世界中的性能和效率。

实验设置非常全面。研究团队使用了四个不同的模型:Qwen-2.5-7B、Llama-2-7B、Llama-3-8B和Phi-4-14B,覆盖了从7B到14B参数的模型范围。他们使用Alpaca数据集(包含52,000条指令和演示)来构建隐藏状态分布并计算每层的阈值。评估则基于广泛的下游任务,包括PIQA、WinoGrande、HellaSwag、Arc Challenge、MMLU和GSM8K,这些任务涵盖了从常识推理到数学问题解决的多种能力。

为了确保公平比较,研究团队采用了基于top-k的门控策略,并引入了一个额外的基线TEAL-Transform,即在变换后的模型上应用TEAL方法。他们还使用TEAL中提出的贪婪算法为每层分配特定的稀疏比率,而不是跨模型使用统一的稀疏度。

结果令人印象深刻。在Qwen-2.5-7B上,WINA在所有稀疏度水平(25%-65%)上始终匹配或优于TEAL和TEAL-transform。随着稀疏度的增加,WINA与基线之间的性能差距变得更加明显。例如,在65%稀疏度下,WINA比TEAL平均高出2.94%,比TEAL-transform高出1.41%。这表明WINA在高稀疏度下更加稳健,可能是因为它能够通过同时考虑隐藏状态大小和权重范数来保留最具影响力的激活。

在Llama-2-7B上,WINA在25%稀疏度下实现了最高的平均准确率,优于基于TEAL的基线甚至全模型。虽然在极端的65%稀疏度下性能自然下降,但WINA仍然提供了最佳准确率,表明其在激进剪枝下的鲁棒性。

对于Llama-3-8B,虽然TEAL在25%稀疏度下略微领先,但WINA在所有剩余稀疏配置中都领先,在50%稀疏度和65%稀疏度下分别领先TEAL +1.06%和+2.41%。值得注意的是,WINA在GSM8K和ARC Challenge等推理密集型任务上保持特别强劲的性能,而其他方法在压缩下显示出显著下降。

在Phi-4-14B上,WINA在所有测试的稀疏度水平上始终匹配或超过TEAL和TEAL-transform的准确性,并在每个稀疏度设置下实现最高的平均分数。在最高65%稀疏度下,WINA比TEAL和TEAL-transform分别提高了+2.01%和+0.86%。它能够在GSM8K和MMLU等复杂基准测试上保持高性能,即使在严格剪枝下也是如此,这凸显了它的稳定性。

除了性能提升外,WINA在所有评估的大语言模型中都实现了显著的计算加速。在65%稀疏度下,WINA将总体FLOP减少了:在Qwen-2.5-7B上减少60.0%,在Llama-2-7B上减少63.7%,在Llama-3-8B上减少60.4%,在Phi-4-14B上减少62.7%。这些浮点运算的一致减少可能转化为更快的推理速度和更低的计算成本,证明WINA作为在紧张资源约束下部署的实用解决方案的有效性。

四、WINA与现有方法的比较:为什么它更胜一筹?

为了理解WINA的独特优势,让我们把不同的稀疏激活方法比作不同的旅行规划策略。传统的稠密模型就像是一次周密计划的旅行,访问所有可能的景点,但耗时且昂贵。MoE等训练型方法则类似于提前聘请当地导游,他们知道哪些景点最值得一看,但培训这些"导游"本身就需要大量资源。

WINA与其他无训练方法(如TEAL和CATS)的关键区别在于如何选择要访问的"景点"(即要激活的神经元)。TEAL仅基于隐藏状态大小(景点的受欢迎度)来决定保留哪些激活,而WINA同时考虑隐藏状态大小和权重矩阵(景点的独特价值和与旅行整体主题的相关性)。

研究团队创建了一个简洁的对比表,突出了WINA相对于TEAL和CATS的三个关键优势:

首先,WINA提供了更紧的近似误差界,这意味着它在稀疏激活过程中能更准确地保持原始模型的输出。其次,WINA具有层通用性,可以应用于网络的所有层,而不仅限于特定类型的层(如CATS主要应用于门控MLP层)。最后,WINA支持异构稀疏性,允许不同层有不同的稀疏度,从而更灵活地分配计算资源。

这些优势的实际意义是显著的。在高稀疏度(如65%)下,WINA比TEAL在Qwen-2.5-7B上平均高出2.94%,在Llama-3-8B上高出2.41%,在Phi-4-14B上高出2.01%。这些改进不仅仅是百分点的小幅提升,而是在保持模型功能性的同时,显著降低了计算需求,对于部署在资源受限环境中的大型语言模型特别重要。

五、从理论到实践:如何将WINA应用于真实世界?

将WINA从理论转化为实际应用需要解决一个关键挑战:现实中的大语言模型往往不满足列式正交性条件,这是WINA理论分析的基础假设。

为了弥合这一差距,研究团队提出了一个张量变换框架,强制相关权重矩阵满足列正交性,同时保持模型的最终输出不变。具体来说,他们对权重矩阵W进行奇异值分解(SVD):W = UΣV^T,其中U和V是正交矩阵,Σ是包含W奇异值的对角矩阵。

为了实现列正交性,他们设置Q = V并将W变换为:W = WV。这种变换保证了结果矩阵W'满足列正交性:(W)^TW = Σ^TU^TUΣ = Σ^2。

为确保模型在这种变换后的最终输出保持不变,研究团队使用了计算不变性;具体来说,他们通过SVD变换对自注意力层中的键投影矩阵Wk和MLP层中的门投影矩阵Wgate实施列式正交性约束。然后,他们将这些变换传播到相邻层,并相应地调整残差连接,以保持计算不变性。

在推理过程中,他们对这些变换后的列正交矩阵应用所提出的激活标准,同时对剩余矩阵使用传统的基于输入的激活标准,就像在稀疏建模中通常做的那样。

这种从理论到实践的桥接方法确保了WINA不仅在理论上是合理的,而且在现实世界的大语言模型上也是有效的,即使这些模型的原始权重矩阵可能不满足理论假设。

六、总结与展望:WINA对大型语言模型的未来意味着什么?

WINA代表了训练无关稀疏激活领域的重要进步,为在推理阶段加速大型语言模型提供了一种新的方法。通过同时考虑隐藏状态大小和权重矩阵的列式l2范数,WINA创建了一个能更准确捕捉每个激活对下游层影响的稀疏化策略。

这种方法在理论上是有根据的,提供了比现有技术更紧的近似误差界。这些理论保证在实践中得到了验证,WINA在多种大型语言模型架构和基准测试中的表现优于TEAL等最先进的方法,在相同稀疏度水平下平均性能提高了最多2.94%。

这些发现的实际意义是显著的。通过减少高达65%的计算量,同时保持相对较高的性能,WINA为在资源受限或延迟敏感环境中部署大型语言模型开辟了新的可能性。这可能意味着更快的响应时间、更低的能耗和更广泛的大型语言模型应用。

然而,尽管WINA取得了令人印象深刻的成果,研究团队承认仍有改进的空间。未来的研究可以探索更先进的权重正交化技术、开发适应性稀疏度策略,或将WINA与其他模型压缩方法(如量化或蒸馏)结合起来,进一步提高推理效率。

归根结底,WINA代表了一种实用且高效的方法,可以在不损失太多性能的情况下加速大型语言模型推理。随着这些模型继续增长并渗透到更多领域,像WINA这样的创新将变得越来越重要,确保AI系统既强大又高效。

对于希望进一步了解WINA的读者,研究团队已在GitHub(https://github.com/microsoft/wina)上发布了源代码,而完整论文可在arXiv(arXiv:2505.19427v1)上获取。随着大型语言模型继续发展,WINA可能会成为使这些强大系统更加高效和可访问的重要工具。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-