微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

深度学习模型的"层层叠叠"困境：马克斯·普朗克研究所如何用"稀疏性"破解大语言模型的深度诅咒

深度学习稀疏性优化大语言模型

深度学习模型的"层层叠叠"困境：马克斯·普朗克研究所如何用"稀疏性"破解大语言模型的深度诅咒

作者：科技行者

2026-03-24 22:57

分享至：

这项研究发现大语言模型存在"深度诅咒"现象：层数增加时深层变得低效。研究团队证明稀疏性可作为解决方案，通过控制方差传播改善层利用率。他们识别出隐性稀疏性（权重衰减、长序列训练产生）和显性稀疏性（混合专家模型、群组查询注意力等架构设计）两类机制。实验显示，合理组合稀疏性策略可让32层模型性能比16层基线提升4.6%，为高效深度模型设计提供新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-24 22:57 • 科技行者

这项由马克斯·普朗克智能系统研究所联合多家欧洲知名机构开展的研究发表于2026年3月17日，论文编号为arXiv:2603.15389v1，研究团队来自德国、瑞士等国的顶尖科研院所。研究团队发现了一个困扰当代人工智能领域的重要问题，并提出了令人耳目一新的解决方案。

如果把大语言模型比作一座摩天大楼，那么每一层就像是大楼的一个楼层，理论上楼层越多，功能应该越强大。但研究团队发现了一个奇怪的现象：当这座"AI大楼"建得越来越高时，上面的楼层反而变得无所事事，就像顶层的办公室虽然装修豪华，却没人在里面工作一样。这种现象被研究者称为"深度诅咒"。

更让人困惑的是，这些"闲置楼层"并非完全没用，而是因为信息在层层传递过程中发生了某种"失真"，导致深层的处理单元接收到的信号越来越模糊，最终只能进行简单的重复工作。研究团队通过大量实验发现，当模型从12层增加到32层时，虽然总参数增加了2.56倍，但实际有效工作的层数只是略有增加，大部分新增的层都处于"摸鱼"状态。

这项研究的突破性贡献在于首次系统地证明了"稀疏性"可以作为解决这一问题的关键。稀疏性听起来很抽象，但可以理解为一种"精简主义"的工作方式。就像一个高效的办公室不需要每个员工都参与每一项工作，而是让合适的人做合适的事，AI模型也不需要所有的连接都同时激活。

研究团队发现了两种类型的稀疏性。第一种是"隐性稀疏性"，这就像员工在工作过程中自然形成的分工合作。当AI模型接受训练时，一些连接会因为重要性较低而逐渐减弱，另一些连接则因为处理长文本而自然地专注于特定区域。第二种是"显性稀疏性"，这更像是事先设计好的组织架构，比如让多个查询头共享同一套键值对，或者让专家系统中的不同专家分工处理不同类型的问题。

研究团队通过精心设计的实验验证了他们的理论。他们训练了不同深度的模型，并采用三种创新的评估方法来衡量每一层的实际贡献。因果评分测量的是移除某一层对后续层的影响程度，就像测试拔掉大楼中某一层的电源会影响多少上层办公室的工作。排列评分则检验层与层之间是否可以互换位置，这类似于测试不同楼层的员工是否可以随意调换而不影响整体效果。有用性评分则直接评估每一层对最终结果的实际贡献，就像统计每个楼层为公司业绩贡献了多少价值。

实验结果令人印象深刻。在没有应用稀疏性技术的情况下，32层模型的有用性评分从12层模型的0.75下降到0.53，意味着接近一半的层都在做无效工作。但当研究团队巧妙地引入各种稀疏性机制后，情况发生了根本性改变。

**一、深度诅咒的真相：为什么AI模型越深越"笨"**

深度诅咒这个现象最初让研究团队感到困惑。按照常理，就像建筑工程师为大楼增加更多楼层来容纳更多功能一样，AI研究者也一直认为增加模型层数应该能提升性能。然而现实却给了他们一记重击。

研究团队通过严格控制的实验揭示了这个问题的根源。他们发现，当信息在模型层间传递时，会发生一种类似"传话游戏"的现象。你可能玩过这样的游戏：一句话从第一个人开始，逐个传递给下一个人，等传到最后一个人时，原本的意思已经面目全非。在AI模型中，这种信息失真表现为方差的不断累积。

方差可以理解为信息的"噪音"或"不确定性"。当一个信号从第一层传递到第二层时，会带上一些微小的随机波动。这些波动在浅层模型中影响不大，但当层数增加时，这些微小的波动会像雪球一样越滚越大。研究团队通过数学分析证明，在广泛使用的Pre-LN（前置层归一化）架构中，输出方差会随着深度呈亚指数级增长。

当方差累积到一定程度时，残差流的幅度会远远超过单个层提供的更新幅度。这就像一条奔腾的大河，支流汇入的水量相比于主河道的水流显得微不足道。在这种情况下，深层的处理单元发现自己的贡献几乎可以忽略不计，它们的雅可比矩阵（描述输入输出关系的数学工具）会逐渐逼近单位矩阵，意味着这些层基本上在进行恒等映射，也就是简单的"复制粘贴"工作。

研究团队通过可视化展示了这一现象。他们绘制的雅可比矩阵图像显示，随着深度增加，矩阵变得越来越接近对角线形式，非对角元素逐渐消失。这种模式清晰地表明，深层确实在向恒等映射收敛，证实了理论预测。

更有说服力的是层有效性的量化结果。在12层模型中，几乎所有层都能获得较高的有用性评分，表明它们都在为最终结果做出实质性贡献。但随着深度增加，情况急转直下。16层模型中有3层处于低效状态，24层模型中有9层基本无用，而32层模型中竟然有14层在"划水"。这意味着虽然参数数量增加了156%，但有效利用率却在不断下降。

这种现象不仅存在于实验室的理论模型中，在实际的大语言模型中也广泛存在。研究团队指出，许多现有的大型模型都存在不同程度的层冗余问题，这不仅浪费了宝贵的计算资源，也限制了模型性能的进一步提升。

**二、稀疏性的神奇力量：如何让AI模型"轻装上阵"**

面对深度诅咒这个难题，研究团队提出了一个巧妙的解决方案：稀疏性。这个概念虽然听起来抽象，但其本质非常直观。稀疏性就像是给过度繁忙的系统做减法，让它专注于真正重要的工作。

研究团队首先从理论角度证明了稀疏性如何能够控制方差传播。他们建立的数学模型显示，在残差递归系统中，方差的增长率直接依赖于稀疏性参数。具体来说，如果用ρ来表示mask的密度（有效连接的比例），那么每层的方差增长因子大约是(1+√αρ)?的形式。这意味着ρ越小（即稀疏性越高），方差增长就越慢，深度诅咒的影响就越轻微。

这个发现具有深远的意义。它表明稀疏性不仅仅是为了提高计算效率而采用的工程技巧，更是一种能够从根本上改善深层模型表达能力的机制。通过适当的稀疏化，可以让深层网络摆脱方差累积的困扰，重新发挥每一层应有的作用。

研究团队将稀疏性分为两大类别，每一类都有其独特的作用机制和应用场景。

隐性稀疏性是在训练过程中自然涌现的稀疏模式。最典型的例子是权重衰减（weight decay）的作用。权重衰减是一种广泛使用的正则化技术，它会在训练过程中逐渐减小参数的大小。研究团队发现，这种技术不仅能防止过拟合，还能诱导产生稀疏性。当权重衰减强度适中时，那些对模型性能贡献较小的连接会被逐渐"淘汰"，形成自然的稀疏结构。

实验数据显示了权重衰减的显著效果。当衰减系数从0增加到0.1时，模型的最后一层方差明显下降，同时有用性评分从0.75提升到0.81。这种改善并非偶然，而是稀疏性发挥作用的直接体现。有趣的是，过度的权重衰减也会带来问题。当衰减系数增加到3.0时，虽然方差进一步下降，但模型性能却急剧恶化，困惑度飙升到773，这提醒我们任何优化技术都需要适度使用。

另一种重要的隐性稀疏性来源于序列长度的扩展。当模型处理更长的文本序列时，注意力机制会自然地变得更加稀疏。这是因为注意力权重需要在更多的位置上进行分配，加上位置编码（如RoPE）引入的距离偏好，使得注意力更倾向于关注少数几个关键位置，而不是平均分散到所有位置。

研究团队通过详细的实验验证了这一现象。当训练序列长度从256增加到8192时，注意力稀疏性在各个阈值下都显著提高。更重要的是，这种稀疏性的增加伴随着方差的下降和层有效性的提升。在适中的序列长度范围内（256到2048），模型困惑度从18.51改善到14.51，有用性评分从0.69提升到0.81。

**三、显性稀疏性的精妙设计：让AI模型学会"分工合作"**

相比于隐性稀疏性的自然涌现，显性稀疏性更像是经过精心设计的系统架构。研究团队重点研究了两种最具代表性的显性稀疏性机制：群组查询注意力（GQA）和混合专家模型（MoE）。

群组查询注意力是一种巧妙的资源共享策略。在传统的多头注意力机制中，每个注意力头都拥有独立的查询、键和值投影。这就像一个公司里每个部门都配备完整的行政、财务和人事团队。GQA则提出了一种更经济的方案：让多个查询头共享同一套键值投影，这相当于让多个部门共享行政和后勤服务，而保持各自的核心业务团队。

这种设计不仅减少了计算开销，还带来了意想不到的方差控制效果。研究团队的理论分析表明，在均匀注意力假设下，GQA的输出可以看作是对多个头输出的平均，而平均操作天然具有降低方差的效果。如果单头的方差是σ?/n，那么G个头的平均输出方差就会降低为σ?/(Gn)，实现了1/G的方差缩减。

实验结果证实了这一理论预测。当研究团队比较不同群组配置的1.2B参数模型时，发现MQA（G=16）相比于MHA（G=1）在等计算量训练下不仅方差降低了2倍，性能也有所提升。困惑度从14.52改善到14.47，有用性评分从0.81提升到0.87。这些改善看似微小，但在大规模模型中，即使是微小的提升也意味着巨大的实用价值。

混合专家模型代表了另一种显性稀疏性的实现方式。如果说GQA是资源共享，那么MoE就是专业分工。在MoE架构中，原本单一的前馈网络被替换为多个专门的"专家"网络，每次处理时只激活其中的一小部分（通常是k个）。这就像一个医院，虽然有心脏科、神经科、骨科等各种专家，但每个病人只需要看相关的专科医生。

MoE的稀疏性效果更加显著。研究团队测试了两种不同规模的MoE配置：2B参数的模型激活400M参数，7B参数的模型激活1B参数。在这两种配置下，MoE都表现出了明显的方差控制能力。2B配置下，MoE相比同等激活参数的密集模型方差降低了约6倍，7B配置下方差降低了约3倍。

更令人印象深刻的是MoE在性能上的提升。2B MoE的困惑度比400M密集模型低了1.67个点，有用性评分从0.87提升到0.94。7B MoE的表现更加出色，困惑度比1B密集模型低了0.70个点，有用性评分同样达到0.94。这些结果表明，MoE不仅通过稀疏激活实现了计算效率的提升，还通过更好的层利用率获得了性能优势。

**四、稀疏性的统一作用机制：方差控制的数学美学**

尽管隐性和显性稀疏性在实现方式上截然不同，但研究团队发现它们都遵循着同一个基本原理：通过限制有效连接密度来控制方差传播。这种统一性不仅在理论上优雅，在实践中也具有重要指导意义。

研究团队通过跨越多种稀疏性类型的大规模实验验证了这一统一机制。无论是通过权重衰减诱导的参数稀疏性，还是通过长序列训练产生的注意力稀疏性，或是通过架构设计实现的结构稀疏性，都表现出了相似的效果模式：稀疏性增加导致方差降低，进而改善层有效性。

这种一致性并非巧合，而是源于稀疏性的本质作用机制。在数学上，稀疏性可以理解为对信息传播路径的选择性约束。当连接密度降低时，每一层接收到的输入信号的有效维度也相应减少，这自然地降低了随机波动的累积效应。用通俗的话说，就是通过减少"八卦传播"的路径，降低了信息失真的可能性。

研究团队还发现了稀疏性效果的非线性特征。适度的稀疏性能带来显著的改善，但过度稀疏化却可能损害模型性能。这种非线性关系在所有测试的稀疏性类型中都有体现，表明稀疏性优化需要精心的平衡。就像烹饪时调味一样，适量的盐能提升食物的味道，但过量的盐却会让食物变得难以下咽。

**五、实践突破：如何训练真正高效的深度模型**

基于对稀疏性机制的深入理解，研究团队提出了一套实用的深度模型训练策略。这套策略的核心思想是通过组合不同类型的稀疏性机制，实现协同优化的效果。

研究团队设计了一个循序渐进的实验来验证这种组合策略的有效性。他们从一个16层的1.2B参数基线模型开始，逐步增加到32层，同时引入各种稀疏性机制。这个过程就像给一座原本运转良好的工厂进行扩建，需要确保每个新增的生产线都能有效运作。

实验的第一步是验证问题的存在。当模型从16层直接扩展到32层而不采用任何优化措施时，平均准确率从40.1%下降到39.5%，有用性评分从0.75暴跌到0.53。这种性能下降清楚地证实了深度诅咒的存在，也为后续的优化提供了改善空间。

接下来，研究团队开始引入隐性稀疏性机制。首先测试的是序列长度的影响。当将训练序列长度从1024扩展到4096时，模型性能恢复到40.0%，有用性评分提升到0.59。进一步扩展到8192长度时，由于过度稀疏化，性能出现了轻微下降，但仍然优于朴素的32层基线。

权重衰减的效果同样显著。当将衰减系数设置为0.3时，准确率达到41.4%，有用性评分提升到0.63，相比朴素基线有了明显改善。但当衰减强度增加到0.6时，虽然稀疏性进一步增加，但性能开始下降，再次验证了适度原则的重要性。

最令人兴奋的结果来自显性稀疏性机制的应用。当引入群组查询注意力（G=2）时，模型性能达到了42.1%，超过了原始16层基线。而混合专家模型的效果更加惊人，最终配置实现了44.1%的准确率，相比16层基线提升了4个百分点，有用性评分也回到了0.75的水平。

这些结果证明了稀疏性组合策略的有效性。通过合理搭配不同类型的稀疏性机制，不仅可以克服深度诅咒的负面影响，还能充分发挥深度模型的潜力。最终的32层模型在保持更好层利用率的同时，实现了显著的性能提升。

**六、理论验证与实验设计的严谨性**

研究团队的工作不仅在实践上取得了突破，在理论验证和实验设计方面也展现了极高的严谨性。他们开发了一套全面的评估体系，从多个角度验证稀疏性对深度模型的影响。

为了确保实验结果的可靠性，研究团队采用了严格的控制变量方法。在深度对比实验中，除了层数之外的所有超参数都保持一致，包括学习率调度、优化器设置、训练数据等。这种设计确保了观察到的性能差异确实来自于深度变化，而不是其他因素的干扰。

层有效性的评估采用了三个互补的指标。因果评分通过测量移除某一层对后续层表示的影响来评估层间依赖关系。排列评分通过交换不同层的位置来测试层的可替代性，评分越低说明层间差异越小，即冗余越严重。有用性评分则直接测量每一层对最终性能的贡献，通过线性近似替换来评估非线性变换的必要性。

这三个指标相互验证，共同描绘了层有效性的完整图景。在所有的稀疏性实验中，这三个指标都表现出一致的变化趋势：稀疏性增加时，因果评分和有用性评分提升，排列评分降低（意味着层间差异化增加）。这种一致性为稀疏性的有效性提供了强有力的证据。

研究团队还通过雅可比矩阵分析提供了深度诅咒的直观证据。他们可视化了不同深度模型中各层的雅可比矩阵，清晰地展示了随着深度增加，矩阵逐渐向对角形式收敛的过程。这种可视化不仅证实了理论预测，也为理解深度诅咒的机制提供了直观的工具。

方差轨迹的追踪是另一个重要的验证手段。研究团队监控了训练过程中每一层输出方差的演化过程，发现方差确实随着深度呈现累积增长的趋势。更重要的是，当引入稀疏性机制后，这种增长趋势得到了有效控制，证实了稀疏性的方差调节作用。

**七、广泛影响与未来方向**

这项研究的影响远远超出了技术层面的改进，它为整个深度学习领域提供了新的思考范式。传统上，研究者往往将稀疏性视为一种工程优化手段，主要目的是提高计算效率。但这项工作表明，稀疏性实际上具有更深层的理论意义，它是改善深层模型表达能力的根本机制。

这种认知转变具有重要的实践指导价值。在设计大规模语言模型时，研究者不应该单纯追求参数数量的增加或网络深度的扩展，而应该更加重视稀疏性机制的合理配置。这可能导致未来的模型架构朝着更加精细化、专业化的方向发展。

研究团队的发现也为现有的一些经验做法提供了理论解释。例如，为什么Mixture of Experts模型在大规模应用中表现出色，为什么长序列训练往往能改善模型性能，为什么适当的正则化对深度模型如此重要。这些经验现在有了统一的理论基础：稀疏性调节的方差控制机制。

从计算资源的角度来看，这项研究也具有重要的经济意义。通过更有效的深度利用，可以在不增加计算开销的情况下获得更好的性能，或者在保持性能的前提下减少计算需求。考虑到大规模模型训练的巨额成本，这种效率提升的价值不可小觑。

研究团队在论文中也诚实地指出了当前工作的一些局限性。理论分析中的一些假设条件在实际应用中可能不完全成立，例如权重与稀疏性模式的独立性假设。此外，不同稀疏性机制之间的相互作用还需要更深入的研究，以优化组合策略的设计。

未来的研究方向包括探索新的稀疏性诱导机制，开发更精细的稀疏性控制方法，以及将这些发现应用到其他类型的深度模型中。研究团队特别提到了对快捷连接路径的方差控制需求，这可能成为进一步改善深度模型的关键突破点。

说到底，这项研究揭示了一个重要的道理：在人工智能的发展中，更大不一定更好，更深不一定更强。真正的进步来自于对系统内在机制的深入理解和巧妙的设计优化。稀疏性作为一种优雅的解决方案，不仅解决了深度模型的效率问题，更重要的是为构建更智能、更高效的AI系统指明了方向。这种从理论洞察到实践突破的完整研究范式，正是推动科学进步的典型例证。对于任何对人工智能发展感兴趣的读者，这项研究都提供了宝贵的启示：在追求技术突破时，深入理解问题本质往往比盲目扩大规模更为重要。

Q&A

Q1：什么是深度诅咒，为什么会出现这种现象？

A：深度诅咒是指大语言模型层数增加时，深层网络反而变得低效的现象。这是因为信息在层间传递时会累积方差（类似传话游戏中的信息失真），当方差过大时，深层只能进行简单的"复制粘贴"工作，失去了应有的处理能力。研究发现32层模型中有14层基本处于"摸鱼"状态。

Q2：稀疏性是如何解决深度诅咒问题的？

A：稀疏性通过减少有效连接密度来控制方差传播，就像给过度繁忙的系统做减法。研究团队发现两类稀疏性：隐性稀疏性（如权重衰减、长序列训练自然产生）和显性稀疏性（如混合专家模型、群组查询注意力等架构设计）。通过合理组合这些机制，可以让32层模型的性能比16层基线提升4.6%。

Q3：普通人能从这项研究中获得什么启发？

A：这项研究揭示了"更大不一定更好"的深刻道理。无论是AI系统还是现实生活中的组织管理，盲目扩大规模往往会带来效率问题。真正的改进来自于理解系统的内在机制，通过精细化设计和合理分工来提升整体效能，这比简单的规模扩张更有价值。

深度学习稀疏性优化大语言模型

分享至