微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

正交残差更新：为深度网络提供稳定高效的更新机制

深度学习残差连接神经网络稳定性

正交残差更新：为深度网络提供稳定高效的更新机制

作者：科技行者

2025-05-28 20:28

分享至：

这篇研究论文提出了一种称为"正交残差更新"的新方法，解决了深度神经网络中标准残差连接的局限性。研究人员发现，在传统残差连接中，模块输出与输入流直接相加可能导致冗余特征学习。他们的创新方法将模块输出分解为平行和正交两个组件，仅保留正交部分进行更新，促使网络学习更丰富的特征表示。在ResNetV2和Vision Transformer等架构上的实验证明，这种简单修改显著提高了模型准确率和训练稳定性，在ImageNet-1k数据集上使ViT-B模型的表现提升了4.3个百分点。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-28 20:28 • 科技行者

在深度学习的世界里，残差连接（Residual Connections）已成为训练极深神经网络的关键技术。最近，来自韩国延世大学（Yonsei University）和Maum.AI的研究团队发表了一篇题为《重新审视残差连接：正交更新实现稳定高效的深度网络》（Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks）的研究论文，该论文于2025年5月17日发布在arXiv预印本平台上（arXiv:2505.11881v1）。研究团队由Giyeong Oh、Woohyun Cho、Siyeol Kim、Suhwan Choi和通讯作者Younjae Yu组成。这项研究为深度神经网络的训练提出了一个简单而有效的改进方法，可能会改变我们构建和训练大型神经网络的方式。

想象一下，你正在建造一座高楼。传统的残差连接就像是在每一层楼之间都建立了一个直通电梯，让信息可以直接从底层传到顶层，不必经过每层的复杂处理。这种设计让我们能够建造更高的"楼层"（更深的网络层），而不用担心信息在传递过程中"迷路"或"变弱"（梯度消失问题）。

然而，研究团队发现了一个有趣的问题：在标准的残差连接中，每层处理后的信息直接被添加到原始信息流上。这就像是在原有的直通电梯旁边增加了一些新材料，但这些新材料可能大部分只是强化了电梯已有的方向，而不是提供全新的结构支持。换句话说，网络中的复杂模块（如注意力层或多层感知机）可能没有充分发挥它们学习全新特征的能力。

基于这一洞察，研究团队提出了"正交残差更新"（Orthogonal Residual Update）机制。这种方法的核心思想非常优雅：把模块的输出相对于输入流进行分解，然后只添加与输入流正交（垂直）的那部分组件。回到我们的建筑比喻，这就像是确保每次添加的新材料都提供了与现有结构不同方向的支撑，从而创造出更丰富、更稳定的整体架构。

研究团队在多种网络架构（ResNetV2、Vision Transformers）和多个数据集（CIFAR系列、TinyImageNet、ImageNet-1k）上进行了广泛实验。结果令人印象深刻：使用正交更新的模型在准确率和训练稳定性上都有显著提升。特别是在ImageNet-1k数据集上，ViT-B模型的top-1准确率提高了4.3个百分点，这在计算机视觉领域是一个相当显著的进步。

让我们深入了解这项研究的细节，看看这个简单而巧妙的改进如何为深度学习领域带来新的可能性。

一、残差连接的回顾与问题

在深入理解正交残差更新之前，我们需要先了解传统残差连接的工作原理及其存在的问题。

传统的残差连接最早由何恺明等人在2016年提出，它彻底改变了深度神经网络的训练方式。简单来说，残差连接就像是在复杂的高速公路系统中建立了一条直通的快车道，让信息可以不受阻碍地从网络的早期层流向后期层。

最初的ResNet架构使用的更新方式是xn+1 = σact(xn + f(xn))，其中的非线性激活函数σact是在求和之后应用的。这意味着原始信息xn在传递过程中会受到一定的非线性变换。后来，ResNetV2改进了这一点，提出了完全的恒等映射形式：xn+1 = xn + f(σpre(xn))。在这种设计中，非线性处理σpre（如归一化和激活）在残差函数f之前进行，而在求和之后没有任何变换。这使得原始的xn能够作为一个线性残差流直接穿过各层网络。

这种线性残差流的原则现在已成为许多现代高容量架构的普遍特征，包括当代的Transformer模型和大型语言模型，它们主要采用前置层归一化（pre-layer normalization）。

在这些架构中，复杂模块f（如注意力层或MLP块）对线性残差流xn（或其归一化版本σ(xn)）进行操作，然后它们的输出f(σ(xn))与xn相加。从概念上讲，这个模块输出f(σ(xn))可以相对于输入流xn分解为两个组件：一个平行于xn的组件f∥，和一个垂直于xn的组件f⊥。

平行组件f∥主要起到对现有表示xn进行重新缩放的作用。这引发了一个思考：如果这些高容量模块的学习转换有相当一部分仅仅是调制现有流的大小，那么它们的全部表示能力是否被最优地用于学习新的、复杂的特征呢？

研究团队提出，这种缩放操作可能并不总是需要这些高容量模块的全部复杂性。相比之下，正交组件f⊥本质上向表示空间引入了新的方向成分，这些成分与当前流xn不同。研究者假设，通过显式分离并仅使用正交组件f⊥来更新残差流，模块可以专注于为表示贡献新颖的方面。

基于这一假设，研究团队提出并系统研究了正交残差更新机制。如图1所示，不同于线性加法更新xn + f(σ(xn))，他们的方法采用xn + f⊥(xn)，其中f⊥(xn)是模块输出f(σ(xn))中显式正交于输入流xn的组件（详见第三部分）。

二、正交残差更新的核心理念

正交残差更新的核心思想可以通过一个简单的类比来理解：想象你在搭建一座复杂的积木塔。传统的残差连接相当于在每一层都添加新积木，但这些新积木可能大部分都堆在原有的方向上，使塔变得更高但不一定更稳固。而正交残差更新则确保每次添加的新积木都扩展到新的方向，使塔不仅变高，还变得更宽、更稳定。

在数学上，研究团队的方法非常优雅。对于任何非零向量xn，模块输出f(σ(xn))可以唯一地表示为两个不同组件的和：一个与当前流xn直接相关的组件，和另一个独立于xn的组件。这可以抽象地写为：

f(σ(xn)) = f∥ + f⊥

其中f∥是平行于xn的组件，f⊥是正交于xn的组件。由于f∥必须沿着xn的方向，它必然采取形式f∥ = αxn。这个投影步骤，类似于Gram-Schmidt正交化过程中的基本操作，产生α如下：

f∥ = αxn，其中 α = ?xn, f(σ(xn))? / ?xn, xn?

并且 f⊥ = f(σ(xn)) - f∥

这里?·, ·?表示点积。因此，正交组件f⊥，捕获了f(σ(xn))中与xn线性独立的部分，是通过减去这个平行组件获得的。通过构造，这个组件满足?xn, f⊥? = 0。

解释这些组件，f∥表示模块输出中仅仅缩放了已经存在于流xn中的方向的部分。相反，f⊥表示相对于xn的当前模块贡献的"新颖"表示。

基于上述分解，研究团队提出了他们的核心更新机制。不同于在标准残差更新中将完整的模块输出f(σ(xn))添加到流中，他们主张仅使用从f(σ(xn))派生的组件f⊥(xn)，如图1所示。这个组件明确定义为：

f⊥(xn) = f(σ(xn)) - snxn，其中 sn = ?xn, f(σ(xn))? / (∥xn∥? + ε)

注意，为了在计算过程中的数值稳定性，研究者在分母中明确包含了一个小常数ε > 0，这个细节在理想分解中被省略。在所有实验中，他们使用稳定常数ε = 10??。

因此，他们提出的正交更新规则简单地是：

xn+1 = xn + f⊥(xn)

这种形式旨在主要将模块中的新表示方面（正交于xn）注入到每一步的流中。虽然在形成f⊥(xn)时显式减去了f(σ(xn))平行于xn的组件，但其对学习动态和流本身的影响并未完全消除。

三、正交残差更新的技术细节

正交残差更新看似简单，但其背后有着严谨的数学基础和精心的设计考量。在这一部分，我们将深入探讨这种方法的技术细节，包括恒等梯度路径的保存、实现方式以及计算开销。

首先，值得注意的是，正交残差更新与残差网络的基本机制兼容。下一个流xn+1相对于当前流xn的导数是：

?xn+1/?xn = (1 - sn)I - xn(?xnsn)? + ?f(σ(xn))/?xn = I + ?f(σ(xn))/?xn - ?(snxn)/?xn = I + ?f⊥(xn)/?xn

关键的恒等路径I，它允许梯度不受阻碍地跨层流动，因此得到了根本保留。这确保了即使在使用正交更新的情况下，网络仍然能够有效地进行反向传播，避免梯度消失问题。

在实际实现上，根据张量维度的不同，sn的具体计算和随后的投影可以采用两种主要策略：特征级正交更新（Feature-wise Orthogonal Update，算法1）和全局正交更新（Global Orthogonal Update，算法2）。

特征级方法沿着选定的特征维度独立应用正交化（例如，在Transformer中沿着隐藏维度每个token，或在CNN中跨通道每个空间位置）。全局方法将所有非批处理维度展平，为投影形成每个样本的单一向量，提供一种整体更新。

研究团队在附录F中提供了PyTorch实现。表1提供了典型Transformer块组件的浮点运算（FLOPs）的近似分解，比较了线性连接和特征级正交连接。在这些块中的主要计算负载来自主模块，如自注意力（≈ 8sd? + 4s?d）或MLP/前馈网络（FFN）层（≈ 16sd?，假设中间隐藏维度扩展因子为4）。相比之下，标准恒等连接和正交连接添加的FLOPs最小（计算正交部分为6sd，除法为2s）。这种开销，数量级为O(sd)，比主模块的复杂度小得多。因此，观察到的收敛和泛化优势并非以禁止性计算成本为代价。

为了经验性地研究正交更新规则（方程4）的内部动态，研究团队在TinyImageNet上训练了ViT-S模型（5次运行平均），跟踪关键指标，包括流L2范数（∥xn∥?）和余弦相似度（cos(xn, f(σ(xn)))）。这些在图3中呈现。在附录D中有更详细的模块输出组件范数∥f∥∥?和∥f⊥∥?的分析。他们观察到，线性残差更新和正交更新从早期、层依赖的训练阶段开始就展示出不同的度量轨迹，大约在他们称为转换点的交接处。

在这个转换点周围，行为显著不同。对于线性更新（红线），∥xn∥?（图3a，3c）通常达到峰值然后下降，而cos(xn, f(σ(xn)))（图3b，3d）持续下降，经常变为负值。相反，使用正交更新（蓝线），∥xn∥?在初始拐点后稳定，cos(xn, f(σ(xn)))先下降然后趋于正值。

流范数行为和更新特性表明，在正交更新下，xn主要在超球面上演化。与线性更新直接缩放xn不同，正交更新xn + f⊥(xn)倾向于旋转xn一旦其范数稳定，特别是当∥f⊥(xn)∥ << ∥xn∥时。虽然f⊥(xn)可能最初调整范数，但其后续的旋转效果保留了大小同时引导xn朝向新的特征方向，促进了稳定性。

余弦相似度动态方面，正交更新后转换点cos(xn, f(σ(xn)))的增加，意味着f学会与xn对齐，这可能看起来违反直觉，但可以解释。虽然更新机制使用f⊥(xn)，但模块f本身并没有明确地被正则化为产生与xn正交的输出。相反，f是基于其完整输出f(σ(xn))训练的。它相对于xn的有效雅可比矩阵可以表示为：

?f(σ(xn))/?xn = ?f⊥(xn)/?xn + ?(snxn)/?xn

因此，f也受到与平行组件snxn相关的梯度影响。如果模块输出的学习平行部分f||(σ(xn))相对于其正交部分f⊥(σ(xn))增强，总体cos(xn, f(σ(xn)))可能增加。在sn中的小ε也允许对更新和学习有微小的平行影响。

四、实验结果与验证

研究团队进行了广泛的实验，在各种架构和数据集上测试了他们的正交残差更新方法。这些实验不仅证明了该方法的有效性，还提供了关于为什么这种简单的修改能带来如此显著改进的深入见解。

实验设置涵盖了几个标准图像分类基准：CIFAR-10、CIFAR-100（都是32×32分辨率，分别有10/100个类别，50k训练/10k验证图像）、TinyImageNet（64×64，200个类别，100k训练/10k验证）和ImageNet-1k（224×224，1000个类别，约128万训练/5万验证）。团队采用了适合每个数据集和架构的标准数据增强策略。

在架构方面，实验主要使用两类网络：ResNetV2（使用标准配置如-18、-34、-50、-101）和Vision Transformers（ViT）（ViT-S：384隐藏维度，6层，6头；ViT-B：768隐藏维度，12层，12头）。对于ViT，输入图像被处理成patch嵌入，带有[CLS]token和1D位置嵌入，[CLS]token的输出表示用于分类。由于计算资源限制，ImageNet-1k的评估主要集中在ViT模型上。所有模型都使用最终的线性分类层。

训练协议基于每个架构家族的常见实践。ResNetV2模型训练200轮，使用SGD（动量0.9，权重衰减5×10??，初始学习率0.1在80、120轮衰减，批量大小128，梯度裁剪设为范数1.0）。ViT训练300轮，使用AdamW（β?=0.9，β?=0.999，权重衰减1×10??；小型数据集批量大小1024，ImageNet-1k为4096）。ViT学习率（根据数据集为1e-3或5e-4）遵循余弦衰减计划，有10轮线性预热，并包括标签平滑（ε=0.1）。ViT没有应用梯度裁剪。

表2展示了从5次独立运行中得到的top-1准确率（%）的均值±标准差。结果是从每次运行的5个最佳验证轮次中平均得出的。标准线性更新的性能与正交更新进行了比较：正交-F（特征级）和正交-G（全局）。由于计算限制，ImageNet-1k实验集中在ViT上。

正交更新在ViT模型上表现出特别强的效果。例如，在ImageNet-1k上使用正交方法的ViT-B在top-1准确率上比基线提高了显著的+4.3个百分点。相比之下，虽然总体积极，但正交更新在ResNetV2架构上的性能提升相对于ViT来说更为温和。研究团队推测，这种效果差异可能部分与这些架构家族的"维度对深度"特性有关。

为了探索这一点，他们考虑了一个比率γ，量化每个顺序处理块的平均表示宽度。对于ViT，γ??? = d?????/L???c??，其中d?????是隐藏维度，L???c??是transformer块的数量。对于ResNet，他们定义了一个类似的γ?????? = D??g/B?????，其中D??g = (∑?∈???g?? B?C?)/B?????是一个块操作的平均通道维度（B?、C?是每个阶段的块和通道，B????? = ∑B?）。对于规模相当的模型，ViT-S（2200万参数）有γ????? = 384/6 ≈ 64，而ResNetV2-34（2180万参数）产生γ??????????? ≈ (∑B?C?)/(B??????) = (3776)/(16?) ≈ 14.75。（附录E中有γ各变体的详细计算）。这一显著较低的ResNetV2-34的γ表明其块在更"紧凑"的表示空间中操作。研究团队假设，这种架构紧凑性可能导致特征流具有内在较少的方向冗余，从而降低了标准更新机制可能带来的优势。这种相互作用的精确性质值得进一步专门研究。

为了评估改变残差连接类型时表示的适应性，研究团队在CIFAR-10、CIFAR-100和TinyImageNet上使用ViT-S进行了实验。模型首先使用标准线性残差更新（L）或正交特征级更新（O）连接训练300轮（称为起始架构）。随后，在重新初始化优化器和学习率调度器后，在同一数据集上继续训练额外300轮（终止架构），其中连接类型可能被切换。这允许比较四种配置：L→L（始终使用恒等连接）、L→O（先恒等后正交）、O→L（先正交后恒等）和O→O（始终使用正交连接），结果在表3中展示。

表3中的结果突出了几个关键发现。在所有数据集上，整个训练阶段都使用正交连接（O→O）显著优于仅使用恒等连接（L→L），产生了显著强的结果。这种O→L方法不仅大大超过了L→L基线，而且通常匹配甚至超过了O→O的性能。相反，从恒等到正交连接的过渡（L→O）并没有提供比L→L基线一致的好处。

这些发现表明，正交更新在初始训练阶段特别有效，可以培养强健且可泛化的表示。O→L配置的强性能表明，这种结构良好的表示可以在后续阶段通过更简单的恒等连接进行高效适应和精炼。

受这些结果的鼓励，研究团队还进行了实验，其中优化器和学习率调度器在切换架构（在150轮标记处）后保持不变而没有重新初始化，训练简单地继续。这些实验的结果进一步证实了正交更新的有效性，特别是在训练的早期阶段应用时。

五、进一步的分析与见解

除了主要实验，研究团队还进行了几项消融研究，以更深入理解正交残差更新的特性和潜力。

首先，他们研究了随机正交连接的影响。在这个设置中，每个残差连接以概率π使用正交更新，否则默认使用标准恒等连接。他们在TinyImageNet上使用ViT-S（3次运行）测试了从0.0（全部恒等）到1.0（全部正交）的不同π值。

图4显示了改变π的效果。对于Top-1和Top-5准确率都有明显的统计学上积极趋势（基于皮尔逊相关性，p值<0.05）。这强烈表明一致应用正交更新（即更高的π）对该任务的ViT-S性能有益。

其次，研究团队调查了正交连接的位置和数量对ViT-S模型在TinyImageNet数据集上性能的影响。他们比较了将正交更新应用于特定层索引（或组）的各种模式，与没有正交更新的基线模型（"None"）和所有层都使用正交更新的模型（"All (0-5)"）进行对比。表4显示，将正交连接应用于更多层倾向于产生更好的性能。

最后，他们检查了方法对稳定常数ε的敏感性。ε在正交投影中防止除以零。他们在TinyImageNet上使用ViT-S测试了ε∈{10??, 10??, 10??, 10??, 10??, 10??}，进行了五次运行。

图5显示了每个ε值达到的最佳验证Top-1准确率和验证损失。他们观察到ε=10??设置在运行间产生了标准差最低的结果，表明更大的稳定性和可重现性。基于这种稳定性，他们在整篇论文中采用ε=10??作为默认常数，注意到其平均性能仍然具有竞争力。

研究团队还在ResNetV2架构中观察到一个值得注意的现象：在训练后期，最终卷积层模块的输出f(xn)的L2范数往往会急剧增加，特别是使用线性残差更新时。有趣的是，这种∥f(xn)∥?的爆炸式增长并不总是伴随着相似大的输入流范数∥xn∥?。

为了缓解这一问题，他们实施了一个简单的解决方案：在最终分类器头之前，在最后一个残差流的输出（即ResNetV2中最终全局平均池化后）立即添加一个LayerNorm层。这个LayerNorm有效地归一化了传递给分类器的激活。

实验表明，这个最终LayerNorm的引入显著稳定了最终卷积模块的f(xn)和其组件的范数，特别是对于线性残差更新，防止了先前观察到的爆炸式增长。

六、结论与未来方向

在这项研究中，研究团队重新审视了加法残差连接，强调标准更新不仅可能导致表示冗余，还可能与输入流反向对齐，潜在地阻碍有效的信息传播。为了解决这个问题，他们引入了正交残差更新，这是一种直接的机制，它分离并仅使用模块输出中正交于流的组件，从而鼓励注入新颖信息。

他们在图像分类基准上的广泛实验，跨越不同架构（包括Vision Transformers和ResNetV2），证明了这种策略一致地改进了泛化性能、训练稳定性和整体学习效率。正交残差更新提供了一种有希望的、计算效率高的方法来增强深度神经网络，邀请进一步研究其更广泛的应用和理论基础。

尽管该工作展示了正交残差更新的明显好处，研究团队也承认当前研究的某些边界，主要受计算资源限制塑造。这些限制必然将他们的实证验证集中在Vision Transformer（ViT-B）规模的模型和ImageNet-1k等数据集上。这也限制了更广泛的评估，例如，在ImageNet-1k上对更深的ResNetV2变体或所有呈现配置的详尽超参数优化。因此，将他们的方法扩展到显著更大的模型（例如，当代大型语言模型）或网络规模数据集仍然是一个重要的开放途径。此外，该方法的应用以图像分类为中心。对其在其他领域的系统探索和潜在适应——如生成建模（例如，使用扩散模型）或更广泛的大型语言模型中的序列处理任务——代表未来验证的重要领域。

这项研究打开了几个令人兴奋的未来探究方向。一个关键方向是更深入分析正交更新如何与不同网络模块（例如，注意力与MLP层）交互，以了解定制策略是否可能带来进一步的收益。基于他们的方法，它与Gram-Schmidt过程的初始步骤有关，探索更高阶或更全面的正交化技术也是另一条有希望的路径。研究者还假设架构特性——特别是隐藏维度与层数的比率（γ），在本研究中似乎与ViT与ResNetV2中观察到的方法效果变化相关——显著影响正交残差更新的有效性。通过更广泛的标准和非标准架构进一步调查这一假设，可能提供有价值的见解。

正交残差更新代表了一种简单而有效的改进，有潜力成为构建更稳定、更高效的深度神经网络的标准工具。随着研究社区继续探索其应用和理论基础，这种方法可能为深度学习的未来发展铺平道路。

深度学习残差连接神经网络稳定性

分享至