微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 重新排列图像块,提升视觉模型性能:加州大学伯克利分校研究突破

重新排列图像块,提升视觉模型性能:加州大学伯克利分校研究突破

2025-06-04 09:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 09:17 科技行者

在使用图像识别的世界里,你是否曾想过:人工智能是如何"看"图片的?当你的手机识别出照片中的猫咪,或者自动驾驶汽车识别出道路标志时,背后发生了什么?今天,我们要聊一项来自加州大学伯克利分校的有趣研究,它可能会改变我们构建这些视觉模型的方式。

这项由加州大学伯克利分校的David M. Chan、Yutong Bai、Trevor Darrell和Ritwik Gupta,以及匹兹堡大学的Declan Kutscher共同完成的研究,题为《REOrdering Patches Improves Vision Models》(重新排序图像块提升视觉模型性能),发表于2025年5月的arXiv预印本(arXiv:2505.23751v1)。

想象一下,当我们查看一张照片时,我们的眼睛会自然地在整个图像上移动,关注不同区域。而计算机视觉模型则需要一种系统化的方法来处理图像。传统上,这些模型会将二维图像切割成小块(称为"patches",图像块),然后像阅读文本一样,从左到右、从上到下地依次处理这些图像块。这种处理方式被称为"行主序"(row-major)或"栅格扫描"(raster-scan)排序。

长期以来,研究人员认为这种排序方式并不重要,因为模型最终会"看到"所有图像块并整合信息。但伯克利团队的研究表明,对于现代的长序列视觉模型,图像块的处理顺序实际上会对模型性能产生显著影响。更令人惊讶的是,他们发现简单地改变这种顺序,就能使模型的准确率提高3%以上!

让我们一起深入了解这项研究的细节,看看他们是如何挑战传统思维并提出更有效的方法来重新排列这些图像块的。

一、图像处理的基础:为何排序很重要

在深入研究之前,我们需要理解一个基本概念:现代视觉模型如何处理图像。想象你在阅读一本中文书籍,你会从上到下、从右到左阅读文字。类似地,计算机需要一种系统化的方式来"阅读"图像。

目前最先进的视觉模型,如Vision Transformer(ViT),会首先将图像分割成多个小块,通常是大小相等的方形区域。例如,一张224×224像素的图像可能会被分成196个16×16像素的小块。然后,模型需要将这些二维排列的图像块转换成一维序列进行处理,就像我们将书页上二维排列的文字转换成一维的阅读流一样。

传统上,这种转换采用"行主序"方式,也就是从左上角开始,先处理第一行所有图像块,然后是第二行,依此类推。为什么这种顺序很重要呢?因为现代的长序列视觉模型为了处理大量图像块,引入了各种近似方法和归纳偏置,如局部注意力、递归处理或特定的状态动态更新机制。

这些设计选择虽然提高了计算效率,但也打破了模型对输入顺序的不变性。简单来说,不同的图像块排序方式会导致模型"看到"不同的信息模式,进而影响其性能。

伯克利团队首先测试了六种不同的图像块排序方式:行主序(row-major)、列主序(column-major)、希尔伯特曲线(Hilbert curve)、螺旋形(spiral)、对角线(diagonal)和蛇形(snake)。

想象一下,如果将图像比作棋盘,这些不同的排序方式就像是不同的走子路径: - 行主序:从左到右扫描每一行,完成后移到下一行 - 列主序:从上到下扫描每一列,完成后移到下一列 - 希尔伯特曲线:一种分形曲线,保持相邻图像块在二维空间中也相邻 - 螺旋形:从中心向外或从外向内螺旋扫描 - 对角线:沿对角线方向扫描 - 蛇形:像蛇一样在相邻行之间来回移动

团队发现,仅仅通过更改排序方式,在不修改模型架构的情况下,就能显著提升模型性能。在ImageNet-1K数据集上,某些模型的准确率提高了3.01%,而在卫星图像数据集Functional Map of the World上,提升甚至达到了13.35%。

二、为什么现代视觉模型对图像块排序敏感?

要理解为什么排序会产生如此大的影响,我们需要了解现代视觉模型的工作原理。

传统的Vision Transformer使用"自注意力"(self-attention)机制,这种机制理论上是排列不变的(permutation-equivariant)。也就是说,无论图像块以什么顺序输入,只要位置信息正确编码,模型最终都应该得到相同的结果。这就像拼图游戏,不管你以什么顺序放置拼图块,最终完成的图案都是一样的。

然而,现代处理长序列的模型为了提高效率,不再使用完全的自注意力机制。他们使用各种近似方法:

1. Transformer-XL:添加了段级递归和记忆机制,允许模型"记住"之前处理过的内容。这就像你在阅读长篇小说时,会记住前几章的内容一样。

2. Longformer:使用滑动窗口注意力模式,只关注局部邻域内的图像块,再加上少量全局关注的特殊块。这就像你阅读时主要关注当前段落,同时也会记住一些关键情节点。

3. Mamba:使用基于状态空间模型的内容依赖更新,按顺序处理输入。这有点像你按特定顺序阅读文本,前面的内容会影响你如何理解后面的内容。

这些设计选择虽然使模型能够更高效地处理长序列,但也使它们对输入顺序变得敏感。就像在解决迷宫时,不同的起点和探索顺序会导致不同的解决路径和效率。

研究团队通过数学证明和实验验证,确认了这些长序列模型确实会因图像块排序不同而表现出性能差异。例如,Transformer-XL在ImageNet-1K上使用列主序排序比行主序提高了1.92%的准确率,但使用螺旋形排序则会降低6.43%的准确率。

三、REOrder:寻找最佳图像块排序的框架

既然排序如此重要,研究团队进一步提出了一个名为REOrder的框架,用于发现特定任务的最佳图像块排序。

REOrder采用两阶段方法:首先建立一个信息论先验,然后使用强化学习来优化排序策略。这有点像先基于经验确定一个大致的探索方向,然后通过不断尝试和调整来找到最佳路径。

第一阶段:信息论初始化

团队首先探索了不同排序对图像序列可压缩性的影响。想象你在压缩一张图片文件:如果图像块按照某种方式排序,使得相邻块之间有很强的相似性,那么这个序列就更容易压缩。

他们使用VQ-VAE模型对图像进行离散化,然后用LZMA算法测量不同排序下的压缩率。结果表明,行主序和希尔伯特曲线排序产生的序列更容易压缩,说明这些排序方式保留了更多的局部冗余。而列主序和螺旋形排序则展现出较低的压缩率,意味着它们可能打破了这种局部相似性模式。

虽然压缩率不能直接预测模型性能,但它提供了一个有用的先验,指导我们如何初始化排序策略。团队发现,那些压缩率较低的排序方式往往会产生更好的模型性能,这可能是因为它们迫使模型学习更复杂、更长程的依赖关系,而不是简单地利用局部相似性。

第二阶段:使用强化学习优化排序

找到最佳排序是一个巨大的挑战。对于一张有196个图像块的图像,可能的排序方式多达10^365种,远远超过宇宙中的原子数量(估计为10^78至10^82个)。穷举搜索显然是不可行的。

因此,团队将选择排序问题转化为策略学习问题,使用Plackett-Luce模型和REINFORCE算法进行优化。简单来说,他们让模型学习一个对图像块的排序策略,并根据下游分类任务的表现来调整这个策略。

Plackett-Luce模型为每个图像块分配一个分数,然后基于这些分数生成一个排列。为了高效采样,他们使用Gumbel Top-k技巧,这种方法通过扰动分数并排序来生成样本,可在O(n log n)时间内完成,比传统的迭代采样更快。

学习过程采用三阶段课程: 1. 首先使用传统的行主序排序训练一定轮次,建立稳定的起点 2. 然后激活Plackett-Luce策略,使用REINFORCE算法进行训练 3. 最后,当温度参数降为零时,排序变为确定性,冻结排序并完成模型优化

随着训练的进行,策略会逐渐学习将与目标类别相关的图像块移动到序列的末尾,以最大化分类准确率。例如,对于"键盘"类别的图像,策略会学会将包含键盘按键的图像块放在序列末尾,而将不相关的部分(如一个橙色的鸟喙)保留在序列前部。

四、实验结果:REOrder的效果如何?

研究团队在两个数据集上评估了REOrder的效果:ImageNet-1K(自然图像)和Functional Map of the World(卫星图像)。他们测试了四种模型:Vision Transformer(ViT)、Transformer-XL、Longformer和Mamba。

实验结果令人印象深刻。在几乎所有情况下,REOrder都能提高模型性能,超越最佳的静态排序方式:

1. Mamba模型在ImageNet-1K上平均提升2.20%,在FMoW上提升9.32%。特别是,使用希尔伯特曲线排序的Mamba在ImageNet上提升了3.01%,而在FMoW上使用对角线排序提升了13.35%。

2. Transformer-XL在ImageNet-1K上平均提升0.70%,在希尔伯特曲线和螺旋形排序上分别提升1.50%和1.09%。在FMoW上,REOrder使最佳的列主序排序进一步提升了1.10%。

3. Longformer是唯一未能从REOrder中获益的模型,这可能是因为它已经使用了接近完全自注意力的近似方法,对排序变化不太敏感。

值得注意的是,不同模型在不同数据集上表现出不同的排序偏好。例如,对于FMoW数据集,Longformer的最佳排序从ImageNet-1K上的列主序变为对角线排序,准确率提高了1.3%。这表明最佳排序可能与数据集特性和模型架构都有关系。

此外,研究团队还测试了随机基线,即在训练期间为每个批次随机排序图像块。这种方法在ImageNet-1K上的Transformer-XL模型上表现非常差,比最差的固定排序(螺旋形)还要低15.25%的准确率。这进一步证明了找到好的排序策略的重要性。

五、REOrder的工作原理深度解析

让我们更深入地了解REOrder是如何工作的。想象你在解决一个复杂的拼图,你会发现某些策略比其他策略更有效:也许先完成边缘,然后是明显的特征,最后是相似色彩的区域。REOrder就像是自动发现这种最佳策略的方法。

首先,信息论初始化提供了一个合理的起点。研究表明,那些产生低压缩率序列的排序方式往往更有利于模型学习。这就像在拼图中,将相似的片段分散开来,迫使你更全面地考虑整个图案,而不是简单地匹配相邻的颜色。

然后,Plackett-Luce模型为每个图像块分配一个分数,决定它在序列中的位置。这些分数通过强化学习不断调整,以最大化分类准确率。在训练过程中,模型会学习将最相关的图像块放在序列的某些位置(通常是末尾),以便更好地影响最终决策。

例如,在键盘图像的例子中,随着训练的进行,包含键盘按键的图像块逐渐移动到序列末尾,而不相关的橙色鸟喙则保留在序列前部。这表明模型学会了一种策略:将最具鉴别性的特征放在序列的特定位置,以便最有效地利用模型的注意力机制。

REOrder的强大之处在于它是一个简单的"即插即用"添加组件,不需要修改模型架构。它只需要在训练过程中添加一个额外的Plackett-Luce策略模型,并使用REINFORCE算法优化这个策略。

同时,REOrder也非常灵活,可以适应不同的模型架构和数据集特性。它不依赖于特定的排序方式,而是根据任务自动发现最佳策略。这就像是为每个拼图找到最适合的解决方法,而不是使用一种固定的策略来解决所有拼图。

六、研究的意义与未来方向

这项研究的发现对计算机视觉领域有着深远的影响。首先,它挑战了传统认知,表明图像块的处理顺序确实重要,尤其是对于现代的长序列视觉模型。这就像发现了一种新的调整旋钮,可以在不增加计算复杂度的情况下提升模型性能。

其次,REOrder提供了一种自动发现最佳排序的方法,这对于不同的模型架构和数据集特别有价值。就像一个自适应的导航系统,能够为每次旅行找到最佳路线。

然而,研究团队也指出了一些限制和未来的改进方向。例如,当前的REOrder策略只探索了非常有限的排序空间。在实验中,策略探索阶段只持续了30个训练周期,其中大部分时间用于预热和冷却Gumbel噪声温度,峰值噪声(也就是最大探索)只发生在一个周期。这意味着还有很大的优化空间。

此外,对于Mamba模型,研究团队注意到它在非行/列主序排序上表现较差,这可能是因为其固定的因果扫描方向(→, ←, ↓, ↑)与其他排序方式冲突。未来的工作可能会探索如何调整Mamba的扫描顺序以匹配图像块排序,进一步提高性能。

最后,这项研究也为其他领域提供了启示。例如,在自然语言处理中,或许重新排序文本标记也能提升长序列语言模型的性能。类似地,在多模态模型中,不同模态(如文本、图像、音频)的处理顺序可能也会影响模型表现。

总结来说,伯克利团队的REOrder框架为我们提供了一种简单而有效的方法,通过优化图像块的处理顺序来提升视觉模型性能。这就像是在不改变厨房设备的情况下,通过调整食材的准备顺序,让同样的食谱做出更美味的菜肴。对于计算机视觉的未来发展,这无疑是一个有价值的贡献。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-