微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Meta团队突破视觉压缩极限:让AI用更少算力生成更好的图像和视频

Meta团队突破视觉压缩极限:让AI用更少算力生成更好的图像和视频

2025-09-16 10:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-16 10:29 科技行者

这项由Meta公司GenAI团队Philippe Hansen-Estruch领导,联合德州大学奥斯汀分校、斯坦福大学等多个研究机构共同完成的研究于2025年1月16日发布,论文题为"Learnings from Scaling Visual Tokenizers for Reconstruction and Generation"(从扩展视觉标记器中学到的重建与生成规律)。感兴趣的读者可以通过https://vitok.github.io访问完整论文和项目详情。

在人工智能快速发展的今天,我们每天都在社交媒体上看到令人惊叹的AI生成图像和视频。但你是否想过,这些看似神奇的技术背后隐藏着什么秘密?就像魔术师需要巧妙的手法一样,AI生成高质量视觉内容也需要一套精密的"压缩与还原"系统。

现代AI视觉生成就像一个精巧的摄影暗房流程。首先需要一个"压缩师"把原始图像压缩成紧凑的密码,然后交给"生成师"在这个压缩空间里创作新内容,最后再由"解压师"把密码还原成我们能看到的图像。这个过程中的"压缩师"和"解压师"就是本研究的主角——视觉标记器(Visual Tokenizer),它们决定了整个系统的效率和质量。

Meta研究团队发现了一个有趣的现象:尽管AI界一直在疯狂提升"生成师"的能力,投入巨大资源训练越来越大的生成模型,但对于同样重要的"压缩师"和"解压师"却关注不够。这就像大家都在研究如何制造更好的汽车发动机,却忽略了轮胎和刹车系统的重要性。

为了填补这个空白,研究团队开发了一种名为ViTok(Vision Transformer Tokenizer)的新型视觉标记器。与传统主要基于卷积神经网络的方法不同,ViTok采用了更现代的Transformer架构,就像用最新的数字相机替代了胶片相机。更重要的是,他们在大规模数据上训练这个系统,远超过以往研究使用的ImageNet-1K数据集的规模,相当于用海量样本来训练这个"压缩专家"。

一、扩展瓶颈的秘密:浮点数总量才是关键

研究团队的第一个重要发现颠覆了人们的传统认知。他们发现,在视觉压缩系统中,真正影响重建质量的不是模型有多复杂,不是使用了多少计算资源,而是一个看似简单的数字——压缩后总共用了多少个浮点数来存储信息。

这个发现就像发现了烘焙的根本法则。以前大家可能觉得烤蛋糕的成功与否取决于烤箱有多高级、搅拌器转速多快、烘焙师技术多娴熟。但研究团队发现,真正决定蛋糕质量的竟然是一个更基础的因素——总共用了多少克面粉。无论你用什么方式处理,无论设备多么先进,面粉总量才是蛋糕品质的根本决定因素。

具体来说,研究团队定义了一个关键参数E,它等于压缩后的序列长度乘以每个位置的通道数(E = L × c)。这个E值就像是分配给压缩任务的"预算总额"。研究团队通过大量实验发现,无论怎么调整其他参数——比如改变图像分块大小、调整模型复杂度、增加计算量——只要E值相同,最终的重建质量就基本相同。

这个发现的意义是巨大的。传统上,研究人员可能会花大量时间和资源去调试各种复杂的模型结构,就像厨师花费精力研究各种复杂的烹饪技巧。但现在发现,关键其实在于一个简单明了的资源分配问题:你愿意用多少"存储空间"来保存压缩后的信息。

研究团队在ImageNet-1K和COCO数据集上进行了详细测试,结果显示E值与重建质量指标(如FID、SSIM、PSNR等)呈现出强烈的对数关系。当E值翻倍时,重建质量会显著提升;当E值减半时,重建质量会明显下降。这种关系非常稳定,几乎不受其他因素影响。

更有趣的是,研究团队还发现了分辨率扩展的规律。当从256像素分辨率扩展到512像素分辨率时,要保持同等的重建质量,需要将E值增加4倍。这就像制作更大尺寸的照片需要更高的存储容量一样,遵循着清晰的数学关系。

这个发现为未来的系统设计提供了明确的指导原则:与其花大量精力调试复杂的模型结构,不如直接根据质量需求来计算所需的E值,然后相应地分配存储资源。这就像建房子时,先根据居住需求确定总面积,再考虑具体的房间布局,而不是反过来先纠结房间形状再考虑总面积。

二、生成任务中的复杂平衡艺术

当研究团队将注意力转向生成任务时,他们发现了一个更加复杂和微妙的情况。如果说重建任务像是临摹画作——越精确越好,那么生成任务就像是原创艺术创作——需要在多个目标之间找到精妙的平衡点。

在重建任务中表现出色的简单线性关系,在生成任务中变得复杂多了。研究团队发现,E值与生成质量之间不再是单纯的"越大越好"关系,而是呈现出一种钟形曲线的模式。就像调制鸡尾酒一样,各种原料都需要精确的比例,过多或过少都会破坏整体的平衡。

具体来说,当E值过小时,压缩系统无法保存足够的信息,导致重建质量差,进而影响生成效果。这就像给画家的颜料太少,无法创作出丰富的作品。但当E值过大时,特别是通道数c过大时,会给生成模型带来训练困难,反而降低生成质量。这就像给画家太多颜料选择,反而让创作变得困难和混乱。

研究团队通过实验发现了每种配置的最佳平衡点。对于16×16的分块方式,最佳配置是E=4096且c=16;对于8×8分块,最佳配置是E=4096且c=4;对于32×32分块,最佳配置是E=2048且c=32。这些看似任意的数字背后,实际上反映了压缩信息量与生成模型学习能力之间的精妙平衡。

更有趣的是,分类器无关指导(Classifier-Free Guidance,CFG)技术可以在一定程度上缓解这个问题。CFG就像是给生成过程加了一个"智能助手",能够帮助模型更好地理解和利用压缩后的信息。当使用更高的CFG权重时,不同E值之间的生成质量差异会显著缩小,这为实际应用提供了额外的调节空间。

这个发现揭示了当前视觉生成系统中的一个根本性权衡:压缩效率与生成质量之间存在着复杂的相互关系。要获得最佳的整体性能,不能简单地最大化任何单一指标,而需要综合考虑重建质量、生成质量、计算效率等多个因素。

研究团队还观察到一个重要现象:当压缩过度时(E值过大,特别是c值过大),即使重建质量很好,生成出来的内容也会出现各种异常。这说明生成模型有自己的"舒适区",超出这个区域就很难产生自然的结果。

三、编码器与解码器的扩展规律探索

在探索了压缩瓶颈的规律后,研究团队转向了一个同样重要的问题:在视觉压缩系统中,"压缩师"(编码器)和"解压师"(解码器)各自扮演什么角色?应该把计算资源更多地分配给谁?

这个问题就像组建一个搬家团队:应该雇佣更多的打包工人,还是更多的运输司机,或者是更多的拆包整理工人?直觉上,我们可能认为每个环节都同样重要,但研究结果却揭示了一个令人意外的不对称模式。

研究团队设计了一系列对比实验,分别测试了不同规模的编码器和解码器组合。他们使用了三种规模:小型(S)、基础(B)和大型(L),参数量从4330万到3.84亿不等。通过系统性的组合测试,他们发现了编码器和解码器在重建与生成任务中的不同价值。

关于编码器的发现颇为意外。无论是在重建任务还是生成任务中,增大编码器的规模几乎不会带来任何性能提升,有时甚至会产生轻微的负面影响。这就像发现搬家时雇佣更多的打包工人并不会让整个搬家过程更高效一样令人惊讶。

更深入的分析揭示了这个现象的原因。视觉压缩中的编码过程相对简单直接——主要是提取和压缩原始图像中的关键信息。这个任务并不需要太多的"思考"能力,一个适中规模的编码器就足以完成。过度复杂的编码器不仅浪费计算资源,还可能产生过于复杂的中间表示,反而给后续的解码和生成过程带来困扰。

解码器的情况则完全不同。研究团队发现,增大解码器规模能够显著提升重建质量,各项重建指标都呈现出与解码器规模的强相关性。这个发现符合直觉:解码器需要从压缩的表示中"想象"出完整的图像细节,这个过程需要更多的计算能力和表示能力。

但在生成任务中,解码器扩展的效果变得复杂起来。虽然更大的解码器确实能带来一些改善,但提升幅度远不如在重建任务中那么显著。这暗示了一个重要观点:在生成流水线中,解码器的作用可能更像是一个"协同生成器"而非单纯的解压工具。

研究团队还发现了一个有趣的效率对比。即使将解码器规模从基础版本扩展到大型版本,带来的性能提升也不如简单地将E值翻倍。例如,将解码器从B规模扩展到L规模可能将重建FID从1.6降低到1.3,但将E值从4096增加到8192可以将FID直接降低到0.8。这个发现强调了合理分配"存储预算"比单纯扩展模型规模更重要。

这些发现为实际系统设计提供了清晰的指导:应该使用相对紧凑的编码器来节省计算资源,将重点放在解码器的优化上,但最重要的仍然是合理设定压缩瓶颈的大小。这种不对称的设计思路打破了"所有组件都需要同等规模"的传统观念,提供了更高效的资源分配策略。

四、解码器的双重身份之谜

在深入研究解码器扩展规律的过程中,研究团队意外发现了一个令人深思的现象:解码器似乎具有双重身份。它不仅仅是一个简单的"解压工具",更像是一个具有创造能力的"艺术家"。

这个发现源于对不同损失函数的系统性研究。传统的视觉压缩系统主要关注"忠实重现"——即解码结果与原始输入越相似越好。但现代生成系统还需要考虑"视觉质量"——即生成的内容看起来是否自然和吸引人。这就像摄影师不仅要追求技术准确性,还要考虑艺术美感一样。

研究团队设计了一系列实验来探索这种权衡关系。他们调整了训练过程中不同损失函数的权重,包括基础的均方误差损失(追求像素级准确性)、感知损失(追求视觉相似性)和对抗损失(追求生成质量)。结果揭示了一个清晰的权衡模式:当系统更多地追求视觉质量时,传统的像素级准确度指标(如SSIM和PSNR)会下降;但当追求像素级准确度时,视觉质量指标(如FID和IS)会恶化。

这种权衡关系就像调音师面临的经典难题:是追求音符的绝对准确,还是追求音乐的整体美感?研究团队发现,通过引入对抗训练,可以显著改善视觉质量指标。对抗训练就像给解码器配备了一个"艺术评委",不断督促它生成更自然、更吸引人的结果。

更重要的是,这种训练方式的改变也影响了下游的生成效果。当解码器经过对抗训练后,整个生成流水线的最终输出质量也会显著提升。例如,在相同的E=4096配置下,经过对抗训练的解码器可以将生成任务的FID从5.5降低到4.9,同时将IS指标从160提升到210。

这个发现揭示了解码器在现代视觉生成系统中的真实角色:它不仅是一个被动的解压工具,更是生成流水线中的一个主动创造组件。当从压缩表示重建图像时,解码器实际上在进行一种"有指导的创作"——它需要在有限的信息基础上"想象"出完整的视觉细节。

这种双重身份也解释了为什么解码器扩展在重建任务中效果显著,而在生成任务中效果相对有限。在重建任务中,解码器主要发挥"创作"能力,更大的模型确实能想象出更好的细节。但在生成任务中,主要的创作工作已经由专门的生成模型承担,解码器更多地扮演"协同创作者"的角色,因此单纯增大其规模的收益有限。

研究团队还发现,这种权衡关系在不同的E值和c值下表现一致,说明这是视觉压缩系统的一个基本特性。无论采用什么配置,都需要在忠实重现和视觉质量之间找到合适的平衡点。这为未来的系统设计提供了重要指导:需要根据具体应用场景来选择合适的权衡点,而不是盲目追求任何单一指标的最优化。

五、视频领域的规律延伸与独特发现

当研究团队将探索范围扩展到视频领域时,他们发现了一些既符合预期又令人惊喜的现象。视频压缩就像是图像压缩的"升级版"——不仅要处理空间维度的信息,还要处理时间维度的动态变化,这就像从拍摄静态照片升级到制作动态电影一样。

在视频领域,E值与重建质量的关系依然保持了图像领域发现的强相关性。无论是静态的帧间FID还是专门的视频质量指标FVD(Fréchet Video Distance),都与E值呈现出稳定的对数关系。这证明了之前发现的基本规律具有跨领域的通用性,就像物理定律在不同环境中都能适用一样。

但视频领域也展现出了自己的独特优势。研究团队发现,要达到与256像素静态图像相似的重建质量,视频序列并不需要16倍的E值(对应16帧的倍数),而只需要4到8倍左右。这个发现揭示了视频数据中存在的天然冗余性——连续帧之间的相似性为压缩提供了额外的优势。

这就像压缩一本书的时候,如果每一页都完全不同,就需要为每页分配相同的存储空间;但如果很多页面内容相似或重复,就可以利用这种相似性来节省存储空间。视频中的时间连贯性为ViTok提供了类似的优势,使其能够在保持质量的同时实现更高的压缩效率。

研究团队还探索了视频长度对压缩效率的影响。他们测试了16帧、32帧和64帧的不同长度视频,发现了一个有趣的规律:在固定的压缩率(像素每通道比例)下,更长的视频序列能够达到更好的重建质量。这进一步证实了视频数据中时间冗余的价值——更长的序列提供了更多的时间上下文信息,有助于系统更好地理解和重建视频内容。

在空间和时间压缩的权衡方面,研究团队发现了另一个实用性很强的结论。对于固定的E值,调整空间分辨率(通过改变分块大小p)和时间分辨率(通过改变时间步长q)对最终质量的影响相对有限。这意味着系统设计人员可以根据计算资源和应用需求来灵活选择空间-时间压缩的具体配比,而不必担心显著的质量损失。

视频生成方面的实验结果同样令人鼓舞。使用ViTok训练的视频生成模型在UCF-101数据集上达到了最先进的性能水平。特别是在1024token配置下,gFVD指标达到了27.44,在512token的更高压缩率下,gFVD为52.71,这些结果在当时都是同类方法中的最优表现。

研究团队还注意到视频处理中的一个技术细节:他们采用逐帧处理的方式来计算感知损失和GAN损失,而不是直接在3D视频块上计算。这种设计选择既保持了训练的稳定性,又充分利用了现有的2D损失函数,为视频处理提供了一个实用的技术路径。

这些视频领域的发现不仅验证了图像领域规律的普遍性,还揭示了视频数据的独特优势。对于未来的多模态生成系统,这些发现提供了重要的设计指导:可以期待视频tokenizer在相同的计算预算下达到比图像tokenizer更高的压缩效率,这为大规模视频生成应用提供了更加乐观的前景。

六、与现有方法的全面性能对比

为了验证ViTok在实际应用中的价值,研究团队进行了全面的性能对比实验。这就像新车上市前需要在各种道路条件下与竞争对手进行详细的性能测试一样,只有通过系统性的对比才能真正证明新方法的优势所在。

在256像素图像重建任务中,ViTok展现出了令人印象深刻的性能。与广泛使用的SD-VAE相比,ViTok S-B/16配置在ImageNet-1K数据集上将rFID从0.78降低到0.50,在COCO数据集上从4.63降低到3.94。更重要的是,ViTok实现这些性能提升的同时,计算开销显著降低——相比SD-VAE的162.2 GFLOPs,ViTok只需要34.8 GFLOPs,效率提升了近5倍。

这种效率优势在512像素图像上更加突出。ViTok S-B/16在512像素重建中保持了与SD-VAE相当的rFID性能(0.18 vs 0.19),但计算开销从653.8 GFLOPs大幅降低到160.8 GFLOPs,效率提升超过4倍。这种计算效率的提升对于实际部署特别重要,意味着相同的硬件资源可以处理更多的任务或支持更大规模的应用。

在视频重建领域,ViTok的表现同样亮眼。在UCF-101数据集的128像素16帧视频重建任务中,ViTok S-B/4x8达到了8.04的rFVD,显著超越了现有的最佳方法MAGViTv2的16.12。同时,ViTok还在其他压缩率下保持了竞争力:S-B/8x8配置在512token下达到20.05 rFVD,S-B/4x16配置在256token下达到53.98 rFVD。

特别值得注意的是计算效率的对比。与基于Transformer的LARP方法相比,ViTok在达到相似性能的同时,GFLOPs消耗大幅降低——从505.3 GFLOPs降低到160.8 GFLOPs,这种效率提升为实际应用提供了更大的可行性。

在生成任务的评估中,ViTok同样展现了竞争力。在256像素图像生成中,ViTok达到了2.45的gFID和284.39的gIS,与传统的SD-VAE+DiT组合(2.27 gFID,278.24 gIS)性能相当。在512像素生成中,ViTok的gFID为3.41,虽然略高于SD-VAE的3.04,但考虑到显著的计算效率优势,这种性能权衡是合理的。

视频生成方面的表现更加突出。在UCF-101数据集的128像素16帧视频生成任务中,ViTok S-B/4x8在1024token配置下达到了27.44的gFVD,创造了新的最佳记录。即使在更高压缩率的512token配置下,gFVD为52.71,仍然保持了强竞争力。

这些对比结果揭示了ViTok的几个关键优势。首先是计算效率的显著提升——在保持相当性能的同时大幅降低了计算开销。其次是扩展性更好——无论是图像还是视频,无论是重建还是生成,ViTok都展现了稳定的性能表现。第三是实用性更强——更低的计算需求使得ViTok更容易在资源受限的环境中部署。

研究团队还注意到,这些性能优势并不是通过牺牲质量来获得的,而是通过更深入理解压缩机制、更合理的架构设计和更高效的训练策略来实现的。这证明了深入的理论研究对于推动实际技术进步的重要价值。

说到底,这项来自Meta的研究为我们揭示了视觉AI系统中一个长期被忽视但至关重要的组件——视觉标记器的深层运作规律。研究团队通过大规模实验发现,决定压缩质量的核心因素竟然是一个相对简单的数值:压缩后总浮点数的数量。这个发现就像发现了烹饪中面粉用量决定蛋糕质量的基本法则一样,为整个领域提供了清晰而实用的指导原则。

更令人深思的是,研究揭示了编码器和解码器在系统中的不对称作用:编码器像一个高效的信息提取器,适中的规模就足够胜任工作;而解码器更像一个富有想象力的艺术家,需要更强的能力来从有限信息中重建完整的视觉世界。这种认识打破了"所有组件都需要等量扩展"的传统思维,为更高效的系统设计指明了方向。

ViTok的成功不仅体现在性能数字上——在保持相当质量的同时实现2到5倍的计算效率提升,更重要的是它证明了理论理解对技术进步的推动作用。通过深入探索压缩机制的本质规律,研究团队开发出了既高效又实用的解决方案,为视频生成、图像处理等应用领域开辟了新的可能性。

这项研究的意义远超技术本身。在AI技术快速发展的当下,很多团队都在追求模型规模的无限扩大,但这项工作提醒我们:有时候最大的突破来自于对基本问题的深入思考。就像建筑师不仅要考虑建筑的外观,更要理解结构力学的基本原理一样,AI系统的进步也需要我们回到根本问题上来。

对于普通用户来说,这项研究的成果最终会体现在更快速、更高质量的AI图像和视频生成体验上。无论是社交媒体上的AI滤镜,还是专业的内容创作工具,都有望因为这些基础技术的进步而变得更加强大和易用。感兴趣的读者可以通过项目主页https://vitok.github.io了解更多技术细节和最新进展。

Q&A

Q1:ViTok与传统的SD-VAE等方法相比有什么优势?

A:ViTok最大的优势是计算效率的大幅提升。在保持相当重建和生成质量的同时,ViTok的计算开销比SD-VAE降低了2-5倍。同时ViTok在视频处理方面表现更优秀,能够更好地利用视频数据中的时间冗余信息,在UCF-101数据集上创造了新的最佳记录。

Q2:什么是决定视觉压缩质量的关键因素E值?

A:E值是压缩后序列长度乘以通道数的结果,代表了压缩信息的总存储容量。研究发现,无论模型多复杂、计算资源多丰富,只要E值相同,重建质量就基本相同。这就像烘焙中面粉总量决定蛋糕质量一样,E值是视觉压缩系统中的根本决定因素。

Q3:为什么在ViTok中编码器规模对性能影响不大,而解码器影响较大?

A:编码器主要负责信息提取和压缩,这个过程相对直接,适中规模就足够完成任务。而解码器需要从压缩信息中"想象"出完整的视觉细节,更像一个创造性的艺术家,需要更强的表示能力。过大的编码器反而可能产生过于复杂的表示,给后续处理带来困扰。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-