微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 VFMTok:让AI图像生成告别"拖拉慢"的时代——香港大学团队的全新突破

VFMTok:让AI图像生成告别"拖拉慢"的时代——香港大学团队的全新突破

2025-07-21 11:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-21 11:36 科技行者

这项由香港大学的郑安麟、温鑫、马承凡和祁小娟教授领导的研究团队,联合StepFun公司的张轩阳、张向宇、余刚,以及Dexmal公司的王天才和MEGVII科技的相关研究人员,于2025年1月发表了一篇名为"Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation"的论文。这项研究已提交至学术会议进行同行评议,感兴趣的读者可以通过arXiv:2507.08441v1访问完整论文。

要理解这项研究的重要性,我们需要先了解一个背景故事。现在的AI图像生成技术就像一个复杂的翻译过程:首先需要把图像"翻译"成计算机能理解的数字代码,然后AI根据这些代码生成新的图像。这个过程中最关键的工具叫做"图像分词器",它就像是图像世界的翻译官。

传统的图像分词器存在一个严重问题,就像用一个只会基础词汇的翻译官来处理复杂文献一样。它们虽然能把图像转换成数字代码,但往往抓不住图像的深层含义,只能记住一些表面的细节。这就导致AI生成图像时既慢又不够准确,还需要额外的"辅助工具"来提高质量。

郑安麟团队的突破性发现是:与其从零开始训练一个新的翻译官,不如直接使用那些已经在图像理解方面表现出色的"资深专家"——这些专家就是预训练的视觉基础模型,比如DINOv2、CLIP和SigLIP等。这些模型就像是在图像世界里浸淫多年的老手,对图像的理解远比传统分词器深刻。

研究团队的创新之处在于,他们不仅仅是简单地使用这些专家模型,还为它们设计了一套全新的工作方式。传统方法就像把一张图片均匀切成许多小方块,无论这些方块里的内容是否重要都一视同仁。而他们的新方法VFMTok则更加智能,它会像一个经验丰富的摄影师一样,自动识别图像中的重要区域,然后有选择性地提取这些区域的特征。

具体来说,VFMTok的工作过程可以比作一个三步走的精妙流程。第一步是"智能观察",它使用冻结的视觉基础模型来观察图像,就像一个艺术鉴赏家仔细端详一幅画作。第二步是"区域适应性采样",这是整个系统的核心创新。它不会机械地把图像切成规则的小块,而是会根据图像内容的相似性和重要性,灵活地选择那些真正有意义的区域。这就像一个聪明的摄影师会重点关注画面中的主要对象,而不是平均分配注意力。

这种区域适应性采样的巧妙之处在于,它使用了一种叫做"可变形注意力"的技术。可以把这种技术想象成一个拥有柔性触手的机器人,它的触手可以根据需要伸向图像的任何位置,重点抓取那些相似或相关的区域。比如,在一张水晶球的图片中,它会发现水晶球上部的纹理和透明度具有一致性,石头上的苔藓也有相似的质地结构,然后将这些具有相似特征的区域组合在一起形成一个"区域适应性令牌"。

第三步是"双重重建",这是VFMTok的另一个关键创新。传统方法只关心能否重建出原始图像,而VFMTok还会同时尝试重建视觉基础模型的内部特征。这就像一个画家不仅要画出物体的外观,还要理解和表达物体的内在精神。通过这种双重重建,VFMTok能够确保生成的代码既能准确重现图像细节,又能保持深层的语义理解。

实验结果令人印象深刻。在图像重建质量测试中,VFMTok仅用256个令牌就达到了0.89的rFID分数,显著优于使用576个令牌的传统VQGAN方法。更重要的是,VFMTok实现了100%的码本利用率,这意味着它的每一个数字代码都被有效使用,没有任何浪费。

在图像生成速度方面,VFMTok展现出了惊人的效率提升。由于它使用的令牌数量更少,AI生成图像的速度提高了3倍。这就像从一个需要处理576个词汇的复杂句子,简化为只需要处理256个词汇的精炼表达,不仅速度更快,理解也更准确。

更令人兴奋的是,VFMTok在图像生成质量方面也取得了突破性进展。在ImageNet基准测试中,使用VFMTok的3B参数模型达到了2.07的gFID分数,创造了新的最先进记录。这个分数超过了许多广泛使用的扩散模型,证明了VFMTok方法的有效性。

**一、从"笨拙翻译官"到"资深专家"的跨越**

要理解VFMTok的革命性意义,我们需要深入了解传统图像分词器的局限性。传统的分词器就像一个刚入门的翻译新手,它们通常从零开始学习如何理解图像。这个过程不仅耗时耗力,而且往往只能抓住图像的表面信息,比如颜色、纹理等低层特征,却很难理解图像的深层含义和语义信息。

这种局限性带来了多个问题。首先是训练时间长,就像培养一个新手翻译官需要多年的学习和实践。其次是理解能力有限,传统分词器生成的数字代码往往充满冗余信息,却缺乏有意义的语义表达。最后是生成质量不稳定,AI模型需要依赖额外的"分类器自由引导"技术来提高图像生成的保真度,这进一步增加了推理时间。

研究团队意识到,与其从头训练一个新的翻译官,不如直接借用那些已经在图像理解领域表现出色的"资深专家"。这些专家就是预训练的视觉基础模型,它们已经在大规模数据集上进行了充分训练,具备了强大的图像理解能力。

为了验证这个想法,研究团队首先进行了一系列初步实验。他们将不同的视觉基础模型(包括DINOv2、CLIP和SigLIP2)作为VQGAN分词器的编码器,然后测试它们在图像重建和生成任务上的表现。结果显示,这些基于视觉基础模型的分词器不仅能够实现与传统VQGAN相当甚至更好的性能,还显著提升了生成图像的语义一致性。

特别值得注意的是,使用SigLIP2的分词器在保持与原始VQGAN相同重建质量的同时,表现出了更强的语义表达能力和更好的生成性能。这个发现为后续的VFMTok开发奠定了坚实的理论基础。

**二、区域适应性采样:智能的图像理解新方式**

VFMTok的核心创新在于其区域适应性采样策略。传统的图像分词方法采用固定的2D网格结构,就像用一个规则的筛子来过滤图像信息。这种方法虽然简单直接,但忽略了自然图像中存在的大量空间冗余和语义相关性。

自然图像往往包含许多具有相似视觉模式的不规则区域。比如,在一张森林的照片中,不同位置的树叶可能具有相似的纹理和颜色;在一张海滩的图片中,沙滩的不同部分可能呈现出相似的质感。传统方法会机械地将这些相似区域分别处理,造成大量的信息冗余。

VFMTok的区域适应性采样就像一个聪明的图像分析师,它能够识别和利用这些空间冗余。具体来说,它使用一组可学习的锚点查询,这些查询就像是灵活的"触手",可以根据图像内容自适应地采样相关区域。

这个过程的实现依赖于可变形交叉注意力机制。在每个注意力层中,锚点查询会预测每个视觉基础模型特征层的采样偏移量,使得系统能够从不规则的、数据依赖的位置进行采样。这些采样到的特征随后通过注意力权重进行加权聚合,最终更新查询状态。

通过多层的迭代精炼,这些锚点查询逐渐演化为能够捕获语义相关、区域特定信息的区域适应性令牌。这种方法相比固定的2D特征网格,能够显著减少冗余信息,实现更高效的图像表征。

实验结果证明了这种方法的有效性。VFMTok仅使用256个语义丰富的令牌就能实现高保真度的重建和生成,而传统方法通常需要576个令牌。这种令牌数量的减少不仅提高了计算效率,还为后续的自回归生成提供了更紧凑、更有意义的表征。

**三、双重重建目标:保持语义保真度的关键**

VFMTok的另一个重要创新在于其双重重建目标设计。传统的图像分词器只关注图像像素的重建质量,这就像一个画家只关心画作的外观相似度,而忽略了对象的内在精神和深层含义。

VFMTok采用了一种更加全面的重建策略。除了传统的图像像素重建外,它还引入了视觉基础模型特征重建目标。这意味着系统不仅要能够重建出原始图像,还要能够重建出冻结的视觉基础模型提取的深层特征。

这种双重重建的设计具有深刻的意义。图像像素重建确保了生成图像的视觉质量,而特征重建则保证了令牌的语义保真度。通过要求系统同时满足这两个目标,VFMTok能够学习到既能准确重现图像细节,又能保持深层语义理解的表征。

在实现上,VFMTok使用了一个共享的轻量级Vision Transformer来处理去量化后的区域适应性令牌。这个Transformer采用因果自注意力机制,使其潜在空间与自回归模型的结构保持一致。通过引入掩码令牌和位置嵌入,系统能够将不规则的区域级特征对齐到规则的2D图像网格。

为了进一步提升表征学习效果,VFMTok还借鉴了DINOv2的经验,在输入序列中加入了CLS令牌和若干寄存器令牌。这些额外的令牌有助于捕获全局上下文信息,提高表征的全面性和鲁棒性。

在损失函数设计上,VFMTok将传统的VQGAN损失与特征重建损失相结合。特征重建损失通过计算重建特征与冻结视觉基础模型特征之间的余弦相似度来实现。这种设计确保了令牌在保持重建质量的同时,也能维持与原始视觉基础模型特征的语义一致性。

**四、突破性的实验结果与性能表现**

VFMTok在多个关键指标上都取得了令人瞩目的成果。在图像重建质量方面,VFMTok使用256个令牌就达到了0.89的rFID分数,显著优于使用576个令牌的传统VQGAN方法的0.95分数。更重要的是,VFMTok在rIS(重建Inception Score)指标上达到了215.4,远超其他方法。

rIS指标特别重要,因为它衡量的是重建图像与原始图像在语义层面的一致性。高rIS分数表明VFMTok重建的图像不仅在视觉上相似,更在语义理解上保持了高度的一致性。这种语义一致性的提升直接转化为了更好的图像生成质量。

在自回归图像生成方面,VFMTok展现出了卓越的性能。研究团队训练了不同规模的生成模型,从111M参数的VFMTok-B到3.1B参数的VFMTok-3B。在ImageNet 256×256类条件图像生成任务中,VFMTok-3B模型达到了2.07的gFID分数,创造了新的最先进记录。

这个成果的意义在于,它超越了许多广泛使用的扩散模型。比如,流行的DiT模型在相同任务上的gFID分数为2.27,而VFMTok-3B不仅性能更优,还具有更快的推理速度和更低的计算成本。

更令人印象深刻的是,VFMTok在不使用分类器自由引导的情况下仍能保持高质量的图像生成。传统方法通常需要依赖CFG技术来提高生成质量,但这会显著增加推理时间。VFMTok的1.4B参数模型在无CFG情况下达到了1.95的gFID分数,远优于LlamaGen-3B模型在无CFG情况下的9.38分数。

这种无需CFG的高质量生成能力源于VFMTok令牌的丰富语义内容。由于每个令牌都承载了更多的语义信息,AI模型能够更好地理解和控制生成过程,从而在不需要额外引导的情况下产生高保真度的图像。

**五、训练效率和推理速度的革命性提升**

VFMTok在计算效率方面带来了显著的改进。首先,由于使用了预训练的冻结视觉基础模型作为编码器,VFMTok的训练过程比传统方法更加高效。传统VQGAN需要从零开始训练编码器,这个过程不仅耗时,还容易陷入局部最优解。

VFMTok的训练过程可以分为两个阶段。第一阶段是分词器训练,在ImageNet训练集上进行,使用336×336分辨率的图像。整个训练过程只需要50个epoch,相比传统方法的数百个epoch有了大幅缩短。训练设置包括恒定学习率10^-4、AdamW优化器、批量大小256等。在16块Nvidia H800 GPU上,VFMTok的训练只需要1.5天。

第二阶段是自回归模型训练,这个过程也展现出了显著的效率提升。由于VFMTok提供了更加语义丰富和结构化的令牌表征,自回归模型能够更快地学习到图像生成的规律。实验显示,使用VFMTok的自回归模型收敛速度比传统方法快3倍。

在推理速度方面,VFMTok的优势更加明显。由于使用的令牌数量从576减少到256,推理时间获得了显著的减少。自回归模型的生成时间与令牌数量成二次关系,因此令牌数量的减半带来了4倍的推理速度提升。加上无需CFG的特性,VFMTok在实际应用中的推理效率远超传统方法。

这种效率提升对实际应用具有重要意义。在相同的计算资源下,VFMTok能够生成更多的高质量图像,或者在相同的生成需求下使用更少的计算资源。这使得高质量的AI图像生成技术更容易部署到实际应用中,降低了技术门槛和成本。

**六、深度消融实验:揭示成功的关键因素**

为了深入理解VFMTok成功的原因,研究团队进行了一系列详细的消融实验。这些实验就像医生通过各种检查来诊断病因一样,帮助研究者理解每个组件对整体性能的贡献。

第一个重要发现是冻结视觉基础模型的关键作用。当研究团队将冻结的DINOv2-L替换为随机初始化的编码器时,重建质量显著下降,语义表征能力也大幅降低。这证明了预训练视觉基础模型提供的语义先验对于构建高质量分词器至关重要。

区域适应性采样的效果也得到了验证。相比使用固定2D网格的传统方法,区域适应性采样在减少令牌数量的同时还能提升性能。具体来说,从576个令牌减少到256个令牌,不仅没有损害性能,反而在某些指标上有所提升。这表明智能的区域采样策略能够有效去除冗余信息,保留最有用的语义特征。

多层级特征的重要性也得到了证实。仅使用最后一层特征的单层级配置相比多层级特征配置性能明显下降。这是因为浅层特征包含了重要的细节信息,深层特征则提供了高级语义信息。多层级特征的融合使得VFMTok能够同时捕获低层细节和高层语义,实现更全面的图像表征。

特征重建目标的作用也非常关键。当移除特征重建目标,仅保留图像重建目标时,模型的语义表征能力显著下降。这个发现强调了双重重建策略的必要性:图像重建确保视觉质量,特征重建保证语义保真度。

在架构设计方面,共享Vision Transformer的设计也被证明是有效的。相比使用独立的Transformer处理图像重建和特征重建,共享架构不仅减少了参数量,还提升了整体性能。这种设计迫使模型学习到更加通用和鲁棒的表征。

**七、与其他方法的全面比较**

VFMTok的性能优势在与其他先进方法的比较中得到了充分体现。在图像重建任务上,VFMTok与TiTok、ImageFolder、各种VQGAN变体以及其他先进分词器进行了全面比较。结果显示,VFMTok在使用最少令牌数量的情况下达到了最优的重建质量。

特别值得注意的是与TiTok的比较。TiTok是另一个先进的1D分词器,它使用256个令牌但需要复杂的两阶段训练过程(预热和微调),总训练时间长达200个epoch。相比之下,VFMTok只需要50个epoch的简单训练过程,就能达到更好的重建质量和语义表征能力。

在自回归图像生成任务上,VFMTok与多种主流生成模型进行了比较,包括扩散模型、掩码生成模型和其他自回归模型。在ImageNet 256×256基准测试中,VFMTok-3B不仅超越了所有自回归模型,还超越了许多扩散模型的性能。

与扩散模型的比较特别有意义。扩散模型如DiT、SiT等在图像生成质量上一直处于领先地位,但它们的推理速度相对较慢。VFMTok在达到相当甚至更好的生成质量的同时,推理速度更快,这使得它在实际应用中具有更大的优势。

与其他自回归模型如LlamaGen的比较也很有启发性。在相同的参数量下,VFMTok的性能始终优于LlamaGen。更重要的是,VFMTok的1.4B参数模型甚至超越了LlamaGen的3B参数模型,这表明VFMTok的架构设计更加高效。

**八、技术实现细节与可复现性**

VFMTok的实现涉及多个技术细节,这些细节对于方法的成功至关重要。在视觉基础模型选择方面,研究团队主要使用了DINOv2-L模型,这是一个包含24个Transformer层的大型模型。为了构建多层级特征,他们从第6、12、18和24层提取特征,这样的设计既包含了细节信息又包含了语义信息。

在量化器设计上,VFMTok采用了12维的码本向量和16384的码本大小。这种设计在重建质量和码本利用率之间取得了良好的平衡。码本向量使用L2归一化,这有助于提高训练稳定性和量化效果。

可变形注意力机制的实现是VFMTok的核心技术挑战。研究团队使用了6层的可变形Transformer,每层都包含多头注意力机制。锚点查询的初始化采用2D网格布局,然后通过学习过程逐渐适应到最优的采样位置。

在损失函数设计上,VFMTok综合了多种损失项。图像重建损失包括L2重建损失、LPIPS感知损失和对抗损失。特征重建损失使用余弦相似度计算。研究团队还将传统的PatchGAN判别器替换为预训练的DINOv1-S模型,这种替换提供了更有意义的语义级别的对抗训练。

为了确保方法的可复现性,研究团队详细记录了所有超参数设置。分词器训练使用恒定学习率10^-4,AdamW优化器(β1=0.9,β2=0.95,权重衰减=0.05),批量大小256。自回归模型训练也采用类似的设置,但根据模型大小调整了训练轮数。

**九、广泛的适应性和扩展性验证**

VFMTok的一个重要优势是其对不同视觉基础模型的广泛适应性。研究团队不仅测试了DINOv2,还验证了CLIP、SigLIP、SigLIP2等多种基础模型的效果。结果显示,VFMTok框架对不同的基础模型都能取得良好的效果,这证明了方法的通用性。

使用SigLIP2的VFMTok变体在多个指标上都表现出色。VFMTok-L(SigLIP2)达到了2.69的gFID分数,VFMTok-XXL(SigLIP2)达到了2.16的gFID分数。这些结果与使用DINOv2的版本相当,证明了VFMTok框架的鲁棒性。

在不同分辨率的适应性方面,VFMTok也展现出了良好的扩展性。虽然主要实验在336×336分辨率上进行,但研究团队也测试了256×256分辨率的性能。结果显示,VFMTok在不同分辨率下都能保持优秀的性能,这为实际应用提供了更大的灵活性。

令牌数量的可调性是VFMTok的另一个优势。研究团队测试了从36到576个令牌的不同配置,发现144个令牌就足以在ImageNet上实现良好的图像表征。这种可调性使得用户可以根据应用需求在质量和效率之间进行平衡。

在码本大小的选择上,VFMTok也展现出了良好的适应性。不同的码本大小配置都能取得较好的效果,这为实际部署提供了更多选择。研究团队还验证了不同的码本初始化策略,证明了方法的鲁棒性。

**十、面向未来的技术展望与应用前景**

VFMTok的成功不仅在于其当前的性能表现,更在于它为AI图像生成领域开辟了新的技术路径。这种基于预训练视觉基础模型的分词器设计思路,为构建更高效、更智能的图像生成系统提供了重要启示。

在技术发展方向上,VFMTok的成功表明,利用预训练模型的语义先验是提升图像生成质量的有效途径。未来的研究可能会进一步探索如何更好地利用这些先验知识,比如通过多模态基础模型来实现文本到图像的更精确控制。

区域适应性采样策略的成功也为图像表征学习提供了新的思路。传统的固定网格表征方法可能会被更加灵活、智能的采样策略所取代。这种变化不仅能提高表征效率,还能更好地捕获图像的语义结构。

在应用前景方面,VFMTok的高效性和高质量使其在多个领域都有广阔的应用空间。在内容创作领域,VFMTok能够帮助艺术家和设计师更快速地生成高质量的图像素材。在教育领域,它可以用于生成教学用的图像资源。在游戏开发中,VFMTok可以用于自动生成游戏场景和角色。

VFMTok的无CFG高质量生成特性使其特别适合实时应用。在虚拟现实和增强现实应用中,系统需要快速生成大量高质量的图像内容,VFMTok的高效性正好满足这种需求。

从更广阔的角度看,VFMTok代表了AI图像生成技术向着更智能、更高效方向发展的重要步骤。它证明了通过巧妙的架构设计和对预训练模型的有效利用,可以在不增加计算成本的情况下显著提升性能。这种思路对于推动AI技术的产业化应用具有重要意义。

研究团队已经承诺将代码公开发布,这将有助于更多研究者和开发者使用和改进这一技术。开源的做法不仅能推动技术的快速发展,还能促进整个AI图像生成领域的进步。

说到底,VFMTok的成功展示了AI研究中一个重要的发展趋势:通过更智能的设计而不是简单的规模扩大来提升性能。这种思路不仅更加环保和经济,也为未来AI技术的发展指明了方向。归根结底,VFMTok不仅是一个技术突破,更是AI图像生成领域向着更加智能、高效、实用方向发展的重要里程碑。对于普通用户来说,这意味着未来我们将能够更快速、更便捷地获得高质量的AI生成图像,这将深刻改变我们创作、学习和娱乐的方式。

Q&A

Q1:VFMTok是什么?它解决了什么问题? A:VFMTok是香港大学团队开发的新型图像分词器,专门用于AI图像生成。它解决了传统分词器训练时间长、生成速度慢、需要额外工具提高质量等问题。VFMTok直接使用预训练的视觉基础模型,只需256个令牌就能实现高质量图像生成,速度提升3倍。

Q2:VFMTok会不会让AI图像生成变得更容易使用? A:会的。VFMTok的主要优势是生成速度快、质量高,而且不需要复杂的调参过程。它能在不使用额外引导技术的情况下生成高质量图像,这意味着普通用户可以更简单地使用AI生成图像功能,而不需要专业的技术背景。

Q3:VFMTok的技术能应用到哪些实际场景中? A:VFMTok可以广泛应用于内容创作、游戏开发、教育资源制作、虚拟现实等领域。由于其高效性和高质量,特别适合需要实时生成大量图像的应用场景。研究团队已承诺开源代码,这将让更多开发者能够将这项技术集成到自己的产品中。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-