这项由北京人工智能研究院的王文轩、张帆、崔玉峰、刁海文等研究者联合中国科学院自动化研究所、中国科学院大学、大连理工大学及清华大学的研究团队共同完成的研究《端到端视觉令牌化调优》(End-to-End Vision Tokenizer Tuning)发表于2025年5月15日的arXiv预印本网站(arXiv:2505.10562v1)。该研究提出了一种简单而高效的方法,显著提升了多模态理解和视觉生成任务的性能。
一、为什么我们需要更好的视觉令牌化?
想象一下,你正在教一个机器人认识世界。你需要将丰富多彩的图像转化为机器人能理解的语言。目前的方法就像是先请一位翻译(视觉令牌化器)将图像转换成一系列代码,然后再让机器人(大语言模型)去理解这些代码。但问题是,这位翻译在培训时只专注于保留图像的基本外观信息,并不关心机器人最终需要理解的高级概念。
这就是当前视觉令牌化的困境。研究团队发现,现有的方法将视觉令牌化器的优化与下游任务训练完全隔离开来,盲目假设这些视觉令牌可以在各种任务中表现良好。就像一个只学会了描述物体外形而不理解物体功能的翻译,无法帮助机器人理解"这是一把可以用来切菜的刀"这样的概念。
更具体地说,目前为低级重建而优化的视觉令牌化器对需要各种表示和语义的下游任务是不敏感的。这种解耦范式引入了一个关键的错位:视觉令牌化过程中的信息损失可能成为目标任务的表示瓶颈。例如,当视觉令牌化器无法准确识别图像中的文本时,就会导致在识别或生成这些文本时出现糟糕的结果。
二、ETT方法:让视觉令牌化与下游任务协同工作
为了解决这一问题,研究团队提出了端到端视觉令牌化调优(End-to-End Tokenizer Tuning,简称ETT)方法。这就像是让翻译和机器人一起学习,使翻译能够根据机器人的需求调整自己的翻译策略。
与之前的自回归模型不同,传统方法只使用来自冻结视觉令牌化器的离散索引,而ETT利用了令牌化器码本的视觉嵌入,并通过重建和描述目标端到端优化视觉令牌化器。
具体来说,ETT方法包含以下关键创新:
首先,ETT从使用离散索引转向使用码本嵌入。传统方法就像只给机器人提供数字编号("这是物体1,那是物体2"),而ETT则提供了更丰富的描述("这是一个红色的、圆形的、光滑的物体")。
其次,ETT建立了一个端到端的优化框架。通过使用大语言模型作为视觉令牌化器的"顾问",ETT能够在保持视觉令牌化器重建能力的同时,优化其对下游任务的表示能力。
第三,ETT实现简单且易于集成。它不需要调整原始码本或大语言模型的架构,可以无缝集成到现有系统中。
三、ETT的技术实现:巧妙连接视觉与语言
ETT的实现可以比作建造一座连接两个岛屿(视觉和语言)的桥梁。这座桥不仅允许双向通行,还能根据通行需求不断调整和强化自身结构。
在技术层面,ETT主要包含以下几个关键组件:
视觉令牌化器:研究团队采用了IBQ(一种高性能的视觉令牌化方法)作为基础,它使用了下采样因子s=16,每个离散令牌在码本中的维度为D=256,调整后的码本大小为131,072。简单来说,就像是为图像创建了一本包含131,072个词条的视觉词典,每个词条都有256个特征来描述它。
码本嵌入与离散索引的转换:不同于仅使用离散索引的方法(如Emu3),ETT直接将视觉令牌化器的码本嵌入连接到大语言模型,有效利用视觉令牌化器中编码的更丰富的特征表示,同时实现端到端训练。就像是不仅告诉机器人"这是物体1",还告诉它"物体1是红色的、圆形的、光滑的"。
保留重建能力:为了确保高保真图像合成,ETT将整体训练目标设置为描述损失Lcap和VQ损失Lvq的组合。这就像教导翻译不仅要准确传达意思,还要保持原文的风格和细节。
训练流程:ETT的训练分为三个连续阶段。第一阶段是对齐学习,建立视觉-语言的初步连接;第二阶段是语义学习,这是整个训练流程中最关键的部分,实现端到端视觉令牌化调优;第三阶段是后训练,根据特定任务需求进一步优化模型。
四、ETT带来的显著性能提升
研究团队在多项任务上评估了ETT的性能,结果令人印象深刻。与冻结令牌化器基线相比,ETT在多模态理解和视觉生成任务上分别带来了2-6%的性能提升。
在多模态理解任务方面,ETT在各种广泛使用的视觉-语言感知基准测试中表现出色,涵盖了特定任务评估(GQA和TextVQA)、幻觉检测(POPE)、开放域多模态理解(MME、MMBench、SEED-Bench和MMVet)以及科学推理(ScienceQA-IMG)。
即使与更大模型和更多数据训练的模型相比,ETT也表现出色。例如,与Chameleon、LWM和Liquid等模型相比,ETT尽管使用了更小的模型和更少的数据,但仍实现了更好的性能。这突显了ETT端到端调优策略的有效性。
在视觉生成任务方面,ETT在GenEval和T2I-CompBench等广泛采用的基准数据集上实现了具有竞争力的性能。特别是在推理配置为top-k=131,072和top-p=1.0时,ETT在GenEval数据集上获得了0.63的总体分数,优于先进的扩散模型如SDXL。此外,ETT在T2I-CompBench数据集上在颜色、形状和纹理模式方面分别获得了81.03、58.19和72.14的分数,展示了与最先进的扩散模型相当的性能。
五、深入理解ETT的优势与权衡
为了验证ETT对下游多模态生成和理解任务的有效性,研究团队进行了全面的消融研究。
首先,研究团队探讨了ETT促进多模态下游任务的有效性。结果显示,引入ETT在理解和生成任务上都带来了显著的性能提升。具体而言,用码本嵌入替代离散索引部分缓解了信息损失问题,在多模态理解基准测试中带来了显著的性能提升。虽然这种替换降低了视觉生成性能,但它建立了一个完全可微的模型架构,允许进行端到端优化。在此基础上,进一步端到端调整视觉令牌化器相比传统设置提高了理解和生成任务的性能,特别是在严重依赖视觉特征的任务上(例如,在一般视觉问答和光学字符识别上分别提高了5%和6%)。
其次,研究团队调查了ETT中视觉重建和多模态理解之间的内在任务权衡。结果表明,与未调整的基线相比,调整视觉令牌化器始终为理解任务带来显著收益,尽管以重建性能下降为代价。具体而言,仅用图像到文本理解任务调整视觉令牌化器在各种理解基准测试中产生最佳性能,但重建性能大幅下降,即在ImageNet 256×256设置中,rFID从1.033下降到45.701。引入具有小权重0.25的辅助重建目标略微降低了理解准确性,同时显著提高了重建性能(45.701到1.648),表明联合训练理解和重建任务的重要性。
研究团队还可视化了引入ETT前后的重建结果。结果显示,经过ETT调整的视觉令牌化器生成的视觉细节与未调整的相当,甚至在某些方面如文本渲染方面有所增强。这表明ETT不仅保留了原始丰富的低级细节表示,还改进了高级语义表示。
六、ETT的应用前景与未来发展
ETT方法的成功为多模态基础模型的发展带来了新的机遇。通过解决视觉令牌化器的表示瓶颈问题,ETT为构建更强大的多模态理解和生成系统铺平了道路。
未来的研究方向可能包括进一步扩展端到端调优的规模和应用范围。一个潜在的局限是目前的端到端微调数据规模和模型容量可能需要进一步扩展,以增强视觉表示和下游任务性能。此外,当前方法主要专注于优化现有视觉令牌化器的视觉特征,未来可以探索从头开始端到端训练视觉令牌化器,创建一个更全面、更适应性强的多模态任务表示。
另一个令人兴奋的方向是超越图像和文本模态,将ETT方法扩展到视频和音频等其他模态。这将进一步推动多模态基础模型的发展,超越视觉生成和理解的范畴。
正如研究团队所希望的,这种简单而强大的方法有望为多模态基础模型的发展赋能,不仅限于图像生成和理解,还可以扩展到更广泛的多模态应用领域。
七、总结:ETT开启视觉令牌化的新范式
归根结底,ETT方法提出了一种全新的视觉令牌化训练范式,解锁了视觉令牌化器在下游自回归任务中的潜力。通过使视觉令牌化器能够感知并针对下游训练进行优化,ETT实现了视觉表示与多模态任务需求的更好对齐。
ETT的简单性和有效性令人印象深刻。它不需要复杂的架构修改,却能显著提升多模态理解和生成任务的性能,同时保持良好的重建能力。这就像是教会了翻译不仅要准确翻译单词,还要理解上下文和意图,从而提供更有用的翻译结果。
对于普通用户来说,ETT的进步意味着未来的AI系统将更好地理解图像内容,能够更准确地回答关于图像的问题,并能生成更符合描述的高质量图像。这将使人机交互更加自然和高效,为各种应用如内容创作、视觉搜索和辅助技术带来显著改进。
有兴趣深入了解这项研究的读者可以通过arXiv:2505.10562访问完整论文,了解更多技术细节和实验结果。
好文章,需要你的鼓励
现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。
想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。
想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。
想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。