在2025年5月发布的前沿研究论文中,由阿里巴巴集团与香港科技大学、南京大学、武汉大学等机构的研究团队共同完成的一项重要研究《统一多模态理解与生成模型:进展、挑战与机遇》(原文标题:Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities)全面梳理了多模态AI模型的最新发展。这篇发表在arXiv预印本平台(arXiv:2505.02567v2)上的综述论文,由张新杰、郭瑾涛、赵珊珊等多位作者共同撰写,由陈庆国担任项目负责人,为我们揭示了AI领域中一个令人兴奋的新方向。
想象一下,假如你的手机助手不仅能听懂你的问题并回答,还能看懂你拍摄的照片,甚至可以根据你的描述创作出精美图像。这正是统一多模态模型努力实现的目标。这类模型就像是既精通多种语言又擅长绘画的全能型人才,能同时处理文字和图像,实现跨模态的交流。本文将带你深入了解这一前沿领域的发展现状、技术路线和未来挑战。
一、背景:两条平行发展的技术道路正在寻求交汇
近年来,人工智能领域经历了两场并行的技术革命。一方面,以LLaMa、PanGu、Qwen和GPT为代表的大型语言模型(LLM)在规模和能力上都取得了惊人的进步。另一方面,这些语言模型也被扩展到多模态领域,催生了像LLaVa、Qwen-VL、InternVL和GPT4等强大的多模态理解模型。这些模型不仅能简单地描述图像,还能基于用户指令执行复杂的推理任务。同时,图像生成技术也在迅猛发展,如SD系列和FLUX等模型现在能够生成高质量的图像,精确地匹配用户的文本提示。
然而,这两个领域走的是完全不同的技术路线。多模态理解模型主要采用自回归生成架构,依赖解码器结构和逐个生成下一个词的方式进行文本生成。而文本到图像生成领域则沿着不同轨迹发展。最初由生成对抗网络(GAN)主导,后来逐渐转向基于扩散的模型,这些模型利用UNet和DiT等架构,结合CLIP和T5等先进文本编码器。
这就像两支探险队从不同的山脚出发,朝着同一座山顶攀登。虽然他们使用的装备和路线不同,但目标却是相同的:创造出既能理解又能生成多模态内容的强大AI系统。
尽管自回归模型在图像生成质量上暂时落后于扩散模型,但它们与大语言模型的结构一致性使其特别适合开发统一多模态系统。一个能够同时理解和生成多模态内容的统一模型潜力巨大:它可以根据复杂指令生成图像,推理视觉数据,并通过生成的输出将多模态分析可视化。2025年3月GPT-4o增强能力的发布进一步凸显了这种统一的潜力,激发了广泛关注。
二、挑战:融合两种不同架构的艰难探索
然而,设计这样一个统一框架面临着重大挑战。就像将铁轨和公路系统融合成一种新的交通方式一样困难。它需要整合自回归模型在推理和文本生成方面的优势,以及扩散模型在高质量图像合成方面的稳健性。
一个关键问题是如何有效地将图像转化为自回归生成模型可处理的标记(token)。一些研究采用了在扩散模型中常用的VAE或VQ-GAN及其变体,而其他研究则利用像EVA-CLIP和OpenAI-CLIP这样的语义编码器。此外,虽然文本在自回归模型中通常使用离散标记表示,但对于图像标记来说,连续表示可能更合适。
除了标记化技术外,混合架构也提供了另一种有前途的方法。这些架构结合了并行扩散策略和顺序自回归生成,与简单的自回归架构相比提供了更强大的能力。因此,无论是图像标记化技术还是架构设计,对于统一多模态模型来说都还处于初级阶段。
三、统一多模态模型的三大技术路线
现有的统一多模态模型可以分为三大类:基于扩散的模型、基于自回归的模型,以及融合自回归和扩散机制的混合型模型。接下来,我们将分别探讨这三种架构及其代表性工作。
1. 基于扩散的模型:渐进式去噪的艺术
扩散模型的工作原理有点像从噪声中逐渐恢复信号的过程。想象你在收听一个信号不好的广播,随着你调整天线,杂音逐渐减少,真实声音变得越来越清晰。扩散模型就是这样工作的:从纯噪声开始,逐步去除噪声,直到生成清晰的图像或文本。
典型的例子是Dual Diffusion模型,它引入了双分支扩散过程,用于联合文本和图像生成。具体来说,给定一个文本-图像对,Dual Diffusion首先使用预训练的T5编码器对文本进行编码,使用Stable Diffusion的VAE编码器对图像进行编码。然后,文本和图像潜在变量通过独立的前向扩散过程被加噪,在每个时间步产生噪声潜在变量。
在逆向过程中,模型使用两个特定于模态的去噪器联合去噪文本和图像潜在变量:基于Transformer的文本去噪器和基于UNet的图像去噪器。至关重要的是,在每个时间步,去噪器都融入了跨模态条件,文本潜在变量关注图像潜在变量,反之亦然,在整个去噪轨迹中实现模态间的语义对齐。
去噪后,文本潜在变量通过T5解码器解码成自然语言,图像潜在变量通过VAE解码器解码成高保真图像。训练由两个不同的损失项监督:图像分支最小化标准噪声预测损失,而文本分支最小化对比对数损失。
虽然双扩散模型在联合文本和图像生成方面显示出了前景,但它仍面临一些限制。其计算效率受到多次扩散迭代需求的阻碍,使其比GAN或自回归模型等替代方案更慢。双分支架构增加了模型复杂性和训练不稳定性。此外,虽然跨模态条件改善了模态对齐,但它仍然对噪声水平敏感,可能导致输出质量不佳。最后,对生成细节的精细控制仍然具有挑战性,模型在泛化到分布外数据方面存在困难。
2. 基于自回归的模型:逐步构建的连贯叙事
自回归模型是信息按顺序生成的。就像写一个故事,我们一次写一个词,每个新词都基于前面所有已写的词。在多模态模型中,无论是文本标记还是图像标记,都被排列成一个序列并逐步生成。这些模型通常采用一个主干Transformer架构(通常改编自大型语言模型如LLaMA系列、Vicuna、Gemma系列和Qwen系列),作为统一的模态融合模块,自回归地预测多模态输出。
为了将视觉信息整合到自回归框架中,现有方法提出了不同的图像标记化策略,可以分为四种类型:
基于像素的编码:这些方法主要通过预训练的自动编码器(如VQGAN类模型)将图像压缩成离散或连续的标记。这些编码器将高维像素空间压缩成紧凑的潜在空间,每个空间块对应一个图像标记。例如,LWM模型使用VQGAN标记器将图像编码为离散潜在码,不需要语义监督。通过纯粹基于重建的视觉标记和文本描述学习世界动态,LWM证明了大规模多模态生成无需专门的语义标记化也是可行的。
基于语义的编码:为了克服基于像素编码器在语义方面的局限性,一些研究采用了预训练的文本对齐视觉编码器(如OpenAI-CLIP、SigLIP、EVA-CLIP)。这些模型在大规模图像-文本对上训练,产生与语言特征在共享语义空间中紧密对齐的视觉嵌入。这种方法使跨模态对齐更有效,对多模态理解和生成特别有益。例如,Emu2在EVA-CLIP基础上构建了一个简化的可扩展建模框架,将MLLM模型扩展到37B参数,大幅提升了理解和生成能力。
基于可学习查询的编码:这种方法不依赖纯粹的固定视觉标记器或密集图像块,而是引入一组可学习的查询标记,动态从图像特征中提取信息内容。这些查询标记充当内容感知探针,与视觉编码器交互生成紧凑且语义对齐的嵌入,非常适合多模态理解和生成。SEED模型提出了一个种子标记器,学习因果视觉嵌入,通过因果Q-Former处理来自BLIP-2 ViT编码器的密集标记特征,产生因果视觉嵌入。
混合编码:为了解决使用单一模态视觉表示的固有限制,混合编码策略被引入到统一多模态模型中。基于像素的编码方法在保留精细视觉细节方面表现出色,但往往缺乏与文本的语义对齐。相比之下,基于语义的编码器产生抽象表示,在语义上丰富但在保留低级图像保真度方面不太有效。混合编码旨在结合两种方法的优势,将像素级和语义级特征整合到统一表示中。这又可分为伪混合编码(如Janus和OmniMamba)和联合混合编码(如MUSE-VL和VARGPT)。
这些自回归模型具有多种优势,包括与大型语言模型的结构一致性、统一的训练目标和灵活的序列建模。然而,它们也面临着视觉标记序列长度增加导致的计算和内存开销、跨模态对齐挑战以及生成图像质量限制等问题。
3. 融合自回归和扩散的混合型模型:取长补短的创新尝试
融合自回归和扩散建模最近成为统一视觉-语言生成的强大框架。在这种范式中,文本标记是自回归生成的,保留了大型语言模型的组合推理优势,而图像标记则通过多步去噪过程生成,遵循扩散建模原则。这种混合策略允许图像生成以非顺序方式进行,提高视觉质量和全局一致性。
代表性模型如Transfusion、Show-o、MonoFormer和LMFusion都采用这种方法。在生成过程中,噪声被添加到潜在视觉表示并迭代地去除,过程由先前生成的文本或完整的跨模态上下文条件化。尽管这种设计增加了推理成本(由于多重采样步骤),但它在符号控制和视觉保真度之间实现了有效权衡,非常适合高质量的视觉-语言生成任务。
这些融合模型通常采用两种图像标记化策略之一:基于像素的编码或混合编码。在基于像素的编码中,图像被转换为离散标记或连续潜在向量,然后在以自回归生成的文本标记为条件的扩散去噪过程中作为目标。例如,Transfusion、MonoFormer和LMFusion都采用通过SD-VAE提取的连续潜在表示。这些模型共享一个共同的训练目标,结合语言建模的自回归损失和图像重建的扩散损失,并利用双向注意力启用空间一致性。
尽管这些模型共享相似的框架,但每个模型都引入了独特的架构创新:Transfusion提出了一个统一的transformer主干,带有特定于模态的层,联合处理离散和连续输入;MonoFormer引入了一个紧凑架构,带有共享块和任务依赖的注意力掩码,平衡自回归和扩散任务;而LMFusion使冻结的大型语言模型能够通过轻量级视觉注入模块执行高质量图像生成,保留语言能力同时只训练视觉分支。
相比之下,Show-o采用基于MAGVIT-v2的离散基于像素的标记器,生成与transformer风格解码兼容的符号图像标记。它支持基于自回归的文本标记生成和基于扩散的图像合成,通过自回归和扩散损失的组合进行监督。总体而言,这些模型展示了基于像素编码在平衡来自语言模型的语义可控性和来自扩散过程的高分辨率视觉保真度方面的有效性。
四、任意到任意的多模态模型:向多模态全能迈进
早期的统一多模态模型主要关注文本-图像对,但最近的研究已经扩展到任意到任意的多模态建模。这种雄心勃勃的方法寻求创建能够处理和生成多种模态的模型,包括音频、视频、语音、音乐等。这些模型旨在将特定于模态的编码器和解码器统一到单一架构中,实现跨多种模态的理解和生成。
例如,最近的M2-omni模型引入了一个高度通用的架构,能够处理和生成各种模态,包括文本、图像、视频和音频。M2-omini采用多个特定于模态的标记器和解码器,每个都精心设计以处理不同数据类型的独特特征。具体来说,它利用NaViT编码任意分辨率的视频和图像,并结合预训练的SD-3作为图像解码器。对于音频,M2-omini引入paraformer-zh提取音频标记,并将预测的离散音频标记输入预训练的CosyVoice流匹配和声码器模型生成音频流。这种集成确保M2-omini能够从各种输入有效生成高质量的图像和音频流,使其成为真正的多模态强者。
然而,当前的任意到任意模型仍然面临几个挑战。一个关键问题是模态不平衡,文本和图像模态通常占主导地位,而音频、视频和音乐等其他模态代表性不足。这限制了这些模型能够处理的任务多样性。另一个挑战是可扩展性,支持广泛的模态增加了模型复杂性,导致更高的推理延迟和更大的资源需求。此外,确保跨模态的语义一致性仍然是一个非平凡的任务,模型往往难以维持接地和对齐的输出。
尽管面临这些挑战,这些模型代表了朝着开发能够理解和生成人类感官输入和交流全谱系的通用基础模型迈出的关键一步。随着数据、架构和训练范式的发展,未来的任意到任意模型有望变得更加组合、高效,能够进行真正的通用跨模态生成。
五、数据集:统一模型的养料
训练强大的统一多模态理解和生成模型需要大规模、高质量和多样化的训练数据。这些模型通常需要在大量图像-文本对上进行预训练,以学习跨模态相关性和表示。值得注意的是,在进行大规模多模态数据训练之前,这些模型通常使用从大规模自然语言语料库训练中获得的参数进行初始化。根据主要用途和模态特征,常见的预训练多模态数据集可以分为以下几类:
多模态理解数据集:这类数据集主要用于训练模型的跨模态理解能力,支持图像描述、视觉问题回答、图像-文本检索和视觉接地等任务。它们通常由配有相应文本描述的大量图像集合组成。例如,RedCaps包含1200万从Reddit源的图像-文本对,特别专注于捕捉人们在社交媒体平台上经常分享的日常物品和时刻。LAION-5B提供了近60亿个从网络爬取的图像-文本对,经过CLIP模型筛选以确保图像和文本之间的相关性。
文本到图像生成数据集:这些数据集主要用于训练根据文本描述生成图像的模型。它们通常由图像-文本对组成,往往更强调图像的美学质量、内容丰富度或特定的风格属性。例如,LAION-Aesthetics是LAION数据集的一个子集,使用美学评分模型筛选出约1.2亿张被认为具有更高"美学价值"的图像(及其文本)。JourneyDB由Midjourney平台生成的400万高质量图像-提示对组成,提供了宝贵的资源来训练模型学习复杂、详细且艺术风格的文本到图像映射。
图像编辑数据集:随着模型能力的提高,基于指令的图像编辑已成为一个重要的研究方向。这类数据集通常包含(源图像、编辑指令、目标图像)三元组,用于训练模型按照文本命令更改输入图像。MagicBrush是第一个大规模、手动标注的基于指令的真实图像编辑数据集,覆盖各种现实和细粒度的编辑操作(如对象添加/移除/替换、属性修改、风格转换),并为编辑区域提供掩码。
交错图像-文本数据集:除了由配对图像和标题组成的数据集外,另一个重要类别是交错图像-文本数据。这些数据集包含文本和图像自然相互跟随的文档或序列,反映了网页或文档中的内容。Multimodal C4通过将图像算法性地插入到从Common Crawl获取的文本文档中,增强了大规模纯文本C4语料库。OBELICS是一个开放的、网络规模的数据集,包含1.41亿个从Common Crawl提取的多模态网络文档,具有3.53亿张与1150亿文本标记交错的图像。
其他文本+图像到图像数据集:除了上述类别,为进一步增强统一模型的功能——如基于提供的主题图像生成图像,或利用控制信号(如深度图、canny图)——我们介绍了这一部分的相关数据集。LAION-Face包含5000万图像-文本对,关注特定于身份的图像生成。MultiGen-20M设计用于训练能够根据多种控制信号(如文本描述、边缘图、深度图、分割掩码、草图)统一生成图像的模型。
值得注意的是,创建专门的数据集面临许多挑战。以主题驱动生成这样的任务为例,从公共数据集获取此类专门数据非常困难,导致经常使用数据合成方法,就像Subjects200K和SynCD这样的数据集所展示的那样。这些数据集说明了合成数据在解决像主题驱动生成和定制这样的任务所需的公开可用训练示例短缺方面,越来越依赖于合成数据。
六、评估基准:衡量统一模型的多面能力
现代大规模统一多模态模型应该不仅能在像素级对齐视觉和语言信息,还能执行复杂推理、支持连贯的多轮对话,并整合外部知识。同时,这些模型需要产生高保真视觉输出,忠实遵循文本提示,同时为用户提供对风格和构图元素的精细控制。
理解能力评估
现代视觉-语言大模型必须通过接地、识别和检索准确连接视觉输入和语言描述。早期的图像-文本检索和描述基准如Flickr30k和MS COCO Captions评估模型是否能检索相关标题并将文本短语定位到图像区域。视觉问答基准如VQA、VQA v2、VisDial和TextVQA进一步要求模型解释复杂场景并回答关于对象、属性和关系的自由形式查询。特定领域的挑战如ChartQA评估对结构化图表和图形的理解,而VSR探测真实世界图像中的空间关系推理。
为了统一评估,大规模元基准测试套件测试低级感知和专家推理。MMBench提供3000个双语多项选择题,跨越接地、识别和检索,支持跨语言比较。MMMU添加约11500个大学水平的多模态问题,跨六个学科探测领域知识和逻辑推理。HaluEval诊断幻觉识别,SEED-Bench设计了一个生成多项选择题的管道,专门针对特定评估维度,并最终提供19000个多项选择题,跨12个维度。
推理基准在感知级评估基础上,探测越来越丰富的认知技能。CLEVR系统地改变对象属性和空间关系,强制模型执行多跳程序,测试计数、比较和关系逻辑。转向自然图像,GQA利用密集场景图生成组合问题,其功能程序用于测试一致性、接地和可信度。常识扩展如OK-VQA和其较大后继者A-OKVQA选择问题,其答案在图像之外,需要检索或推断世界知识库。VCR进一步要求模型不仅选择正确答案,还要通过选择连贯理由来证明它,从而耦合识别与解释并测试多步常识链。
ChartQA引入了问题,将视觉感知与条形图、折线图和饼图上的定量推理交织在一起,整合数据提取、逻辑比较和算术计算。MathVista将范围扩展到视觉接地上下文中的数学问题求解,结合细粒度视觉理解与符号操作,跨多样化示例。这些基准形成了一个分层谱系,跨越结构化逻辑推理、开放领域常识、视觉解释和数值密集任务,为多模态推理系统提供全面压力测试。
图像生成评估
早期自动度量如FID和CLIPScore为图像质量评估奠定了基础。然而,最近的基准转向关注组合性、对齐和现实世界适用性。GenEval评估六个细粒度任务,包括单对象生成、对象共现、计数、颜色控制、相对定位和属性绑定,通过比较预训练检测器的输出与基准标注。
在此基础上,GenAI-Bench提出1600个精心设计的人类提示,涵盖关系性、逻辑性和基于属性的类别。其评估框架结合人类偏好判断与自动对齐分数,提供全面评估。T2I-CompBench和其后继者T2I-CompBench++专门针对组合泛化,测试使用基于检测器的评分生成新颖属性和关系组合。
考虑实际需求,EvalMuse-40K提供40000个众包提示,关注细微概念表示,HEIM确定12个方面,包括文本-图像对齐、图像质量、美学、原创性、推理、知识、偏见、毒性、公平性、鲁棒性、多语言性和效率。
图像编辑基准在规模和范围上也有所增长。MagicBrush是第一个大规模、手动标注的数据集,用于指令引导的真实图像编辑,涵盖多样情景。HQ-Edit包含约20万高分辨率编辑,具有计算的对齐和一致性分数。
此外,I2EBench整合2000多张图像和4000多个多步指令,跨16个编辑维度。它提供标准化基准,带有一个使用预训练视觉-语言模型的自动评估管道,其分数与人类判断强相关。Emu-Edit包含七个基于指令的编辑任务,提供人类指令/图像对和输入/输出描述。HumanEdit提供5751张高分辨率图像,配有开放形式语言指令,跨六个编辑类别,以及掩码和多阶段人类反馈,严格地基准测试指令引导的图像编辑模型。
交错生成评估
交错评估基准挑战模型在多个回合内无缝地在文本和图像模态之间交替,反映现实对话和讲故事场景。InterleavedBench是第一个专门为评估交错文本和图像生成而精心策划的基准,具有丰富的任务阵列,涵盖多样化的真实世界用例,并在文本质量、感知保真度、多模态一致性和有用性方面评估模型。
基于此,ISG引入场景图注释和四层评估(整体、结构、块级和特定于图像),在八个场景和21个子任务的1000个样本上,支持交错文本-图像输出的细粒度评估
好文章,需要你的鼓励
现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。
想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。
想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。
想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。