近日,由北京大学、中国电信、新加坡国立大学和普林斯顿大学的研究团队联合发布了一项突破性研究成果。这篇题为《Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model》的论文已发表于arXiv(arXiv:2505.23606v1),论文第一作者为石庆宇和白锦彬,通讯作者为李祥泰、李学龙和严淑成。有兴趣深入了解的读者可通过GitHub(https://github.com/M-E-AGI-Lab/Muddit)获取源代码和模型。
想象一下,如果你的手机相册和备忘录能够互相理解,相互转化,会是什么样的体验?你可以用文字描述一幅画面,手机就能立刻为你生成相应的图像;你也可以拍摄一张照片,手机立刻能为你生成详细的文字描述。这听起来很神奇,但长期以来,这种双向转换存在两个主要瓶颈:一是传统方法生成速度慢;二是不同模态间缺乏统一的生成范式。
Muddit正是为解决这些问题而生的统一生成模型。它采用了一种称为"离散扩散"的技术,能够实现文本与图像之间的双向高效转换。不同于以往需要一个接一个地生成内容的自回归模型,Muddit可以并行生成内容,大大提高了生成速度。更重要的是,它在一个统一的架构下处理文本和图像两种不同的模态,实现了真正的多模态融合。
那么,Muddit是如何工作的呢?想象你有一幅拼图,但拼图上的很多块都被擦去了。Muddit就像一个能看到完整图像的助手,通过分析周围已有的拼图块,它能够一次性预测多个缺失的块,而不需要按照固定顺序一块一块地填补。这种并行生成的方式不仅速度更快,而且能够更好地捕捉不同内容块之间的关系。
研究团队的实验结果表明,尽管Muddit只有1B的参数规模(这在当今动辄几十上百亿参数的大模型中算是相当"小巧"的),但其性能却能够匹敌甚至超越那些参数量远大于它的自回归模型。在各种基准测试中,Muddit展现出了优异的性能,尤其是在生成高质量图像和准确回答视觉问题方面。
一、统一生成模型的发展与挑战
想象你在学习一门新语言的同时还要学习绘画。如果这两项技能完全没有关联,学习起来会非常困难。但如果能找到它们之间的共通点,比如都需要理解构图和表达,学习效率就会大大提高。这正是统一生成模型要解决的问题:如何让计算机既能理解和生成文本,又能理解和生成图像,而且是在同一个框架下完成的。
传统的多模态生成模型主要有四种类型。第一种是完全自回归模型,它们将文本和图像都转换为一串标记(token),然后从左到右逐个生成。想象一下你在写信,必须一个字一个字地写,不能跳着写或同时写多个字。这种方法虽然能产生高质量的结果,但速度极慢,尤其是生成图像时,因为一张图像可能包含成千上万个标记。
第二种是混合型模型,使用自回归方式生成文本,但用扩散模型生成图像。这就像你会用两种完全不同的方式来写作和绘画,虽然各有所长,但缺乏统一性。第三种是图像使用连续扩散,文本使用离散扩散的混合模型,同样面临统一性问题。
第四种,也是Muddit所属的类型,是完全离散扩散模型。它在统一的框架下处理文本和图像,支持并行采样和原生集成。然而,现有的这类模型如UniDisc存在生成质量不足、难以生成高分辨率图像等问题。
Muddit的创新之处在于,它结合了离散扩散的高效并行生成能力,以及预训练文生图模型中丰富的视觉先验知识。这就像一个既掌握了绘画技巧,又精通写作的老师,能够同时指导你完成这两项任务,而且能让你理解它们之间的联系。
二、Muddit的技术原理:如何统一不同模态
了解Muddit如何工作,我们需要先理解什么是离散扩散。想象你在玩一个猜词游戏:我心里想了一个词,但只告诉你部分字母,其余的用星号代替,比如"a**le"。你可能会猜这是"apple"。离散扩散就是这样一个过程:先将完整信息(无论是文字还是图像)中的大部分内容遮盖起来,然后训练模型学会根据剩余可见的部分来恢复完整信息。
在技术层面,Muddit使用连续时间马尔可夫链来描述这个"遮盖-恢复"的过程。每个标记(可以是一个文字或图像的一部分)都有一定概率被遮盖成特殊的掩码标记。模型的任务是预测这些被掩码的标记原本应该是什么。
Muddit的架构包含多个关键组件:文本编码器、图像编码器、转换器生成器、采样器、文本解码器和图像解码器。文本编码器将文字转换为标记嵌入,图像编码器将图像转换为离散代码本索引。生成器是一个单一的MM-DiT模型,它能够预测两种模态的被掩码标记。
特别值得一提的是,Muddit的生成器使用了预训练的Meissonic文生图模型进行初始化。这就像是模型先在绘画学校学习了如何创作精美的画作,然后再学习如何将画作与文字联系起来。这种预训练带来了丰富的视觉先验知识,能够捕捉空间结构和语义关联,大大提升了样本质量并加速了收敛。
在训练过程中,Muddit使用余弦调度策略进行掩码。这就像是在训练初期给模型看的信息很少,让它大胆猜测;随着训练进行,逐渐给它更多信息,让它的预测更加精确。这种策略确保了模型能够从完全随机的猜测逐步学会准确地理解和生成内容。
三、统一训练与推理:一个模型处理多种任务
Muddit最令人印象深刻的特点是它的统一性。无论是从文本生成图像,还是从图像生成文本,它都使用相同的训练目标和推理策略。这就像是用同一套方法学习既能听写(将听到的声音转为文字)又能朗读(将文字转为声音)的能力。
在训练阶段,无论是处理文本到图像还是图像到文本的任务,Muddit都应用相同的连续时间负ELBO(Evidence Lower Bound)目标函数。当从文本生成图像时,文本嵌入作为条件;当从图像生成文本时,图像嵌入作为条件。这种对称性使得优化过程在各个任务中保持一致,使模型能够使用单一参数集共同训练这两个方向的生成能力。
在推理阶段,Muddit采用时间反转后验来逐步恢复被掩码的内容。想象一下拼图游戏:一开始所有拼图块都是空白的,随着时间推移,Muddit能够同时预测多个拼图块的内容,而不需要按固定顺序一块一块填补。这种动态方法比自回归方法更灵活,因为它不依赖于固定的标记顺序,而是基于对任意可见标记子集的理解来预测。
Muddit支持三种主要任务:文本到图像生成、图像到文本生成(图像描述)和视觉问答。在所有这些任务中,唯一的变化是提供给生成器的条件源;扩散过程和指导逻辑保持不变。比如,在文本到图像生成中,文本编码器产生文本标记嵌入作为条件;在图像到文本生成中,图像编码器产生的视觉标记作为条件;在视觉问答中,则同时使用图像和问题作为条件。
此外,Muddit还应用了无分类器引导技术来提升生成质量。这就像是给模型提供了一个参考点,告诉它"这是你应该避免的方向",从而使它能够更好地朝着期望的方向前进。这种技术在所有三种任务中都使用相同的引导规则,进一步体现了模型的统一性。
四、实验结果:小模型也能有大能力
Muddit的实验设置分为两个阶段:预训练和监督微调。在预训练阶段,研究团队使用了大约350万个图像-文本对,其中包括约200万对经过重新描述的高质量图像-文本对。在监督微调阶段,他们使用了包括LLaVA-Instruct-150K和MG-LLaVA调优集在内的指令跟随数据集,以及50万对精心策划的高质量图像-文本对。
在文本到图像生成任务上,Muddit在GenEval基准测试中取得了0.61的总体准确率,超过了之前的离散扩散模型如Monetico(0.44)和Meissonic(0.54),并接近Stable Diffusion 3(0.62)的性能,尽管后者的参数量远大于Muddit的1B参数。特别是在"两个物体"子集上得分0.72,在"计数"上得分0.54,展现出强大的组合推理能力。
在图像到文本生成和视觉问答任务上,Muddit同样表现出色。在MS-COCO图像描述任务上,它获得了59.7的CIDEr得分,超过了更大的模型如Show-O和D-DiT。在VQAv2基准测试中,它达到了67.7%的准确率,超过了其他基于扩散的模型如D-DiT(512×512),并接近使用13B参数的自回归模型LLaVA-Next的性能。
在推理速度方面,Muddit以其并行离散扩散解码器,将平均延迟降低到仅1.49秒,比竞争基线快4到11倍(比Qwen-2.5-VL快4.2倍,比Show-o快5.6倍,比BLIP-2快8.1倍,比LLaVA-1.6快10.9倍)。
五、消融研究:每个组件都很重要
研究团队进行了详尽的消融实验,分析了各种设计选择对Muddit性能的影响。首先,他们研究了扩散时间步数的影响。结果表明,增加扩散步数通常会提高性能,大多数指标在T=32-50时趋于稳定。特别是GenEval和CIDEr分数从T=8到T=32有显著改善,但之后边际收益递减。而VQAv2在不同时间步数下保持相对稳定,表明较少的步数足以处理判别性任务。
其次,他们分析了文本损失权重的影响。中等文本损失权重(约0.6)产生了最佳的整体性能。CIDEr和GenEval分数在这个值附近达到峰值,表明过度强调或过度忽视文本都会损害生成质量。值得注意的是,VQAv2性能随着文本监督的增加而提高,但在0.6之后开始趋于平稳。
第三,研究了联合训练的效果。"联合训练"指的是在图像标记预测和文本标记预测上都使用交叉熵损失,而"非联合训练"仅在文本标记预测上应用损失。结果显示,移除联合训练导致GenEval性能从61.6急剧下降到28.3,超过了任何其他变量带来的变化。与此同时,CIDEr几乎保持不变(59.4→58.38),表明语言质量得到保留,而VQAv2仅略微下降(69.2→67.8)。这一发现强调了统一优化对多模态一致性的必要性。
六、Muddit的潜力与局限
尽管Muddit在推进离散扩散用于统一多模态生成方面取得了重大进展,但它仍然存在一些局限性。首先,由于其基于标记级别的离散表示,该模型在生成逼真或高分辨率图像方面可能不如连续扩散模型。其次,Muddit是从预训练的文生图基础模型初始化的,这提供了强大的视觉先验,但限制了其进行丰富文本理解和生成的能力,使其不太适合需要长形式理解和生成或深度语言推理的任务。
不过,Muddit探索了多模态生成的新范式,通过利用强大的视觉先验作为骨架,而不是追随当前扩展大型语言模型的趋势。这为高效、接地的多模态生成提供了一条互补的路径,特别是在以视觉为中心的应用中。该模型能够以快速、并行的方式生成对齐的视觉和文本输出,这对下游任务可能有益,特别是在基于完成的场景中,如掩码字幕、图像编辑和代码实现。
七、结论:离散扩散的未来
在这项研究中,研究团队展示了Muddit这一统一生成框架,它利用离散扩散来连接文本和图像模态。通过在单一模型中统一图像和文本生成,Muddit在文本到图像、图像到文本和VQA任务上展现出强大的性能。值得注意的是,它超越或匹配了明显更大的自回归模型的能力,同时实现了快速、并行的推理。
这些结果证实了离散去噪作为通用建模策略的有效性,并强调了其作为未来多模态系统可扩展骨架的潜力。正如研究团队所希望的,这项工作可能会启发统一生成建模的新趋势,基于离散扩散,超越传统文本到图像合成和文本合成的边界。
当我们展望未来,Muddit代表了一种有前途的方向,将不同的模态和任务统一在一个连贯的框架下。通过结合并行处理的效率和预训练模型的丰富知识,这种方法可能会继续推动人工智能系统在理解和生成多种形式内容方面的能力。随着这一领域的发展,我们可以期待看到更多像Muddit这样的创新,它们不仅提高性能,还提供更直观、更统一的方式来思考跨模态任务。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。