微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

南京大学等发布Omni-Diffusion：首个基于扩散模型的多模态AI系统，任意输入都能变任意输出

多模态AI扩散模型语音图像生成

南京大学等发布Omni-Diffusion：首个基于扩散模型的多模态AI系统，任意输入都能变任意输出

作者：科技行者

2026-03-19 09:38

分享至：

南京大学等研究机构联合发布了首个基于掩码离散扩散模型的多模态AI系统Omni-Diffusion，实现了文字、语音、图片间的任意转换。该系统摒弃传统的多模块架构，采用统一的语义表示空间，支持并行生成和图像修复等功能，在多项测试中表现优异，代表了多模态AI从专门化向通用化转变的重要进展。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-19 09:38 • 科技行者

这项由南京大学联合腾讯优图实验室和中科院自动化所完成的研究发表于2026年的arXiv预印本平台（论文编号：arXiv:2603.06577v1），代表了多模态人工智能领域的重要突破。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

当你和朋友聊天时，可能会发出语音消息，配上一张照片，再加上几句文字说明。这种混合使用文字、语音和图片的交流方式对人类来说再自然不过，但对人工智能来说，却一直是个巨大挑战。现在，研究人员找到了一种全新的解决方案，就像为AI配备了一个"万能翻译器"，能够在文字、语音、图片之间自由切换和转换。

传统的多模态AI系统就像一个专门的翻译团队，每种语言（文字、语音、图片）都需要专门的翻译员，然后由一个总协调员（通常是大语言模型）来统筹。这种方式虽然能工作，但就像接力赛一样，信息在不同模块间传递时容易丢失或失真。更重要的是，这些系统只能按照固定的顺序一个词一个词地生成内容，就像必须从左到右写字一样，无法跳跃或并行处理。

研究团队提出的Omni-Diffusion系统采用了完全不同的思路。它不是依赖多个专门翻译员，而是训练出了一个真正的"多语言天才"，能够直接在文字、语音和图片的统一表示空间中工作。这种做法的核心在于使用了一种叫做"掩码离散扩散模型"的技术。

为了理解这种技术，可以想象一个填字游戏的变种版本。在传统的自回归模型中，AI就像必须按顺序填完整个填字游戏，一个格子一个格子地从左到右进行。而扩散模型则更像是一个魔法修复过程：首先将完整的内容（文字、语音或图片）故意"打乱"，用特殊的遮罩符号随机替换其中一些部分，然后训练AI学会如何将这些被遮罩的部分恢复原样。

这种方法的巧妙之处在于，AI不需要严格按照顺序生成内容，而是可以同时处理多个位置，就像多个人同时在填字游戏的不同位置工作一样。更重要的是，无论输入的是文字描述、语音指令还是图片，AI都将它们转换成统一的"数字代币"形式，然后在同一个空间中进行理解和生成。

Omni-Diffusion系统的架构设计也颇具创新性。对于图片处理，它采用了预训练的MAGVIT-v2图像分词器，可以将图片压缩成紧凑的数字代表形式，就像将一幅画转换成一串密码。对于语音处理，系统使用SenseVoiceSmall进行语音编码，GLM-4-Voice解码器进行语音生成，这相当于为AI配备了"听力"和"发声"器官。而整个系统的"大脑"则是基于Dream-7B的预训练扩散语言模型，经过扩展以支持多达16384个语音代币和8192个图像代币。

为了让这个复杂的系统能够稳定有效地工作，研究团队设计了一套精巧的三阶段训练策略。这个过程就像培养一个多才多艺的学生：第一阶段专注于视觉和语言的结合，让AI学会理解图片和文字之间的关系；第二阶段加入语音训练，让AI掌握语音识别和语音合成能力；第三阶段则通过特殊构建的语音驱动视觉交互数据集，让AI学会处理更复杂的多模态任务。

在第三阶段，研究团队特别构建了一个名为SDVI（Speech-Driven Visual Interaction）的数据集。这个数据集包含了语音视觉问答和语音生成图像两类任务的样本。为了确保数据质量，他们首先过滤掉包含数学计算或编程内容的样本，因为这些在日常语音对话中并不常见。然后将选择题转换为开放式问答，并限制答案长度，因为人们在口语交流中更喜欢简洁的回应。最终，这个数据集包含了超过30000个语音图像配对样本。

系统在训练过程中还采用了一种叫做"渐进式尾部填充掩码"的技术。传统的训练方法在处理不同长度的内容时会遇到困难，就像让所有学生都用同样长度的作文纸写作文一样不合理。新方法通过在每个样本末尾添加随机数量的填充符号，并对这些填充符号使用较低的掩码比例，避免了AI过度关注这些无意义的符号，从而提高了生成质量。

在推理阶段，Omni-Diffusion采用了基于熵的解码策略。这种方法的工作原理类似于一个经验丰富的拼图玩家：AI会先评估每个位置的"确信度"，优先填充那些它最有把握的位置，然后逐步处理那些不太确定的部分。整个过程从完全被掩码的序列开始，逐步迭代直到所有位置都被正确填充。

为了进一步提升性能，研究团队还开发了几种专门的推理技术。对于图像生成，他们提出了"位置惩罚"策略，通过在生成早期阶段降低序列末尾部分的权重，避免AI同时从序列两端开始生成而导致的重复模式问题。这就像告诉AI在画画时要从中心开始，而不是同时从上下两端开始画，避免产生奇怪的对称图案。

对于语音任务，系统采用了"特殊标记预填充"和"自适应标记长度分配"两种策略。前者类似于在空白试卷上预先标记好题目类型，帮助AI更好地组织答案结构；后者则根据语音和文字长度的关联性，智能预估需要生成的内容长度，从而提高效率和准确性。

实验结果显示，Omni-Diffusion在各种任务上都表现出色。在语音任务方面，与现有的任意到任意多模态模型AnyGPT相比，它在自动语音识别任务上的词错误率从8.50%降低到7.05%，在文字转语音任务上更是从5.64%的词错误率大幅降低到3.07%。这种改进相当于将识别准确率提升了一个显著级别。

在视觉任务方面，Omni-Diffusion在多个标准测试中都达到了与专门的视觉语言模型相当的性能。在POPE测试中得分76.6，MME感知测试中获得1216.7分，Seed-2-Plus测试达到34.5分，这些分数都表明系统具备了强大的视觉理解能力。更令人印象深刻的是，在文字到图像生成任务中，系统的CLIP-T分数达到0.235，CLIP-I分数为0.667，显示出良好的文本图像对齐能力和视觉质量。

特别值得关注的是系统在跨模态对齐方面的表现。研究团队通过语音到图像生成任务测试了系统的统一对齐能力，结果显示无论输入是文字还是语音，生成的图像质量几乎相同，这证明了系统确实实现了不同模态间的深度融合，而不是简单的模块组合。

Omni-Diffusion的一个突出优势是其采样效率。不同于传统的自回归模型必须逐个生成token，扩散模型可以并行解码多个位置，显著提高了生成速度。实验表明，即使将推理步数从256步大幅减少到仅10步，系统在文字到图像任务上的性能几乎没有下降，CLIP-T分数仅从0.235微降至0.226。这种效率提升对于实际应用具有重要意义，使得实时交互成为可能。

系统还展现出了强大的图像修复能力。由于采用掩码预测机制，Omni-Diffusion可以在无需额外训练的情况下进行图像修复。只需将需要修复的区域替换为掩码标记，系统就能生成与周围环境协调的内容，这种能力在传统的自回归模型中是难以实现的。

研究团队通过大量定性实验展示了系统的实际应用效果。在语音驱动的视觉交互任务中，系统能够准确理解用户的语音问题，分析图像内容，并生成自然流畅的语音回答。例如，当用户用语音询问"基于大象的位置，你能推断它们之间的关系吗？"时，系统不仅能够识别图像中的大象，理解它们的空间关系，还能用自然的语音回答"大象们正在一起行走，成年象和小象彼此跟随，它们似乎处在一个社交环境中，可能是象群的一部分。"

在文字到图像和语音到图像的对比实验中，研究团队发现当输入相同语义内容时，无论是通过文字还是语音形式，系统都能生成语义一致的高质量图像，这进一步证明了统一表示空间的有效性。比如，文字描述"一个沙漠景观，地平线上有稀薄的亚利桑那云彩，动画风格"和相应的语音描述都能生成风格相似、语义匹配的图像。

与现有的多模态系统相比，Omni-Diffusion最大的创新在于彻底摒弃了传统的"中心辐射"架构，即以大语言模型为核心，其他模态作为外围模块的设计思路。相反，它采用了真正的统一建模方式，所有模态都在同一个语义空间中进行表示和处理，这使得不同模态间的信息交互更加直接有效。

这种设计理念的改变带来了多个方面的优势。首先是推理的灵活性：系统可以根据任务需要选择最优的生成策略，而不是被固定的生成顺序束缚。其次是语义对齐的一致性：由于所有模态共享相同的表示空间，它们之间的语义关联更加紧密自然。最后是扩展性的提升：添加新的模态或任务类型变得更加容易，只需要相应的编码器和解码器，而不需要重新设计整个系统架构。

当然，这项研究也面临一些挑战和限制。目前系统主要支持文字、语音和图像三种模态，对于视频、3D模型等其他重要模态的支持还有待进一步研究。此外，虽然扩散模型在生成质量和灵活性方面有显著优势，但其计算复杂度相对较高，在资源受限的环境中可能面临部署挑战。

从技术发展的角度来看，Omni-Diffusion代表了多模态AI研究的一个重要方向转变。过去十年中，大部分研究都集中在如何更好地整合现有的单模态专家系统，而这项工作则探索了从根本上重新思考多模态系统架构的可能性。这种范式转变可能会启发更多研究者重新审视多模态学习的基本假设和方法论。

对于普通用户而言，这项技术的成熟将带来更加自然便捷的人机交互体验。用户可以通过最舒适的方式表达需求，而AI系统则能够以最合适的形式提供回应。比如，你可以用语音描述想要的图片，AI直接生成相应图像；或者上传一张照片，用语音询问相关问题，AI用语音进行详细解答。这种无缝的多模态交互将使AI助手变得更像一个真正理解人类沟通方式的智能伙伴。

从产业应用的角度来看，Omni-Diffusion技术有望在多个领域产生重要影响。在教育领域，它可以帮助创建更加丰富互动的学习内容，学生可以通过语音提问，系统生成相应的图像解释和语音说明。在创意产业中，设计师和内容创作者可以通过自然语言描述快速生成概念图像，大大提高创作效率。在无障碍技术方面，这种多模态转换能力可以帮助视觉或听觉障碍用户更好地获取和表达信息。

研究团队在论文中还详细讨论了模型的训练细节和优化策略。他们使用AdamW优化器，在前两个阶段设置学习率为1e-4，第三阶段降低至1e-5以确保微调的稳定性。最大序列长度设置为3072个token，这个长度足以处理大多数实际应用场景。在掩码策略方面，他们将衰减因子γ设置为0.6，位置惩罚参数γp设为0.5，这些参数都是通过大量实验优化得出的最佳配置。

值得一提的是，研究团队在数据集构建方面也做了大量工作。除了使用现有的公开数据集如LibriSpeech、LibriTTS、LAION-2B等，他们还构建了专门的SDVI数据集来训练语音驱动的视觉交互能力。这个数据集的构建过程非常精细，包括使用LLaVA-OneVision作为视觉问答的数据源，通过Cosyvoice2模型进行语音合成，并采用声音克隆技术确保语音的多样性，避免模型过拟合特定的声音特征。

从更宏观的视角来看，这项研究反映了AI领域正在从"专门化"向"通用化"转变的趋势。早期的AI系统往往专注于单一任务或模态，通过不断优化特定领域的性能来取得突破。而现在，研究者们越来越意识到，真正智能的系统应该具备跨模态、跨任务的通用能力，就像人类大脑一样可以无缝处理视觉、听觉、语言等各种信息。

这种统一建模的思路也与近年来大模型发展的总体趋势相符。从GPT系列的语言统一，到CLIP的视觉语言统一，再到现在的多模态统一，我们可以看到AI系统正在朝着更加综合、更加智能的方向发展。Omni-Diffusion在这个发展脉络中代表了一个重要的里程碑，它不仅实现了多模态的技术统一，更重要的是验证了这种统一建模方式的可行性和有效性。

说到底，这项研究最重要的意义不仅在于技术本身的突破，更在于它为我们展示了多模态AI发展的新可能性。当AI系统不再需要在不同的"专业部门"之间转换信息，而是可以在统一的"认知空间"中直接理解和生成各种形式的内容时，我们距离真正智能的AI助手又近了一步。这种技术的成熟将让人机交互变得更加自然流畅，就像和一个真正理解你的朋友对话一样轻松愉快。当你想要什么内容时，不管是用说的、写的还是画的，AI都能立即明白并以你最需要的方式回应，这样的未来或许比我们想象的更近一些。

Q&A

Q1：Omni-Diffusion相比传统多模态AI有什么不同？

A：传统多模态AI像翻译团队，需要专门的模块处理不同的内容类型，然后由大语言模型协调整合。而Omni-Diffusion采用统一的扩散模型直接在同一个语义空间中处理文字、语音和图片，避免了信息在不同模块间传递时的损失，就像一个真正的多语言天才直接理解和转换各种形式的信息。

Q2：扩散模型生成内容的方式有什么优势？

A：扩散模型的工作方式像修复被破坏的拼图，可以同时处理多个位置而不需要严格按顺序生成，这样既提高了生成速度又增加了灵活性。而且这种方式天然支持图像修复等任务，只需要把需要修复的部分标记为遮罩，系统就能自动填充合适的内容，这是传统逐词生成的模型难以实现的。

Q3：普通人什么时候能用上这种技术？

A：目前Omni-Diffusion还是研究阶段的技术，但它展示的能力非常实用，比如用语音描述就能生成图片，或者上传照片用语音提问就能得到语音回答。考虑到AI技术的快速发展速度，预计在未来几年内这类技术就会集成到各种应用中，让我们的日常交流和创作变得更加便捷自然。

多模态AI扩散模型语音图像生成

分享至