微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上海交通大学团队打造全新统一模型：让AI像人类一样边看边想边画

多模态AI统一模型跨模态推理

上海交通大学团队打造全新统一模型：让AI像人类一样边看边想边画

作者：科技行者

2026-04-13 09:45

分享至：

上海交通大学团队发布LatentUM统一模型，首次实现视觉理解与生成在同一语义空间中的无缝融合。通过创新的MBAQ量化方法和混合专家架构，该模型能够对自生成图像进行实时推理，在视觉空间规划等复杂任务上达到接近完美的表现，为构建真正智能的多模态AI系统开辟了新路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-13 09:45 • 科技行者

这项由上海交通大学联合清华大学和加州大学圣地亚哥分校共同完成的研究，发表于2026年4月的计算机视觉顶级会议论文集中，研究编号为arXiv:2604.02097。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能的发展历程中，一个长期存在的挑战就是如何让机器像人类一样，既能理解图像又能生成图像，并且在这两个过程之间进行无缝的推理。目前的AI系统往往像是两个独立的专家——一个擅长看图说话，另一个擅长根据描述画画，但它们彼此之间缺乏有效的沟通。上海交通大学的研究团队提出了一个革命性的解决方案：LatentUM，这是一个能够在统一的语义空间中处理多种模态信息的模型。

传统的多模态AI系统面临着一个根本性的问题——就像两个说不同语言的人试图合作一样。理解图像的模块使用一套"语言"（语义特征），而生成图像的模块使用另一套"语言"（像素特征）。当系统需要对自己生成的图像进行推理时，就必须先将图像转换成像素，再重新编码成语义特征，这个过程不仅效率低下，还会引入偏差和错误。LatentUM的创新之处在于让这两个模块说同一种"语言"——都使用语义特征进行交流。

一、统一语义空间的构建：让AI学会"同一种语言"

LatentUM的核心思想可以比作培训一个既能看懂画又能画画的艺术家，而且这个艺术家在看画和画画时使用的都是同一套思维体系。研究团队首先需要解决的问题是如何构建这个统一的语义空间。

他们选择了CLIP特征作为基础，CLIP是一种已经被证明能够很好地连接图像和文本的表示方法。但是，CLIP特征是连续的数值，而语言模型更擅长处理离散的符号。为了解决这个问题，研究团队开发了一种叫做"模型行为对齐量化"（MBAQ）的方法。

MBAQ的工作原理可以这样理解：假设有一个经验丰富的艺术鉴赏家，他能够通过观察原画来判断画作的内容和风格。现在研究团队要训练一个助手，这个助手只能看到经过特殊处理的画作副本，但必须给出与鉴赏家完全相同的判断。在训练过程中，助手需要不断调整自己的观察方式，直到他的判断与鉴赏家的判断完全一致。

具体来说，研究团队使用视觉问答任务来训练量化器。他们让视觉语言模型分别对原始的CLIP特征和量化后的特征进行问答，然后最小化两者输出分布之间的差异。这样训练出来的量化器能够保留对理解任务最重要的语义信息，而不是简单地重建像素细节。

二、混合专家架构：专业分工与协同配合

为了避免视觉理解和视觉生成任务之间的相互干扰，研究团队设计了一种叫做"模态混合专家"（MoME）的架构。这就像一个工作室里有两组专业人员：一组专门负责分析和理解艺术作品，另一组专门负责创作新的作品。

在每个Transformer层中，都有两套并行的参数分支：理解分支和生成分支。理解分支处理文本和视觉特征的理解任务，而生成分支专门负责生成视觉令牌。虽然它们有各自的专业领域，但通过共享的注意力机制，两个分支可以相互交流信息，就像工作室里的分析师和画家可以随时沟通一样。

这种设计的巧妙之处在于，生成的视觉令牌可以直接被理解分支读取和分析，无需任何中间转换。当模型生成一个视觉令牌后，它立即就能"看懂"自己画的是什么，并基于这个理解继续进行后续的推理和生成。

三、跨模态推理能力：从简单生成到复杂思考

有了统一的语义空间，LatentUM展现出了令人印象深刻的跨模态推理能力。研究团队在三个主要应用场景中验证了这种能力。

在视觉生成的自我反思方面，LatentUM可以在生成图像后立即对自己的作品进行评价和改进。就像一个画家在完成一幅画后，能够立即发现画中的不足并进行修改。具体来说，模型生成图像后，会对照原始提示进行多个维度的检查：物体是否存在、数量是否正确、颜色是否匹配、位置关系是否合理等。基于这些自我评价，模型可以通过强化学习不断改进自己的生成质量。

在视觉空间规划任务中，LatentUM展现了更加复杂的推理能力。面对迷宫导航问题时，模型采用了两种策略。粗粒度规划类似于先在脑海中构建整个路径图，然后一次性给出完整的解决方案。而细粒度规划则更像是一步一步地探索，每走一步都会更新对环境的理解，然后基于新的理解决定下一步行动。

世界模型的应用展示了LatentUM在时间维度上的推理能力。给定当前的环境状态和即将执行的动作，模型能够预测下一时刻的环境状态。更令人惊喜的是，由于动作也被表示为文本令牌，模型甚至可以理解自然语言描述的动作指令，比如"靠近左边的房子"，然后生成相应的未来视觉状态。

四、实验验证：全面超越现有方法

研究团队在多个基准测试上验证了LatentUM的效果。在基础的视觉理解任务上，即使使用量化后的特征，LatentUM的性能也与使用原始特征时相当，这证明了MBAQ方法的有效性。在某些情况下，量化特征甚至表现得更好，因为它们去除了对理解任务无关的细节信息。

在视觉生成任务上，LatentUM在GenEval基准上达到了0.85的分数，超过了所有其他统一模型，尽管使用的训练数据相对较少。更重要的是，通过自我反思的强化学习训练，模型在GenEval上的表现进一步提升到0.87，在GenEval2上更是达到了31.3的高分，大幅超越其他方法。

在视觉空间规划任务上，LatentUM的表现尤为出色。在细粒度规划模式下，模型在不同难度级别的迷宫上都达到了接近完美的准确率，在最高难度的6×6迷宫上仍然保持97%的成功率。这个结果不仅超越了所有现有的视觉推理模型，也验证了统一语义表示对复杂推理任务的重要性。

五、技术细节与创新突破

LatentUM的成功离不开几个关键的技术创新。首先是MBAQ量化方法，它不同于传统的基于像素重建的量化方法，而是专注于保持视觉理解能力。研究团队使用多码本量化技术，将每个视觉令牌分解为8个子令牌，每个子令牌从一个包含2048个条目的码本中选择，这样可以用相对较少的码本条目表示出巨大的有效词汇量。

在训练策略方面，研究团队采用了分阶段的方法。首先训练MBAQ量化器，然后固定理解分支的参数，只训练生成分支，这样可以保持原有的理解能力不被破坏。对于需要跨模态推理的任务，再进行联合微调。

为了处理序列中多个视觉状态的训练，研究团队设计了特殊的注意力掩码机制，让同一批次中的不同视觉段落可以并行处理，同时保持各自的因果结构。这个设计解决了训练效率的问题，使得模型可以在一次前向传播中处理整个推理序列。

像素解码器的设计也很巧妙。它基于现有的扩散模型架构，但用量化的语义特征替代了原有的文本条件。重要的是，这个解码器是独立训练的，核心模型从不直接优化像素重建损失，这保持了语义空间的纯粹性。

六、应用前景与意义

LatentUM的成功展示了统一多模态AI系统的巨大潜力。在实际应用中，这样的系统可以用于智能设计助手，它不仅能根据用户描述生成设计图，还能分析设计的合理性并提出改进建议。在教育领域，它可以帮助创建互动式的视觉学习材料，根据学生的理解程度动态调整内容的复杂度和表现形式。

在机器人领域，LatentUM的世界模型能力特别有价值。机器人可以在执行动作前先在"脑海"中模拟可能的结果，这种能力对于复杂环境中的导航和操作任务至关重要。而且，由于模型能理解自然语言指令，人机交互也会变得更加自然和直观。

研究团队也坦诚地指出了当前的局限性。模型目前只支持固定分辨率的生成，训练规模相对较小。在世界模型应用中，系统仍然依赖像素空间的递归接口，而非完全的潜在递归预测。此外，由于MBAQ目前只对齐到单一视觉语言模型的行为，学到的语义表示的通用性还需要进一步探索。

不过，这些限制也指明了未来的发展方向：扩大预训练数据和模型规模、支持可变分辨率和更长上下文的生成、改进长期预测的时间一致性，以及开发完全在潜在空间中运行的世界模型和规划流程。

说到底，LatentUM代表了多模态AI发展的一个重要里程碑。它证明了通过巧妙的架构设计和训练策略，我们可以构建出既高效又强大的统一AI系统。这种系统不仅在技术上更加优雅，也为实现真正智能的AI奠定了基础——一个能够像人类一样seamlessly地在理解和生成之间切换，在不同模态之间进行复杂推理的AI系统。

虽然距离实现人类级别的多模态智能还有很长的路要走，但LatentUM无疑为我们指明了一个充满希望的方向。它告诉我们，统一的表示学习不仅是可能的，也是实现更强大AI系统的关键。

Q&A

Q1：LatentUM与现有的多模态AI系统有什么根本区别？

A：LatentUM的最大区别是实现了真正的统一语义空间。传统系统中，理解图像和生成图像使用不同的"语言"，需要像素转换作为桥梁，效率低且容易出错。LatentUM让这两个功能使用同一套语义表示，生成的图像可以直接被模型理解，无需任何转换，就像培养了一个既能看懂画又能画画，且思维体系完全一致的艺术家。

Q2：MBAQ量化方法为什么比传统的像素重建方法更好？

A：MBAQ专注于保持视觉理解能力，而不是重建像素细节。就像训练一个艺术助手，传统方法要求助手完美复制每个笔触，而MBAQ只要求助手的艺术判断与专家一致。这样训练出来的系统能够保留对理解任务最重要的语义信息，去除无关的视觉细节，使得生成的图像更符合语义要求而不是像素完美。

Q3：LatentUM在实际应用中能做什么传统AI做不到的事？

A：LatentUM可以进行真正的跨模态推理，比如在生成图像后立即评判自己的作品并改进，或者在复杂的空间规划任务中边走边思考边更新策略。在世界模型应用中，它甚至能理解自然语言动作指令如"靠近左边的房子"，然后生成相应的未来视觉状态。这些能力让AI从简单的生成工具变成了真正能够思考和推理的智能系统。

多模态AI统一模型跨模态推理

分享至