微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上交大与腾讯联合研究：教AI用"语义地图"同时看懂和画好图，多模态模型的"左右脑"终于协调了

多模态大模型语义分割模型优化

上交大与腾讯联合研究：教AI用"语义地图"同时看懂和画好图，多模态模型的"左右脑"终于协调了

作者：科技行者

2026-05-26 17:34

分享至：

上交大与腾讯ARCLab提出SGT方法，通过将图像分割作为生成代理任务，有效打通统一多模态模型中理解与生成两种能力的表示空间，在多个主流评测上取得一致性提升。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-26 17:34 • 科技行者

这项由上海交通大学与腾讯ARCLab联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.18714，感兴趣的读者可以通过这个编号在arXiv平台查阅完整原文。

**一个困扰AI工程师很久的烦恼**

现在的AI已经能做很多事了——你给它一张图，它能告诉你图里有什么；你给它一段文字，它能画出对应的图。但有一个隐藏的尴尬：同一个AI模型，做这两件事的时候，用的竟然是两套几乎"互不相识"的内部逻辑。

打个比方，这就像一个厨师，切菜时靠的是右手的感觉，装盘时靠的是左手的经验，两只手却从来不沟通。你觉得他做出来的菜，装盘的摆设会和食材的处理完美配合吗？多半会有点错位。

这就是当下所谓"统一多模态模型"（Unified Multimodal Models，简称UMM）的真实处境。这类模型把"看图说话"和"根据文字画图"两种能力塞进了同一个框架里，听起来很美好，但两种能力在训练时走的完全是两条路：理解图片靠的是稀疏的文字标注，生成图片靠的是像素级的重建目标。一个抽象、一个具体，两者之间没有真正的桥梁，导致模型的两种能力很难互相促进。

研究团队注意到，已经有人尝试解决这个问题——让模型在理解图片的同时，也去"重建"图片的像素，希望用这个额外的练习来打通两者。然而，这个方法效果并不理想。原因很简单：重建像素，本质上是让模型去记住图片的每一个细节、每一个纹理、每一个颜色的精确值，但这跟真正"理解图片的意思"关系不大。就好像你想让一个人学会读懂地图，却让他花大量时间去临摹地图上每一根等高线的曲折形状——这两件事方向差了十万八千里。

正是为了找到一个真正有效的"桥梁"，这支研究团队系统性地做了一次大规模实验，最终发现了一个出乎意料却又在情理之中的答案：让模型去生成"语义分割图"，也就是把图片中每一块区域涂成代表其类别的颜色块，是打通理解和生成的最优桥梁。他们把这套方法命名为**语义生成调优**（Semantic Generative Tuning，SGT）。

**一、AI的"左右脑"为何总是打架**

要理解这项研究解决了什么问题，首先得明白统一多模态模型是怎么工作的。

你可以把这类模型的内部结构想成一个人有两个专业工作间。第一个工作间负责"阅读与理解"：当你给模型一张图，它会用一个叫做"语义视觉编码器"的装置（通常是ViT结构，可以理解为一个专门提取图片语义的分析仪）把图片转化成一组抽象的"语义令牌"，然后结合文字，输出你的问题的答案。第二个工作间负责"创作与生成"：当你给模型一段文字描述，它从一堆随机噪点出发，一步步雕刻出一张图片——这个过程通常还需要一个叫做VAE（变分自编码器，可以理解为图片的精细压缩仪）的装置来保存图片的细节纹理。

这两个工作间共用同一栋楼（同一个底层语言模型框架），但训练时各干各的。理解工作间靠的是"文字答案"来学习，生成工作间靠的是"像素重建"来学习。结果就是：两个工作间里的"世界观"完全不同，互相并不了解对方在做什么。

研究团队把这种状态形象地描述为"共享架构、分离优化"——外表是一家人，内心是两条平行线。这带来的直接后果是，模型在理解图片时并不能从自己会"画图"这件事中获益，反之亦然。两种能力之间原本应该存在的相互促进，在现实中几乎没有发生。

**二、做了一张"视觉任务菜单"，逐一测试哪种练习最有效**

研究团队想弄清楚一个核心问题：如果要给模型加一种"额外的视觉练习"来同时提升它的理解和生成能力，什么样的练习效果最好？

为了回答这个问题，他们设计了一个系统性的实验。他们把各种计算机视觉任务按照"语义层次"从高到低排了一个序，形成一张完整的菜单，然后分别用这些任务来给模型做额外训练，再看看模型在理解和生成两方面的表现各有什么变化。

菜单的最高层是"高层语义任务"：包括图像分割（把图片里每个区域涂成对应类别的颜色块）和目标检测（在图片上画出物体的边框并标注类别）。这两种任务要求模型理解图片里"有什么、在哪里、是什么形状"，是高度抽象的语义信息。

菜单的中间层是"中层任务"：包括深度估计（预测每个像素离相机有多远）和图像修复/补全（把被遮住的区域填回去）。这些任务既需要一定的语义理解，也需要关注空间结构信息。

菜单的最底层是"低层任务"：包括边缘检测（找出图片中颜色突变的轮廓线）、图像去噪、去雨去雾、去模糊、低光增强和超分辨率等。这些任务主要关注图片的像素级细节和纹理，与语义关系最弱。

为了保证比较的公平性，所有任务都使用了相同的一批图片作为输入，训练数据量完全相同，唯一的区别就是"练习目标"不同。实验分别在两个主流的统一多模态模型架构上进行——BAGEL（规模约14B参数，采用混合Transformer框架）和OmniGen2（规模约7B参数，采用理解模块指导生成模块的架构）——以确保结论的普适性。

评估方面，研究团队搭建了一套非常全面的测试体系，覆盖六大理解能力维度：以视觉感知为核心的测试（比如CV-Bench和MMVP）、空间推理（VSR和SIBench-mini）、抗幻觉能力（POPE和HallusionBench）、通用视觉问答（MMBench和MMMU）、图表与OCR识别（OCRBench和DocVQA）、数学与知识推理（MathVista和ScienceQA）。生成能力则主要用GenEval评测，该测试专注于评估模型生成的图片是否真正符合文字描述的语义要求。

**三、实验结论：不是越细越好，而是越"懂意思"越好**

实验结果给了研究团队三个清晰的结论。

第一个结论是：高层语义任务，特别是图像分割，在提升模型理解能力方面远远优于低层任务。在理解能力的雷达图上，分割任务带来的提升几乎在每个维度上都显著高于边缘检测、深度估计或像素重建。研究团队解释说，这是因为分割任务要求模型去提取图片的"结构性语义"——哪里是人、哪里是车、哪里是树——这和理解模型需要掌握的内容高度一致。而低层任务则让模型把注意力集中在像素细节上，这些细节对于回答"图里有几只猫"这类问题毫无帮助，反而是干扰。

第二个结论是：视觉监督信号只能强化感知，不能强化推理。在数学题、图表识别、知识型问答等高度依赖语言逻辑和先验知识的任务上，所有视觉练习都几乎没有带来提升，个别情况下甚至略有下降。这说明"看图练习"能让模型更会"看"，但没办法让它更会"想"——这是两种性质不同的能力，不能指望通过视觉训练来提升逻辑推理。

第三个结论是：各种视觉练习在改善空间布局忠实度方面效果接近。在GenEval的测试中，所有级别的视觉任务都一致地提高了模型生成图片时对"位置"信息的遵循程度，这说明只要让模型练习生成视觉结构，都能让它对文字描述中的空间关系更敏感。不过，高层任务在整体上的提升效果依然更稳定。

把这三个结论综合起来，答案就很清晰了：在高层语义任务，尤其是图像分割上训练模型，是当前最优的"桥梁策略"。研究团队随后也验证了，无论是语义分割、实例分割还是全景分割，甚至是不区分类别的通用分割，效果都相近——关键不在于"分割的是什么类别"，而在于"分割这件事本身要求模型去理解结构"。

**四、SGT到底是怎么工作的：给模型一张"着色任务"**

明确了方向之后，研究团队正式提出了SGT方法。从操作层面来看，SGT的核心思路其实非常直白：拿来一张普通图片，生成它对应的分割图（每个物体被涂成一种固定颜色的色块图），然后训练模型"看原图→生成分割图"。

具体的实现流程是：把原始图片喂给视觉编码器提取语义特征，再加上一段简短的文字指令（比如"请生成这张图的分割结果"），整个模型通过扩散过程去生成目标分割图。训练时冻结了文字编码器的参数，只更新视觉编码器和生成模块，让模型专注于从视觉信号中提取对分割有用的结构性语义信息。

分割图的制作方式也很有讲究。研究团队把MS COCO数据集的原始标注提取出来，把每个实例或类别区域用一种独特的颜色填充，生成三通道的伪彩色图像作为训练目标。这种颜色化处理确保了模型需要学习的是"哪个区域属于哪个类别的边界"，而不是原始像素的精确颜色值。

为了进行完整的后训练（让模型在所有能力上都有所提升），研究团队将SGT数据和监督微调（SFT）数据混合使用。SGT数据全部来自SAM数据集（Segment Anything Model的训练数据，共约190k样本，严格排除与评测集的图片重叠）。SFT数据来自LLaVA-OneVision的官方配方，包含通用视觉问答、文档图表、数学推理、OCR等多个方向共约50万条样本。

训练时，两个模型都使用AdamW优化器。OmniGen2训练约2500步，耗时约4小时；BAGEL训练约10000步，耗时约18小时，均在标准GPU集群上完成，全局批次大小为60。

**五、最优配方和规模效应：分割数据越多越好，配比也有讲究**

在确定了SGT是有效策略之后，研究团队进一步探索了两个实用问题：训练时分割数据和理解数据的比例应该是多少，以及随着分割数据量的增加，效果能持续提升吗？

关于数据配比，实验发现，当一个批次中分割样本与视觉问答样本的比例为2:1时，综合理解能力得分达到最高——BAGEL在这个配比下从基线的约64.9%提升到约67.75%，OmniGen2从基线的约63%提升到约64.89%。比例再往上调，生成质量会继续提升，但理解能力的增益开始减弱，存在一个权衡。研究团队最终采用了2:1作为默认配置。

关于数据规模，研究团队固定了理解数据的量，然后把分割数据从2000条一路扩展到100000条。结果显示，理解能力综合得分随着分割数据量的增加持续单调上升——BAGEL增幅约3.35%，OmniGen2增幅约2.0%。这说明SGT方法具备良好的规模可扩展性，更多的分割数据意味着更好的效果，没有明显的天花板迹象。

从训练过程的动态曲线来看，加入分割数据的模型在POPE（抗幻觉测试，+1.4%）、HallusionBench（+2.6%）和CV-Bench（+6.1%）上收敛速度显著更快，而且最终性能也更高，相比只用视觉问答数据训练的基线，全程处于优势地位。

**六、跟最顶尖的模型比：SGT在两个平台上都交出了亮眼成绩单**

研究团队把SGT增强后的模型——SGT-BAGEL和SGT-Gen2——与当前主流的统一多模态模型做了全面对比。

在大规模模型（7B参数以上）中，SGT-BAGEL的综合表现全面超越了同规模的基线BAGEL。具体来看，在MMVP（视觉感知细节测试）上从83.00提升到83.33，在VSR（空间推理）上从80.45提升到81.54，在HallusionBench（抗幻觉）上从68.34提升到70.24，在MMStar（综合星级评测）上从67.46提升到68.33，在RWQA（真实世界问答）上从71.26提升到72.42，在MathVista（数学视觉推理）上从73.10提升到73.90。在文字转图片生成的GenEval上，得分从88.0提升到90.0，是该规模下的最高分。图像编辑能力（GEdit-Bench-En）从6.64提升到6.94。

特别值得提一下CV-Bench这个以视觉感知为核心的综合测试：SGT-BAGEL达到79.23，比基线BAGEL的73.21提升了超过6个百分点，提升幅度相当显著。

在小规模模型（4B参数以下）中，SGT-Gen2（基于OmniGen2）同样在多个测试上超越了基线，并且在整体表现上超过了同规模的一众竞争者，包括Harmon、OpenUni等模型。

从生成的图片质量来看，SGT增强后的BAGEL在处理"一个苹果在电视上方"、"一条领带在棒球棒右侧"、"一副红色滑雪板和一条棕色领带"这类包含空间关系和颜色属性的复合文字描述时，生成的图片明显比基线更准确，对象位置和颜色属性的对应关系更精确。

**七、打开"黑盒"：SGT为什么会有效**

数字提升了，但为什么会提升？研究团队进一步做了机制分析，从特征分布和注意力权重两个角度拆解了SGT内部发生的变化。

第一个发现是：分割训练让视觉特征变得更加"泾渭分明"。研究团队提取了BAGEL的视觉编码器对一批图片的输出特征，用降维可视化的方式（先PCA降到50维，再t-SNE映射到2维平面）呈现出来。对比结果非常直观：在没有SGT的基线模型中，"三角钢琴"和"立式钢琴"这两类外形相近但结构不同的钢琴图片，在特征空间里混在一起，很难区分。而经过SGT训练后，这两类图片的特征明显聚拢成两个独立的团，边界清晰，类内紧凑，类间分离。这说明分割练习强迫模型去关注"这个物体的结构轮廓是什么样的"，而不是"这个物体的纹理颜色是什么"，由此产生了更具辨别力的视觉表示。

第二个发现是：SGT让模型在深层更多地依赖视觉信息，减少了对语言惯性的盲目依赖。研究团队分析了模型在理解图片时，不同层次的注意力权重是如何分配在视觉令牌和语言令牌之间的。结果显示，经过分割训练后，模型在越深的层（越接近最终决策的层），分配给视觉令牌的注意力权重越高，相比基线有显著提升。在第20层，分割训练带来的视觉注意力增量高达+20.9%；在第25层，增量为+14.6%。这意味着模型在做判断时，更多地锚定在实际看到的视觉证据上，而不是靠语言经验去猜答案——这正是减少幻觉的根本原因。相比之下，低层任务（边缘检测）带来的注意力变化要小得多。

第三个发现是：SGT让生成时的注意力更集中在关键语义词上。研究团队收集了20条包含空间位置和颜色属性的文字描述，分析BAGEL在生成图片的早期几步中，对文字中每个词的注意力权重（生成早期主要确立整体语义布局）。他们把词分为四类：物体名词、位置描述词、颜色词、以及"a/the/of"等功能词。结果显示，经过SGT训练后，模型对物体名词的注意力从33.51%增加到35.09%，对颜色词的注意力从28.15%增加到29.54%，对位置词的注意力从19.58%大幅增加到24.62%，而对功能词的注意力从18.76%下降到10.75%。以"一张一条领带在棒球棒右侧的照片"这个具体提示词为例，"领带"这个词的注意力从4.70%增加到7.45%，"右侧"这个位置词的注意力从9.59%增加到12.64%。这说明SGT有效地让模型在生成时"抓住了重点"。

**八、局限性：SGT不是万能药**

研究团队对这套方法的局限性有清醒的认识。SGT在视觉感知、空间推理和生成布局上效果显著，但它对数学推理、图表解析和符号密集型知识问答基本没有帮助，有时甚至略有下降。这是因为SGT的本质是视觉结构对齐，它不会往模型里注入新的逻辑推理能力或领域知识。

此外，SGT在图像编辑任务（GEdit-Bench-En）上的提升幅度也相对有限，说明如果想让模型在复杂编辑指令上表现更好，还需要专门的图像编辑数据来配合。

研究团队在论文中明确指出，SGT的定位是一个"基础对齐策略"，而不是独立的训练方案。当SGT与理解数据、生成数据配合使用时，才能发挥最大效用。未来的研究方向，他们提到了将SGT与强化学习框架结合，以实现更全面的跨模态能力提升。

---

说到底，这项研究的核心贡献是找到了一种简单而有效的方式，让AI模型的"看图理解"和"生成创作"这两种能力真正地相互促进，而不是各自为政。诀窍在于：不要让模型去记忆图片的像素细节，而是让它学会把图片"解构"成有意义的区域——就像学会把一幅画按照物体边界分区涂色，而不是记住每一笔的颜色值。这种结构性的语义理解，正是连接"看懂图"和"画好图"的那座桥梁。

对于每一个使用AI图文工具的普通用户来说，这项研究意味着未来的AI在同时处理理解和生成任务时，会更加连贯和准确——当你告诉AI"在沙发左边放一盆植物，右边放一只橘猫"时，它出错的概率会更低，对你说的话会更认真地"听进去"。有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.18714找到这篇完整论文。

---

**Q&A**

Q1：语义生成调优（SGT）和以前的像素重建方法有什么本质区别？

A：两者都是给统一多模态模型加"额外的视觉练习"，但方向完全不同。像素重建让模型去记忆图片的每个像素细节，是低层次的信息；而SGT让模型去生成分割图，也就是把图片里每个区域涂成对应类别的颜色块，这需要模型真正理解"这是什么、在哪里"，是高层次的语义信息。正是这种语义层次的差异，让SGT在提升理解能力方面远远优于像素重建方法。

Q2：SGT训练时用的分割数据是从哪来的，普通开发者能复现吗？

A：研究团队使用的分割数据主要来自两个来源：一是MS COCO数据集的原始分割标注（用于探索阶段的实验对比），二是SAM（Segment Anything Model）数据集，共约19万条样本，用于最终的SGT训练。这两个数据集都是公开可获取的，配合论文的开源代码（通过论文中的Project Page链接可以找到），普通开发者是有条件尝试复现的。

Q3：SGT会不会让AI在数学或逻辑推理方面变差？

A：实验数据显示，加入SGT训练后，模型在数学推理（MathVista）和知识问答（ScienceQA）等高度依赖逻辑和先验知识的任务上，性能基本不变，个别情况下略有下滑，但幅度很小。当SGT和视觉问答指令数据混合训练时（这也是推荐的使用方式），数学和知识推理能力与只用指令数据训练时基本持平，不会有明显损失。

多模态大模型语义分割模型优化

分享至