微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

香港中文大学团队的奇思妙想：让AI"看图改图"来同时学会"看图"和"画图"

多模态大模型图像编辑统一训练范式

香港中文大学团队的奇思妙想：让AI"看图改图"来同时学会"看图"和"画图"

作者：科技行者

2026-05-28 09:16

分享至：

香港中文大学等机构提出Uni-Edit，将视觉问答转化为智能图像编辑任务，用一套数据、一个训练阶段，同时提升AI的图像理解、生成和编辑能力，打破多任务训练的性能权衡困境。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-28 09:16 • 科技行者

这项由香港中文大学多媒体实验室（CUHK MMLab）联合天津大学与中国科学技术大学的研究团队共同完成的工作，以预印本形式发布于2026年5月，论文编号为arXiv:2605.21487，感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

一、一台机器，三件事——听起来很美，但做起来有多难？

人工智能领域有一个长久以来的梦想：训练出一个什么都能干的"全能选手"——既能看懂图片里发生了什么，又能从零开始画出一张图，甚至还能按照你的要求对已有的图片进行修改。这种被称为"统一多模态模型"（Unified Multimodal Model，简称UMM）的系统，代表着离真正智能的一大步。

然而，这个梦想的实现并不像说起来那么简单。以厨师为比喻：一个厨师既要会品尝食物的微妙味道（视觉理解），又要能从原材料烹制出一道菜（图像生成），还要能把一道现有的菜稍加改良（图像编辑）。问题是，品尝时需要集中注意力感知细节，而烹饪时则需要掌控全局流程，这两种思维方式从根本上就有些冲突。放到AI的神经网络里，这种冲突更为明显：在网络的深层部分，"理解"任务需要高度抽象的语义信息，而"生成"任务则需要保留精细的结构细节。这就像一块面团，你想把它擀薄做饺子皮，又想把它揉圆做馒头——两种目标在某种程度上互相拉扯。

正因如此，目前主流的做法是"多任务混合训练"，也就是把理解任务的数据、生成任务的数据、编辑任务的数据全部混在一起喂给模型，同时调整各类数据的比例，精心平衡各项任务。这种方法不仅需要多个复杂的训练阶段，还需要大量的数据和繁琐的调参技巧，最终得到的往往是三项能力都勉强过关，但没有一项特别出色的折中结果——更像是一个"全不精"而非"全能"的选手。

这支由CUHK MMLab主导的研究团队提出了一个颠覆性的想法：有没有可能用**一种任务、一个数据集、一个训练阶段**，就同时提升模型的三项核心能力？他们给出的答案是肯定的，而那个关键任务就是——**智能图像编辑**。

二、为什么"改图"能同时练就"看图"和"画图"的本领？

理解这个核心思路需要先想清楚一件事：改图到底需要什么能力？

以这样一个例子来说明：给你一张图片，上面有一个大号金属物体旁边有个球，旁边还有一个立方体。任务是："找到那个大号金属物体右边的大球背后的大物体，如果它是立方体，就把它改成棱锥形；如果不是，就什么都不做。"

要完成这个任务，AI首先得准确理解图片里有什么、它们的空间关系是什么，然后还要能执行精确的图像修改操作，生成一张改过的图。换句话说，改图这件事天然地把"看懂图"和"画出图"两件事捆绑在了一起——任何一个环节出错，任务就会失败。

研究团队正是基于这个洞察，认定图像编辑是一个理想的"桥梁任务"。然而，当他们真正去尝试用已有的编辑数据训练模型时，却发现了一个令人沮丧的现象：不仅没有提升，模型的理解能力反而**下降**了！

这引发了一个关键问题：不是所有的"改图训练"都能带来这种双向提升。那么，问题出在哪里？研究团队经过分析找到了症结所在——现有的图像编辑数据集，使用的指令都太简单了。

目前市面上最常见的编辑指令是这样的："把图中的红色苹果改成绿色苹果。"这种指令虽然也需要理解图片，但理解的深度极为有限，几乎不需要任何推理或知识调用。用厨师的比喻来说，这就像只要求厨师"把盐多加一点"，根本用不到真正的烹饪技术。如此浅显的任务无法有效激活模型深层的理解能力，训练下来，模型的"看图"功能不但没有增强，反而因为过度侧重生成环节而有所退化。

这就引出了这项研究最核心的贡献：他们构建了一套全新的"**智能编辑**"数据，让编辑指令变得足够复杂、足够有深度，迫使模型必须认真"思考"才能完成任务。

三、把考卷变成改图任务——Uni-Edit数据集的诞生

这套名为Uni-Edit-148k的数据集，本质上是将大量视觉问答（VQA）题目转化成了图像编辑任务。视觉问答是一种广泛使用的AI评测形式，给模型一张图片和一个问题，让它回答。问题类型涵盖颜色判断、数量计数、位置识别、数学推理、文字识别、图像描述、形状判断和常识知识等多个领域。

研究团队的做法是：把这些问题"包装"进编辑指令里，让模型不只是回答问题，而是根据回答的结果去修改图片。这个转化过程分四个步骤完成，像一条精心设计的生产流水线。

第一步是给每道题目打上类别标签。研究团队利用GPT-4o这个强大的语言模型，把从LLaVA-OV1.5数据集中获取的原始问题分成七大类：形状、颜色、数量、位置、文字识别（OCR）、图像描述（Caption）和数学推理。

第二步是根据类别生成具体的编辑指令。不同类别有不同的转化策略。对于颜色和形状类问题，有两种变体：一种是"条件判断式"，即先让模型识别出目标属性，然后检查它是否和预设答案一致，如果一致就执行某个修改操作，不一致则保持原样；另一种是"添加生成式"，即让模型识别出答案后，在图中添加一个具有相同属性（但属于不同类别）的新物体。对于数量类问题，也有类似的两种变体。对于位置类问题，指令会要求模型先找到题目中提到的区域，然后用一个不同的物体来替换该区域。对于数学推理类问题，指令要求模型先把解题过程（包括推导步骤和最终答案）写在一块黑板或羊皮纸上，生成一张展示运算过程的图片，使用粉笔风格字体。对于文字识别和图像描述类问题，指令同样要求模型提取相关文字或生成描述，然后以书法或手写风格渲染到一个特定的写作媒介上。对于常识知识类问题，由于LLaVA-OV1.5中这类样本较少，研究团队直接借用了AnyEdit数据集中的知识子集。此外，除了常识知识类任务外，所有类型的指令末尾都会附加一句"优化图像的视觉美感"，这既能进一步提升生成质量，也让任务更贴近真实的编辑需求。

第三步是用目前最强的图像编辑模型Nano-Banana-Pro（简称Nano-Pro，由Google DeepMind提供）来生成对应的目标图片。由于指令的复杂性远超一般编辑数据，即便是Nano-Pro也会频繁出错，大约有10%的样本会失败。为了辅助模型，研究团队在调用Nano-Pro时，额外提供了原始问题和正确答案作为上下文参考。

第四步是用GPT-4o对生成的图片进行质量筛选。筛选标准包括两个维度：视觉质量（图片是否清晰、自然、没有明显的合成痕迹）和指令遵循度（图片是否确实按照指令修改，且内容与原始答案吻合）。经过严格筛选，最终形成了包含14.8万条样本的Uni-Edit-148k数据集。

在这14.8万条样本中，图像描述类任务占比最大（33.3%），位置类任务次之（约16%），数量类任务约占13.3%，数学类约占8.1%，其余类别各有不同比例。这种分布与LLaVA-OV1.5中各类任务的原始分布大致对应，保证了知识覆盖的广度。

四、知道了问题所在，也备好了材料——训练怎么做？

研究团队选择了BAGEL作为基础模型来验证Uni-Edit的有效性。BAGEL是目前公认综合能力最强的统一多模态模型之一，它同时具备图像理解、生成和编辑能力，架构上集成了独立的理解编码器（基于ViT视觉变换器）和生成编码器（基于VAE变分自编码器），两者通过共享的Transformer主干相互协作。选择一个强基线来验证方法，能更有说服力地证明改进的真实效果。

训练分两个阶段进行。第一阶段是核心训练阶段，使用Uni-Edit数据集，仅优化生成相关的损失函数（MSE损失）。这里有一个关键的设计选择：研究团队将VAE特征的丢弃率（dropout）设置为1，也就是说，在训练过程中，生成端完全不依赖VAE编码器提供的输入图像信息，强迫模型只能依靠ViT理解编码器来获取对原图的认知。这个做法的逻辑很直接：理解任务在推理时本来就不使用VAE特征，如果训练时让模型习惯于依赖VAE特征，它在执行理解任务时就会"手足无措"。通过关闭VAE输入，模型被迫将所有对原图的认知都通过ViT编码器来处理，从而让ViT编码器得到更充分的训练，最终受益于编辑任务的理解任务也随之提升。消融实验清楚地验证了这一点：如果保留VAE输入，三项任务的表现都会下降，理解能力的下滑尤为明显。

第二阶段是一个可选的对齐步骤。由于第一阶段只用生成损失训练，语言模型头（lm_head，负责输出文字答案的部分）没有得到更新，可能与已经更新的ViT主干产生"代沟"。为了弥补这一差距，研究团队从LLaVA-OV1.5中抽取8万条理解样本，只微调lm_head，让它与更新后的编码器重新对齐。实验表明，这一步能进一步提升理解任务的表现，但代价是生成和编辑性能略有下降。因此，这一步是否执行，取决于具体的应用需求。

整个14B参数模型的训练，在4台各配备8块80GB显存NVIDIA H800 GPU的服务器上进行，总计耗时约14小时，相比从头训练统一模型所需的资源，代价极为有限。

五、成果如何——数字会说话

研究团队在多个广泛使用的评测基准上检验了Uni-Edit微调后的BAGEL模型，与原版BAGEL以及用其他数据微调的BAGEL版本进行全面对比。

在图像理解方面，测试了MMMU（多学科综合理解）、MME（感知与认知综合评测）、MathVista（视觉数学推理）、MMVP（视觉感知细节）和MMBench（综合多模态理解）五个基准。与原版BAGEL相比，经过Uni-Edit微调的版本在所有五个基准上均有提升：MMMU从52.8上升到53.6，MME从2381上升到2405，MathVista从73.2上升到73.8，MMVP从69.3上升到71.3，MMBench从84.6上升到85.5。其中，MMVP的提升幅度（+2.0）最为显著，说明模型在细粒度视觉感知上有明显进步，这与Uni-Edit中大量包含属性和空间关系的编辑任务直接相关。

相比之下，用高质量的纯理解数据（LLaVA-OV1.5或Bee数据集）去微调BAGEL，反而无法超过原版BAGEL的基线表现——这恰恰说明了BAGEL原始训练数据的高质量，以及单纯依靠理解数据进行微调的局限性。用AnyEdit（一个现有的编辑数据集）微调的版本，在理解任务上出现了明显下滑，印证了简单编辑数据的不足。

在图像生成方面，测试了GenEval（空间关系与物体布局生成）和WISE（融合世界知识的语义生成）两个基准。Uni-Edit微调后，GenEval从0.87提升到0.89，WISE从0.72提升到0.75。WISE的提升尤为值得关注，因为该基准专门考察模型生成图片时对世界知识的融合能力，而Uni-Edit中大量包含常识知识和复杂推理的指令恰好能强化这方面的能力。

在图像编辑方面，测试了ImgEdit、GEdit和RISE三个基准，前两个考察基础编辑能力，RISE专门测试需要知识推理的复杂编辑。Uni-Edit微调后，RISE从11.9大幅跃升至17.2，显示出知识驱动型编辑能力的显著提升，这也是Uni-Edit最直接的受益领域。

为了验证Uni-Edit不只适用于BAGEL这一种架构，研究团队还将其应用于Janus-Pro，这是一个基于完全不同设计理念（自回归解码器为主）的统一多模态模型。结果同样令人满意：MMMU从41.5提升到43.5，MME从1978提升到2067，MathVista从45.3提升到49.2，MMVP从48.0提升到54.3，MMBench从67.5提升到70.4，GenEval从0.80提升到0.82，WISE从0.45提升到0.52，RISE从1.2提升到3.4。三项能力全面提升的规律在不同架构上得到了复现，证明智能编辑作为通用训练任务的普适性。

六、哪种"改图"最有用——深挖每类数据的贡献

研究团队不满足于知道整体有效，他们还想搞清楚是哪类编辑数据在起作用，哪类数据可能适得其反。为此，他们针对每个类别单独进行了消融实验，每类数据取6000条样本，保持公平对比。

颜色、形状、数量等属性类数据对生成和编辑任务的提升效果最为显著，因为这类任务视觉上最直观，与图像生成的核心诉求高度契合。然而，由于这类任务覆盖的知识领域相对局限，理解任务的表现出现了轻微下滑，说明如果数据过于偏向视觉属性，就无法充分激活模型对广泛知识的理解。

位置类数据对GenEval和WISE两个涉及空间推理的生成基准有显著促进，也印证了编辑任务中的空间定位训练能迁移到生成任务中。数学推理类数据则显著提升了MathVista这个专门考察数学能力的基准，但对一般生成和编辑任务帮助有限，甚至略有负面影响——原因可能是当前模型的文字渲染能力本身就偏弱，把数学推理过程写到黑板上这类任务超出了模型的舒适区。同样的问题也发生在图像描述和文字识别类数据上：让模型把提取的文字或描述渲染成图片，对核心生成和编辑任务几乎没有帮助，有时还会干扰原有能力。

常识知识类数据是综合效果最均衡的类别之一，它既提升了MMMU这个多学科理解基准，也改善了WISE这个需要知识融合的生成基准，体现了知识广度对两种能力的双重正向作用。

基于这些细粒度的消融分析，研究团队对不同类别数据的采样比例进行了优化，最终产生了Uni-Edit-40k：一个专门为当前模型能力量身定制的精简版数据集，包含约4万条样本。在Uni-Edit-40k的数据分布中，位置类任务占比最高（37%），形状类约占20%，数量类约占16%，OCR类约占11%，颜色类约占8%，数学类占极小比例，常识知识类约占1%。这一分布的调整逻辑很清晰：减少了当前模型表现较弱的数学、描述和OCR任务，增加了对生成和理解都有帮助的空间和属性任务。

七、"理解"帮助"生成"，还是"生成"拖累"理解"？——一个意外的发现

研究团队还追问了一个更底层的问题：在BAGEL的架构里，理解分支和生成分支到底是怎样相互作用的？如果冻结理解分支（不让它随着编辑任务更新参数），只训练生成分支，生成能力会更强吗？

实验结果给出了一个出乎意料的否定回答：冻结理解分支对生成和编辑能力的提升几乎没有任何帮助，甚至会让整体表现更差。这说明在BAGEL的架构中，理解编码器并不只是服务于理解任务的配件，它实际上在生成过程中扮演着重要的辅助角色——理解做得好，生成才能做得好。反过来，用生成范式进行训练，也能通过更新共享的主干网络，反向改善理解编码器的表现。这种相互依赖的关系，正是智能编辑能够同时促进两种能力的内在机制。

关于输入图片的分辨率，研究团队也做了系统测试。BAGEL原始编辑配置使用的是224×518分辨率，这个设置在实验中被证明是最优的。无论是降低到224×224，还是提高到224×980乃至378×980以匹配理解任务的分辨率，效果都不如原始设置。降低分辨率会直接损害模型的空间感知能力，提高分辨率则可能超出模型在编辑任务上原来的训练分布，带来适应难度。这意味着在统一模式下微调模型时，保持与预训练阶段一致的输入分辨率是一个务实的选择，不应随意调整。

八、看得见的进步——直观的图片对比

除了数字，研究团队还展示了大量图片对比，让提升效果一目了然。在图像生成方面，当提示词涉及需要知识推理的内容时，Uni-Edit微调版本的优势最为突出。例如，针对"与希腊神话中智慧与引导相关的动物"这一提示，原版BAGEL生成的图片与提示词的对应程度较弱，而微调后的版本能准确生成猫头鹰（希腊神话中雅典娜的象征）。针对"与春天到来相关、有鲜艳颜色和杯形的花"这一提示，微调版本正确生成了郁金香，而原版的结果更为模糊。在图像编辑方面，针对"画出魔方还原后的样子"这类需要空间推理和知识的指令，微调版本展现出明显更准确的逻辑和更自然的视觉效果。尤其值得一提的是，研究团队特别指出，涉及魔方和知识推理的样本并未出现在训练数据中，模型的能力是真正泛化出来的，而非死记硬背。

说到底，这项研究做了一件很有趣的事：它发现"改图"这件看似平常的任务，只要在里面埋入足够复杂的思考要求，就能成为训练AI"看图"和"画图"双重能力的绝佳练习题。通过把各类视觉问答题目改造成智能编辑指令，研究团队绕开了混合多任务训练的种种烦恼，用一套数据、一个阶段的训练，让BAGEL在理解、生成、编辑三个维度上同时进步。

当然，这项研究也有其局限。目前Uni-Edit-148k中的数学推理、图像描述和文字识别类任务，因为当前模型文字渲染能力有限，还未能充分发挥作用。这意味着随着基础模型能力的提升，这批"暂时用不上"的数据将来可能会带来额外的价值提升空间——数据集的潜力尚未完全释放。研究团队已承诺完整开放数据、模型和代码，这为后续研究者在此基础上继续探索提供了便利。有兴趣深入研究这一方向的读者，可以通过arXiv编号2605.21487查阅原文，也可以访问项目主页和Hugging Face页面获取数据和模型资源。

Q&A

Q1：Uni-Edit数据集里的"智能编辑指令"和普通编辑指令有什么区别？

A：普通编辑指令通常很简单，比如"把苹果改成红色"，不需要太多理解能力。Uni-Edit里的智能编辑指令则把视觉问答题嵌入其中，比如"识别图中和小金属块颜色相同的橡皮球数量，然后生成相同数量的气球"，模型必须先真正理解图片内容、解决问题，才能执行编辑操作，门槛高得多。

Q2：为什么用普通的编辑数据训练BAGEL反而会让理解能力下降？

A：现有编辑数据集的指令过于简单，训练时模型可以主要依靠图像的VAE编码特征（记录原图外观的信息）来完成编辑，根本不需要深度理解图片语义。长此以往，模型会逐渐"偷懒"，削弱那些真正服务于理解任务的ViT编码器的使用，导致理解能力退步。

Q3：Uni-Edit的训练成本高吗？普通研究团队能复现吗？

A：整个14B参数模型的微调，在32块NVIDIA H800 GPU上耗时约14小时，这对有一定GPU资源的研究机构来说是可以接受的成本，远低于从头训练一个统一多模态模型所需的资源。研究团队已开源数据、模型和代码，有意复现的团队可以直接使用。

多模态大模型图像编辑统一训练范式

分享至