
这项由香港中文大学多媒体实验室(CUHK MMLab)联合天津大学与中国科学技术大学的研究团队共同完成的工作,以预印本形式发布于2026年5月,论文编号为arXiv:2605.21487,感兴趣的读者可通过该编号在arXiv平台查阅完整原文。
一、一台机器,三件事——听起来很美,但做起来有多难?
人工智能领域有一个长久以来的梦想:训练出一个什么都能干的"全能选手"——既能看懂图片里发生了什么,又能从零开始画出一张图,甚至还能按照你的要求对已有的图片进行修改。这种被称为"统一多模态模型"(Unified Multimodal Model,简称UMM)的系统,代表着离真正智能的一大步。
然而,这个梦想的实现并不像说起来那么简单。以厨师为比喻:一个厨师既要会品尝食物的微妙味道(视觉理解),又要能从原材料烹制出一道菜(图像生成),还要能把一道现有的菜稍加改良(图像编辑)。问题是,品尝时需要集中注意力感知细节,而烹饪时则需要掌控全局流程,这两种思维方式从根本上就有些冲突。放到AI的神经网络里,这种冲突更为明显:在网络的深层部分,"理解"任务需要高度抽象的语义信息,而"生成"任务则需要保留精细的结构细节。这就像一块面团,你想把它擀薄做饺子皮,又想把它揉圆做馒头——两种目标在某种程度上互相拉扯。
正因如此,目前主流的做法是"多任务混合训练",也就是把理解任务的数据、生成任务的数据、编辑任务的数据全部混在一起喂给模型,同时调整各类数据的比例,精心平衡各项任务。这种方法不仅需要多个复杂的训练阶段,还需要大量的数据和繁琐的调参技巧,最终得到的往往是三项能力都勉强过关,但没有一项特别出色的折中结果——更像是一个"全不精"而非"全能"的选手。
这支由CUHK MMLab主导的研究团队提出了一个颠覆性的想法:有没有可能用**一种任务、一个数据集、一个训练阶段**,就同时提升模型的三项核心能力?他们给出的答案是肯定的,而那个关键任务就是——**智能图像编辑**。
二、为什么"改图"能同时练就"看图"和"画图"的本领?
理解这个核心思路需要先想清楚一件事:改图到底需要什么能力?
以这样一个例子来说明:给你一张图片,上面有一个大号金属物体旁边有个球,旁边还有一个立方体。任务是:"找到那个大号金属物体右边的大球背后的大物体,如果它是立方体,就把它改成棱锥形;如果不是,就什么都不做。"
要完成这个任务,AI首先得准确理解图片里有什么、它们的空间关系是什么,然后还要能执行精确的图像修改操作,生成一张改过的图。换句话说,改图这件事天然地把"看懂图"和"画出图"两件事捆绑在了一起——任何一个环节出错,任务就会失败。
研究团队正是基于这个洞察,认定图像编辑是一个理想的"桥梁任务"。然而,当他们真正去尝试用已有的编辑数据训练模型时,却发现了一个令人沮丧的现象:不仅没有提升,模型的理解能力反而**下降**了!
这引发了一个关键问题:不是所有的"改图训练"都能带来这种双向提升。那么,问题出在哪里?研究团队经过分析找到了症结所在——现有的图像编辑数据集,使用的指令都太简单了。
目前市面上最常见的编辑指令是这样的:"把图中的红色苹果改成绿色苹果。"这种指令虽然也需要理解图片,但理解的深度极为有限,几乎不需要任何推理或知识调用。用厨师的比喻来说,这就像只要求厨师"把盐多加一点",根本用不到真正的烹饪技术。如此浅显的任务无法有效激活模型深层的理解能力,训练下来,模型的"看图"功能不但没有增强,反而因为过度侧重生成环节而有所退化。
这就引出了这项研究最核心的贡献:他们构建了一套全新的"**智能编辑**"数据,让编辑指令变得足够复杂、足够有深度,迫使模型必须认真"思考"才能完成任务。
三、把考卷变成改图任务——Uni-Edit数据集的诞生
这套名为Uni-Edit-148k的数据集,本质上是将大量视觉问答(VQA)题目转化成了图像编辑任务。视觉问答是一种广泛使用的AI评测形式,给模型一张图片和一个问题,让它回答。问题类型涵盖颜色判断、数量计数、位置识别、数学推理、文字识别、图像描述、形状判断和常识知识等多个领域。
研究团队的做法是:把这些问题"包装"进编辑指令里,让模型不只是回答问题,而是根据回答的结果去修改图片。这个转化过程分四个步骤完成,像一条精心设计的生产流水线。
第一步是给每道题目打上类别标签。研究团队利用GPT-4o这个强大的语言模型,把从LLaVA-OV1.5数据集中获取的原始问题分成七大类:形状、颜色、数量、位置、文字识别(OCR)、图像描述(Caption)和数学推理。
第二步是根据类别生成具体的编辑指令。不同类别有不同的转化策略。对于颜色和形状类问题,有两种变体:一种是"条件判断式",即先让模型识别出目标属性,然后检查它是否和预设答案一致,如果一致就执行某个修改操作,不一致则保持原样;另一种是"添加生成式",即让模型识别出答案后,在图中添加一个具有相同属性(但属于不同类别)的新物体。对于数量类问题,也有类似的两种变体。对于位置类问题,指令会要求模型先找到题目中提到的区域,然后用一个不同的物体来替换该区域。对于数学推理类问题,指令要求模型先把解题过程(包括推导步骤和最终答案)写在一块黑板或羊皮纸上,生成一张展示运算过程的图片,使用粉笔风格字体。对于文字识别和图像描述类问题,指令同样要求模型提取相关文字或生成描述,然后以书法或手写风格渲染到一个特定的写作媒介上。对于常识知识类问题,由于LLaVA-OV1.5中这类样本较少,研究团队直接借用了AnyEdit数据集中的知识子集。此外,除了常识知识类任务外,所有类型的指令末尾都会附加一句"优化图像的视觉美感",这既能进一步提升生成质量,也让任务更贴近真实的编辑需求。
第三步是用目前最强的图像编辑模型Nano-Banana-Pro(简称Nano-Pro,由Google DeepMind提供)来生成对应的目标图片。由于指令的复杂性远超一般编辑数据,即便是Nano-Pro也会频繁出错,大约有10%的样本会失败。为了辅助模型,研究团队在调用Nano-Pro时,额外提供了原始问题和正确答案作为上下文参考。
第四步是用GPT-4o对生成的图片进行质量筛选。筛选标准包括两个维度:视觉质量(图片是否清晰、自然、没有明显的合成痕迹)和指令遵循度(图片是否确实按照指令修改,且内容与原始答案吻合)。经过严格筛选,最终形成了包含14.8万条样本的Uni-Edit-148k数据集。
在这14.8万条样本中,图像描述类任务占比最大(33.3%),位置类任务次之(约16%),数量类任务约占13.3%,数学类约占8.1%,其余类别各有不同比例。这种分布与LLaVA-OV1.5中各类任务的原始分布大致对应,保证了知识覆盖的广度。
四、知道了问题所在,也备好了材料——训练怎么做?
研究团队选择了BAGEL作为基础模型来验证Uni-Edit的有效性。BAGEL是目前公认综合能力最强的统一多模态模型之一,它同时具备图像理解、生成和编辑能力,架构上集成了独立的理解编码器(基于ViT视觉变换器)和生成编码器(基于VAE变分自编码器),两者通过共享的Transformer主干相互协作。选择一个强基线来验证方法,能更有说服力地证明改进的真实效果。
训练分两个阶段进行。第一阶段是核心训练阶段,使用Uni-Edit数据集,仅优化生成相关的损失函数(MSE损失)。这里有一个关键的设计选择:研究团队将VAE特征的丢弃率(dropout)设置为1,也就是说,在训练过程中,生成端完全不依赖VAE编码器提供的输入图像信息,强迫模型只能依靠ViT理解编码器来获取对原图的认知。这个做法的逻辑很直接:理解任务在推理时本来就不使用VAE特征,如果训练时让模型习惯于依赖VAE特征,它在执行理解任务时就会"手足无措"。通过关闭VAE输入,模型被迫将所有对原图的认知都通过ViT编码器来处理,从而让ViT编码器得到更充分的训练,最终受益于编辑任务的理解任务也随之提升。消融实验清楚地验证了这一点:如果保留VAE输入,三项任务的表现都会下降,理解能力的下滑尤为明显。
第二阶段是一个可选的对齐步骤。由于第一阶段只用生成损失训练,语言模型头(lm_head,负责输出文字答案的部分)没有得到更新,可能与已经更新的ViT主干产生"代沟"。为了弥补这一差距,研究团队从LLaVA-OV1.5中抽取8万条理解样本,只微调lm_head,让它与更新后的编码器重新对齐。实验表明,这一步能进一步提升理解任务的表现,但代价是生成和编辑性能略有下降。因此,这一步是否执行,取决于具体的应用需求。
整个14B参数模型的训练,在4台各配备8块80GB显存NVIDIA H800 GPU的服务器上进行,总计耗时约14小时,相比从头训练统一模型所需的资源,代价极为有限。
五、成果如何——数字会说话
研究团队在多个广泛使用的评测基准上检验了Uni-Edit微调后的BAGEL模型,与原版BAGEL以及用其他数据微调的BAGEL版本进行全面对比。
在图像理解方面,测试了MMMU(多学科综合理解)、MME(感知与认知综合评测)、MathVista(视觉数学推理)、MMVP(视觉感知细节)和MMBench(综合多模态理解)五个基准。与原版BAGEL相比,经过Uni-Edit微调的版本在所有五个基准上均有提升:MMMU从52.8上升到53.6,MME从2381上升到2405,MathVista从73.2上升到73.8,MMVP从69.3上升到71.3,MMBench从84.6上升到85.5。其中,MMVP的提升幅度(+2.0)最为显著,说明模型在细粒度视觉感知上有明显进步,这与Uni-Edit中大量包含属性和空间关系的编辑任务直接相关。
相比之下,用高质量的纯理解数据(LLaVA-OV1.5或Bee数据集)去微调BAGEL,反而无法超过原版BAGEL的基线表现——这恰恰说明了BAGEL原始训练数据的高质量,以及单纯依靠理解数据进行微调的局限性。用AnyEdit(一个现有的编辑数据集)微调的版本,在理解任务上出现了明显下滑,印证了简单编辑数据的不足。
在图像生成方面,测试了GenEval(空间关系与物体布局生成)和WISE(融合世界知识的语义生成)两个基准。Uni-Edit微调后,GenEval从0.87提升到0.89,WISE从0.72提升到0.75。WISE的提升尤为值得关注,因为该基准专门考察模型生成图片时对世界知识的融合能力,而Uni-Edit中大量包含常识知识和复杂推理的指令恰好能强化这方面的能力。
在图像编辑方面,测试了ImgEdit、GEdit和RISE三个基准,前两个考察基础编辑能力,RISE专门测试需要知识推理的复杂编辑。Uni-Edit微调后,RISE从11.9大幅跃升至17.2,显示出知识驱动型编辑能力的显著提升,这也是Uni-Edit最直接的受益领域。
为了验证Uni-Edit不只适用于BAGEL这一种架构,研究团队还将其应用于Janus-Pro,这是一个基于完全不同设计理念(自回归解码器为主)的统一多模态模型。结果同样令人满意:MMMU从41.5提升到43.5,MME从1978提升到2067,MathVista从45.3提升到49.2,MMVP从48.0提升到54.3,MMBench从67.5提升到70.4,GenEval从0.80提升到0.82,WISE从0.45提升到0.52,RISE从1.2提升到3.4。三项能力全面提升的规律在不同架构上得到了复现,证明智能编辑作为通用训练任务的普适性。
六、哪种"改图"最有用——深挖每类数据的贡献
研究团队不满足于知道整体有效,他们还想搞清楚是哪类编辑数据在起作用,哪类数据可能适得其反。为此,他们针对每个类别单独进行了消融实验,每类数据取6000条样本,保持公平对比。
颜色、形状、数量等属性类数据对生成和编辑任务的提升效果最为显著,因为这类任务视觉上最直观,与图像生成的核心诉求高度契合。然而,由于这类任务覆盖的知识领域相对局限,理解任务的表现出现了轻微下滑,说明如果数据过于偏向视觉属性,就无法充分激活模型对广泛知识的理解。
位置类数据对GenEval和WISE两个涉及空间推理的生成基准有显著促进,也印证了编辑任务中的空间定位训练能迁移到生成任务中。数学推理类数据则显著提升了MathVista这个专门考察数学能力的基准,但对一般生成和编辑任务帮助有限,甚至略有负面影响——原因可能是当前模型的文字渲染能力本身就偏弱,把数学推理过程写到黑板上这类任务超出了模型的舒适区。同样的问题也发生在图像描述和文字识别类数据上:让模型把提取的文字或描述渲染成图片,对核心生成和编辑任务几乎没有帮助,有时还会干扰原有能力。
常识知识类数据是综合效果最均衡的类别之一,它既提升了MMMU这个多学科理解基准,也改善了WISE这个需要知识融合的生成基准,体现了知识广度对两种能力的双重正向作用。
基于这些细粒度的消融分析,研究团队对不同类别数据的采样比例进行了优化,最终产生了Uni-Edit-40k:一个专门为当前模型能力量身定制的精简版数据集,包含约4万条样本。在Uni-Edit-40k的数据分布中,位置类任务占比最高(37%),形状类约占20%,数量类约占16%,OCR类约占11%,颜色类约占8%,数学类占极小比例,常识知识类约占1%。这一分布的调整逻辑很清晰:减少了当前模型表现较弱的数学、描述和OCR任务,增加了对生成和理解都有帮助的空间和属性任务。
七、"理解"帮助"生成",还是"生成"拖累"理解"?——一个意外的发现
研究团队还追问了一个更底层的问题:在BAGEL的架构里,理解分支和生成分支到底是怎样相互作用的?如果冻结理解分支(不让它随着编辑任务更新参数),只训练生成分支,生成能力会更强吗?
实验结果给出了一个出乎意料的否定回答:冻结理解分支对生成和编辑能力的提升几乎没有任何帮助,甚至会让整体表现更差。这说明在BAGEL的架构中,理解编码器并不只是服务于理解任务的配件,它实际上在生成过程中扮演着重要的辅助角色——理解做得好,生成才能做得好。反过来,用生成范式进行训练,也能通过更新共享的主干网络,反向改善理解编码器的表现。这种相互依赖的关系,正是智能编辑能够同时促进两种能力的内在机制。
关于输入图片的分辨率,研究团队也做了系统测试。BAGEL原始编辑配置使用的是224×518分辨率,这个设置在实验中被证明是最优的。无论是降低到224×224,还是提高到224×980乃至378×980以匹配理解任务的分辨率,效果都不如原始设置。降低分辨率会直接损害模型的空间感知能力,提高分辨率则可能超出模型在编辑任务上原来的训练分布,带来适应难度。这意味着在统一模式下微调模型时,保持与预训练阶段一致的输入分辨率是一个务实的选择,不应随意调整。
八、看得见的进步——直观的图片对比
除了数字,研究团队还展示了大量图片对比,让提升效果一目了然。在图像生成方面,当提示词涉及需要知识推理的内容时,Uni-Edit微调版本的优势最为突出。例如,针对"与希腊神话中智慧与引导相关的动物"这一提示,原版BAGEL生成的图片与提示词的对应程度较弱,而微调后的版本能准确生成猫头鹰(希腊神话中雅典娜的象征)。针对"与春天到来相关、有鲜艳颜色和杯形的花"这一提示,微调版本正确生成了郁金香,而原版的结果更为模糊。在图像编辑方面,针对"画出魔方还原后的样子"这类需要空间推理和知识的指令,微调版本展现出明显更准确的逻辑和更自然的视觉效果。尤其值得一提的是,研究团队特别指出,涉及魔方和知识推理的样本并未出现在训练数据中,模型的能力是真正泛化出来的,而非死记硬背。
说到底,这项研究做了一件很有趣的事:它发现"改图"这件看似平常的任务,只要在里面埋入足够复杂的思考要求,就能成为训练AI"看图"和"画图"双重能力的绝佳练习题。通过把各类视觉问答题目改造成智能编辑指令,研究团队绕开了混合多任务训练的种种烦恼,用一套数据、一个阶段的训练,让BAGEL在理解、生成、编辑三个维度上同时进步。
当然,这项研究也有其局限。目前Uni-Edit-148k中的数学推理、图像描述和文字识别类任务,因为当前模型文字渲染能力有限,还未能充分发挥作用。这意味着随着基础模型能力的提升,这批"暂时用不上"的数据将来可能会带来额外的价值提升空间——数据集的潜力尚未完全释放。研究团队已承诺完整开放数据、模型和代码,这为后续研究者在此基础上继续探索提供了便利。有兴趣深入研究这一方向的读者,可以通过arXiv编号2605.21487查阅原文,也可以访问项目主页和Hugging Face页面获取数据和模型资源。
Q&A
Q1:Uni-Edit数据集里的"智能编辑指令"和普通编辑指令有什么区别?
A:普通编辑指令通常很简单,比如"把苹果改成红色",不需要太多理解能力。Uni-Edit里的智能编辑指令则把视觉问答题嵌入其中,比如"识别图中和小金属块颜色相同的橡皮球数量,然后生成相同数量的气球",模型必须先真正理解图片内容、解决问题,才能执行编辑操作,门槛高得多。
Q2:为什么用普通的编辑数据训练BAGEL反而会让理解能力下降?
A:现有编辑数据集的指令过于简单,训练时模型可以主要依靠图像的VAE编码特征(记录原图外观的信息)来完成编辑,根本不需要深度理解图片语义。长此以往,模型会逐渐"偷懒",削弱那些真正服务于理解任务的ViT编码器的使用,导致理解能力退步。
Q3:Uni-Edit的训练成本高吗?普通研究团队能复现吗?
A:整个14B参数模型的微调,在32块NVIDIA H800 GPU上耗时约14小时,这对有一定GPU资源的研究机构来说是可以接受的成本,远低于从头训练一个统一多模态模型所需的资源。研究团队已开源数据、模型和代码,有意复现的团队可以直接使用。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。