在人工智能快速发展的今天,图像理解和生成技术已成为研究热点。近期,北京大学深圳研究生院袁路教授团队带来了一项重磅研究成果——UniWorld模型,这是一个基于高分辨率语义编码器的统一视觉理解与生成框架。该研究成果已于2025年6月3日发布在arXiv预印本平台(arXiv:2506.03147v1),项目代码、模型和数据集均已在GitHub和Hugging Face平台开源。
为什么需要UniWorld?
想象一下,你有一张照片,你想让AI帮你做各种操作:识别照片中的物体,提取某个特定区域,改变照片的风格,或者根据你的描述对照片进行编辑。目前,要完成这些不同任务,你可能需要使用多个不同的AI模型,每个模型只专注于一种特定功能。这就像你需要一整套厨房工具,切菜要用菜刀,搅拌要用搅拌器,烹饪要用锅具,而不是一个多功能厨师机。
OpenAI最近发布的GPT-4o-Image就像这样一个多功能厨师机,它能够处理各种图像任务,包括图像感知(如检测、分割、深度预测等)和图像操作(如编辑、风格转换等)。这引发了研究团队的思考:这种统一模型是如何实现的?它是如何在保持图像信息的同时,又能理解和生成图像的?
北大团队通过仔细观察和实验,发现了一个关键线索:GPT-4o-Image很可能使用的是语义编码器提取的特征,而不是传统的VAE(变分自编码器)。这就像发现一个多功能厨师机的核心不是常规马达,而是一种全新的动力系统。基于这一发现,他们设计了UniWorld模型,一个真正的统一视觉理解与生成框架。
研究团队的惊人发现
传统的图像编辑模型,如Step1X-Edit和FLUX-Kontext,通常使用VAE来提取图像特征。这就像使用一个放大镜观察图片,能看到像素级的细节,但可能看不清整体语义内容。
研究团队对GPT-4o-Image进行了两组精心设计的实验。在第一组实验中,他们要求GPT-4o-Image编辑巴士背面的广告颜色。结果发现,编辑后的图像中文字位置发生了变化,而不是仅仅改变颜色。这表明GPT-4o-Image可能没有使用VAE,因为VAE通常会很好地保留低频信息,包括文字位置。
在第二组实验中,他们给一张狗的图片添加不同程度的噪声,然后让GPT-4o-Image去降噪。当噪声较小时,模型正确识别出这是一只狗;但当噪声较大时,模型却将其误认为鹿。有趣的是,当他们用同样的噪声图像询问GPT-4o和Qwen2.5-VL这些多模态理解模型时,这些模型也将其识别为鹿。这表明GPT-4o-Image可能是基于强大的多模态理解模型的先验知识。
这些实验就像侦探破案的过程,通过细微的线索揭示了背后的真相:GPT-4o-Image很可能使用的是语义编码器提取的特征,而不是VAE。这就像发现一个厨师不是用传统的食谱,而是用一种全新的烹饪理念创造美食。
UniWorld的设计与架构
基于上述发现,研究团队设计了UniWorld模型。与传统模型不同,UniWorld使用了SigLIP语义编码器(而非VAE)来提取图像特征,这就像使用一个既能看清细节又能理解整体语义的特殊眼镜。
UniWorld的架构由几个核心部分组成:
首先是视觉语言模型(VLM),研究团队使用了预训练的Qwen2.5-VL-7B模型作为基础模块,它负责理解用户的指令和图像内容,就像一个能听懂你需求的助手。
其次是SigLIP编码器,它是一个对比学习的视觉-语言模型,能够提取高分辨率(512×512)的图像特征,这些特征既包含像素级的局部信息,又包含语义级的全局概念,就像一个既能看到树木又能看到森林的观察者。
最后是DiT(Diffusion Transformer)生成模块,它负责根据VLM和SigLIP提供的信息生成最终图像,就像一个根据设计图纸和材料创作成品的工匠。
这三部分协同工作,形成了一个强大的统一框架,能够处理各种图像理解和生成任务。
训练策略的创新
训练这样一个复杂的模型并非易事,研究团队采用了分阶段训练策略:
第一阶段是语义对齐预训练。由于VLM表示和FLUX文本分支之间存在特征差距,第一阶段专注于将VLM特征与T5特征对齐。在这个阶段,只有VLM到FLUX的MLP映射是可训练的,而其他参数保持冻结。此外,由于第一阶段仅专注于对齐VLM语义特征,因此排除了SigLIP特征。
第二阶段是一致性生成微调。研究团队加载第一阶段训练的VLM到FLUX MLP权重以及FLUX-Redux中的MLP权重(用于将SigLIP特征对齐到文本分支)。然后解冻FLUX图像分支中的所有可学习参数,同时保持所有文本分支参数冻结。虽然第一阶段已经对齐了VLM到FLUX,但在第二阶段早期,模型仍然采取捷径,直接重建参考图像。经过5,000到10,000训练步骤后,模型开始学习如何使用SigLIP特征作为参考线索,根据指令生成图像。
此外,研究团队还创新性地使用了ZeRO-3 EMA(指数移动平均)技术。EMA模型在多个GPU上以ZeRO-3方式分片,每个GPU只持有一部分模型参数,这大大减少了存储和计算开销。例如,一个20B的模型在N个GPU上分片,每个GPU只需持有20×4/N GiB的参数,这最小化了冗余存储。
这些训练策略就像一位教练精心设计的训练计划,帮助模型逐步掌握复杂的技能,最终成为一个全能选手。
数据集的精心构建
要训练一个全能的模型,需要各种类型的高质量数据。研究团队使用了三种主要类型的数据:
第一类是图像感知数据,包括边缘检测、深度图、草图、分割(掩码)、检测(边界框)等。大部分数据来自Graph200k和COCO2017数据集。这类数据约有140万个样本。
第二类是图像操作数据,包括添加、删除、替换等常见编辑类型。主要来源是ImgEdit和SEED-X数据集。由于大多数开源数据缺乏编辑掩码,研究团队还开发了编辑掩码生成方法。这类数据约有100万个样本。
第三类是文本到图像生成数据,来源包括BLIP3-o和Open-Sora Plan的内部图像。这些图像的分辨率至少为1024×1024,美学评分至少为6.0。这类数据约有30万个样本。
总的来说,UniWorld的训练数据集包含约270万个样本,这与BAGEL的26.65亿个样本相比只有约1%,但UniWorld却取得了与BAGEL相当甚至更好的性能,这充分证明了其架构设计的优越性。
自适应编辑区域加权策略
在图像编辑任务中,编辑区域通常只占图像的一小部分。如果在整个图像上应用均匀的损失权重,相对较小的编辑区域的损失信号可能会被大得多的未编辑区域的信号所淹没。这种不平衡可能导致模型对编辑内容拟合不足,无法捕捉细粒度或用户意图的变化。
为解决这个问题,研究团队开发了自适应编辑区域加权策略。他们通过四个步骤获取编辑掩码:
第一步是像素级差异计算,计算参考图像和目标图像之间的像素级差异,设置容忍阈值来确定像素区域是否被编辑。
第二步是膨胀,使用膨胀因子扩展每个编辑像素以减少噪声,尽管许多孤立像素可能仍然存在。
第三步是连通组件过滤,移除小的连通组件以消除虚假编辑,但这不能解决较大编辑区域内的气泡问题。
第四步是最大池化下采样,应用最大池化以去除连通区域内的内部噪声,最终得到编辑区域大小Aedit。
然后,研究团队设计了一个加权函数,根据全图面积与编辑区域面积之比为编辑像素分配更高的损失权重。加权函数w(x)满足w(1)=1,这样当整个图像被编辑时(如文本到图像或风格转换,Aedit=Atotal),损失回归为均匀加权。
研究团队比较了四种候选函数:线性函数、指数根函数、对数函数和二次根函数。在考虑了各种因素后,他们最终采用了对数加权函数w(x)=log2(x)+1,因为它增长适中,避免了极小区域的不稳定性,并在敏感性和稳健性之间保持良好平衡。
UniWorld的卓越表现
经过精心设计和训练,UniWorld在各种基准测试中展现出卓越的性能:
在图像编辑基准ImgEdit-Bench上,UniWorld以总分3.37显著优于其他开源模型,如Step1X-Edit(3.17)和BAGEL(3.17)。特别是在调整(3.70)、移除(3.54)、提取(2.23)、替换(3.49)和混合编辑(3.13)等类别上,UniWorld取得了所有开源模型中的最高分数。虽然GPT-4o-Image以4.31的总分保持领先地位,但UniWorld是所有开源替代方案中性能最接近的模型。
在文本到图像生成基准GenEval上,UniWorld达到了0.79的整体分数。使用与BLIP3-o相同的重写提示后,UniWorld的分数提高到0.84,几乎接近BAGEL的0.88。考虑到UniWorld只使用了270万训练数据,而BAGEL使用了26.65亿,这一结果尤为令人印象深刻。
在世界知识评估基准WISE上,UniWorld达到了0.55的整体分数,在空间类别上更是取得了0.73的高分,这是除GPT-4o-Image(0.89)外所有评估模型中的最高分数。
在视觉理解方面,由于冻结了多模态大语言模型组件,UniWorld成功继承了Qwen2.5-VL-7B的强大多模态理解能力,而无需重新训练。这显著减少了数据和计算资源消耗,同时避免了可能由生成任务训练引起的理解性能下降。
在图像感知任务方面,UniWorld在边缘检测、法线图生成、HED、分割和草图生成等方面展示出强大的指令理解和任务执行能力,甚至在某些方面优于GPT-4o-Image。
UniWorld的局限性与未来工作
尽管UniWorld取得了显著成果,但仍存在一些局限性:
指令泛化不足。由于训练数据有限且缺乏VLM微调,需要特定指令模板才能超越BAGEL。
参考图像一致性不足。参考图像以512×512的分辨率处理,这不足以在1024×1024尺度上生成所有细节。
基准测试不完善。某些基准测试如DPG-Bench和GenAI-Bench经常无法反映人类偏好,GenEval中的一些样本强制绑定现实世界中很少共现的两个对象,ImgEdit-Bench和GEdit-Bench对参考区域缺乏足够的敏感性。
未来工作方向包括:
继续收集数据并与VLM进行联合训练。
集成更高分辨率的语义编码器或采用VLM技术增加输入图像分辨率,如多尺度图像网格化。
研究团队还尝试过一些失败的尝试,如替换SigLIP为DINO V2和RADIO V2.5,以及直接使用Qwen2.5VL的视觉输出作为参考图像控制信号,但这些尝试都不成功。这些失败尝试也为未来研究提供了宝贵的经验。
结语
UniWorld模型展示了一个由高分辨率语义编码器锚定的统一架构,可以同时处理图像感知和操作任务,达到最先进的效率。通过仅使用270万训练样本,UniWorld在各种基准测试上实现了优于使用多得多数据的模型的性能,确认语义编码器提供了比传统VAE方法更丰富、更多功能的视觉表示。
这项工作为未来统一视觉生成研究奠定了基础。研究团队发布了所有代码、模型权重和数据集,以促进社区内的持续创新和协作。
如果你对这项研究感兴趣,可以访问以下链接获取更多信息: - 代码:https://github.com/PKU-YuanGroup/UniWorld-V1 - 模型:https://huggingface.co/LanguageBind/UniWorld-V1 - 数据:https://huggingface.co/datasets/LanguageBind/UniWorld-V1
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。