这项由北京大学深圳研究生院和兔小贝AI联合完成的研究,由杨叶、贺贤毅、李宗剑、林斌、袁盛海、严志远、侯博瀚和袁励等人共同发表于2025年5月26日的arXiv预印本(arXiv:2505.20275v1)。该研究的源代码和数据集已在GitHub上公开:https://github.com/PKU-YuanGroup/ImgEdit。
为什么我们需要更好的图像编辑技术?
想象一下,你拍了一张完美的家庭照片,但背景中出现了一位陌生人;或者你想把照片中穿着蓝色衬衫的自己"换装"成红色;又或者你想把照片中的雪山背景换成海滩。这些都是我们日常生活中可能面临的图像编辑需求。
近年来,人工智能在文本生成图像方面取得了惊人的进步,各种AI模型可以根据文字描述创建令人惊叹的图像。但是,当谈到编辑现有图像时,情况就不那么乐观了。特别是开源的图像编辑模型,它们的表现远远落后于那些闭源的商业产品,如OpenAI的GPT-4o和Google的Gemini-2.0。这种差距主要源于两个问题:缺乏高质量的训练数据和缺乏全面的评估基准。
就像一位厨师需要优质的食材和精准的食谱才能烹饪出美味佳肴,AI模型也需要高质量的数据和科学的评估方法才能表现出色。北京大学和兔小贝AI的研究团队正是针对这一问题,提出了ImgEdit——一个统一的图像编辑框架,包含高质量数据集、先进编辑模型和全面评估基准。
现有图像编辑数据集存在哪些问题?
在深入了解ImgEdit之前,我们先来看看现有图像编辑数据集面临的三大主要挑战:
首先是数据质量和提示设计不佳。想象你在学习一门新语言,但教材充满错误且解释混乱,这会极大影响你的学习效果。现有的数据集收集流程通常从低分辨率图像开始,使用开源大语言模型生成可能包含知识偏见的提示,并使用低保真算法合成编辑后的图像对。这就像用劣质食材和不精确的食谱尝试做一道复杂的菜肴,结果可想而知。
其次是对复杂编辑任务的支持不足。现有数据集很少包含需要保持身份一致性的编辑类型(例如虚拟试穿),或者同时操作多个对象,或者跨多轮交互的编辑任务。这就像一本烹饪书只教你做简单的炒鸡蛋,却不告诉你如何准备一顿多道菜的正式晚餐。
第三是评估方法的局限性。现有的评估框架缺乏多样化或合理的评估维度,没有根据任务难度进行分层,过于强调编辑类别的数量,而对评估维度或测量准确性的关注不足。这就像评价一道菜仅仅看它的外观,而忽略了味道、香气和营养价值。
ImgEdit如何解决这些问题?
ImgEdit框架包含四个核心组件:自动化数据构建流程、大规模编辑数据集、先进的编辑模型以及全面的评估基准。让我们一一了解这些组件如何协同工作,就像一个精心设计的厨房系统,从食材采购到烹饪技巧再到品鉴标准,形成一个完整的美食创作流程。
### 高质量数据集的自动化构建流程
首先,研究团队开发了一个自动化流程来保证数据质量。这个流程就像一条精心设计的生产线,每一步都确保最终产品的质量。
第一步是数据准备。团队选择了LAION-Aesthetics作为主要数据源,因为与其他数据集相比,它提供了更多样化的场景、更高的分辨率和更全面的对象类别。他们只保留了短边超过1280像素且美学评分高于4.75的图像,筛选出约60万张高质量图像。这就像挑选最新鲜的食材,确保烹饪的基础是优质的。
接下来,他们使用GPT-4o生成简洁的图像描述,并提取可编辑的对象和背景名词。然后,每个候选实体被一个开放词汇检测器定位,并使用SAM2将边界框细化为分割掩码。这就像厨师精确标记每种食材的位置和用量,为后续处理做好准备。
由于检测和分割并不完美,团队对每个对象的掩码进行裁剪,计算与对象名称的相似度和面积比例。相似度低或面积可忽略的区域被丢弃,确保剩余目标被准确识别并在视觉上足够显著。这就像在烹饪前去除食材中的杂质和不新鲜的部分。
指令生成阶段,团队为GPT-4o提供原始图像标题、编辑类型、边界框和目标对象作为条件信息。由于精确定位目标对象对成功编辑至关重要,他们指示语言模型在编辑指令中嵌入对象的位置和大小。这就像给厨师提供详细的烹饪步骤,包括每种调料应该在什么时候加入,以及如何掌握火候。
在图像处理工作流程中,团队选择了最先进的生成模型,如FLUX和SDXL作为基础模型。为实现精确和可控的编辑,他们使用了插件如IP-Adapters、ControlNet和Canny/Depth LoRA。根据这些模型和组件,他们构建了针对每个编辑场景的数据制作流程。这就像根据不同菜肴选择合适的烹饪工具和方法。
在后处理阶段,团队使用GPT-4o对每对编辑进行精确筛选,基于特定于相应编辑类型的提示引导评分标准,为每对提供详细分数和简短理由,使用户能够根据需求选择子集。这就像专业美食评论家对成品进行评价,提供客观的反馈。
### ImgEdit数据集的特点与创新
通过这一精心设计的流程,ImgEdit数据集包含120万对高质量的图像编辑对,覆盖13种编辑类别,其中包括11万个多轮示例。与现有数据集相比,ImgEdit提供了更丰富的语义、更详细的提示、更高的分辨率、更准确的编辑效果和整体更优的视觉保真度。
ImgEdit数据集的单轮任务分为四类:局部编辑、全局编辑、视觉编辑和混合编辑。
局部编辑包括添加、移除、替换、改变属性、改变动作和对象提取等操作。特别是对象提取任务(例如"将猫提取到白色背景上")能够在保持身份一致性的同时将特定主体从复杂场景中分离出来,这在许多设计流程中非常有价值,目前仅在GPT-4o-image中可用。
全局编辑包括背景替换和风格或色调转换。视觉编辑涉及使用参考图像编辑图像。混合编辑包含在单个指令中应用于多个对象的两个局部编辑操作,例如"添加围巾并将猫的毛色改为白色"。
多轮编辑任务设计为包括内容理解、内容记忆和版本回溯等编辑任务。内容记忆涉及对话早期引入的全局约束,如果初始指令规定"所有生成必须具有木质纹理",后续轮次不需要重述此要求,但仍必须遵守。内容理解是指解释依赖代词或省略主语的后续指令的能力。版本回溯表示基于编辑结果的早期版本进行编辑的能力,例如"撤消上一次更改..."。
ImgEdit数据集的平均短边分辨率为1280像素,远高于大多数竞争数据集。在提示多样性方面,ImgEdit包含8.7k个独特词汇。为评估编辑准确性,研究团队从每个数据集随机抽样1000个实例,并用GPT-4o进行评估,ImgEdit获得了最高分数。
### ImgEdit-E1:基于数据集训练的先进编辑模型
为验证数据集的有效性,研究团队在ImgEdit上训练了ImgEdit-E1模型。该模型集成了视觉语言模型、视觉编码器和Diffusion-in-Transformer骨干网络。编辑指令和原始图像被共同输入到视觉语言模型中,同时图像还被视觉编码器处理。视觉语言模型的隐藏状态和视觉编码器的视觉特征被分别投影并连接,形成DiT的文本分支输入。
训练分两个阶段进行,首先优化MLP,然后联合微调FLUX和MLP。这种方法使ImgEdit-E1在多个图像编辑任务上的表现超过了现有开源模型,突显了ImgEdit数据集和模型设计的价值。
### ImgEdit-Bench:全面的评估基准
最后,研究团队提出了ImgEdit-Bench,一个设计用于评估图像编辑性能的基准,从指令遵循、编辑质量和细节保留三个维度进行评估。它包括三个关键组件:
基本编辑套件测试在多种任务上的指令遵循、编辑质量和细节保留能力;理解-定位-编辑(UGE)套件通过具有挑战性的指令(如空间推理和多对象目标)和复杂场景(如多实例布局或伪装对象)增加任务复杂性;多轮编辑套件设计用于评估内容理解、内容记忆和版本回溯能力。
为促进大规模评估,研究团队训练了ImgEdit-Judge,一个评估模型,其偏好与人类判断密切一致,达到近70%的一致率,大幅超过原始Qwen2.5-VL。
ImgEdit的评估结果告诉我们什么?
研究团队对一系列图像编辑模型进行了全面评估,包括闭源模型GPT-4o-Image和开源模型Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix以及ImgEdit-E1。评估结果揭示了三个关键因素影响编辑模型性能:
指令理解能力是指模型理解编辑指令的能力,这在很大程度上取决于文本编码器,并强烈影响编辑性能。使用T5或CLIP等编码器的传统模型可以处理简单任务(如风格转换),但在复杂的区域特定任务上表现不佳。ImgEdit-E1和Step1X-Edit大幅优于其他开源模型,强调了更强大的文本编码器和更丰富的文本特征的重要性。
定位能力是指准确识别和定位需要编辑的特定区域的能力,这取决于理解指令的能力和视觉感知能力。ImgEdit-E1在需要精确定位的任务(如属性改变和对象提取)上表现优于现有开源编辑模型,突显了提示中空间信息的重要性。
编辑能力是指跨编辑操作进行泛化的能力,主要取决于训练数据集的质量、大小和多样性。其他模型在对象提取任务上表现不佳,包括GPT-4o,再次确认了全面、高质量编辑数据集的必要性。
对于多轮任务,GPT-4o-Image和Gemini-2.0-flash展示了两轮内的版本回溯能力。这两个模型都具有最小的内容记忆和内容理解能力,可能偶尔对某些引用产生误解或难以在某些情况下保留前提。总体而言,这些模型对多轮编辑的支持不足。
ImgEdit如何改变图像编辑的未来?
ImgEdit通过提供高质量数据集、强大编辑方法和全面评估基准,推动了图像编辑领域的进步。这项工作帮助缩小了开源方法和最先进闭源模型之间的差距,推动了整个图像编辑领域的发展。
对普通用户而言,这意味着在不久的将来,我们可能会看到更多功能强大且可自由访问的图像编辑工具,使图像编辑变得更加直观、精确和高效。无论是专业设计师还是普通用户,都能够通过简单的文本指令对图像进行精确控制,从简单的颜色调整到复杂的多对象编辑,再到多轮交互式编辑过程。
ImgEdit的另一个重要贡献是建立了评估图像编辑模型的新标准。通过考虑指令遵循、编辑质量和细节保留等多个维度,ImgEdit-Bench提供了一个更全面、更公平的评估框架,这对于推动技术进步和指导未来研究方向至关重要。
当然,这项研究也有其局限性。尽管ImgEdit-E1在许多任务上表现优于现有开源模型,但与闭源模型如GPT-4o-Image相比仍有差距。这表明在数据质量、模型架构和训练方法等方面还有改进空间。未来的研究可能会探索更先进的模型架构、更多样化的数据集和更有效的训练策略,进一步缩小这一差距。
总的来说,ImgEdit代表了图像编辑领域的一个重要里程碑,为建立更强大、更易用的图像编辑系统奠定了基础。随着技术的不断发展,我们可以期待在不久的将来看到更加智能、直观和强大的图像编辑工具出现,使创意表达变得更加容易和有趣。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。