微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 图像编辑即程序:新加坡国立大学研究团队提出模块化编辑框架,让复杂图像编辑变得简单高效

图像编辑即程序:新加坡国立大学研究团队提出模块化编辑框架,让复杂图像编辑变得简单高效

2025-06-07 17:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 17:02 科技行者

在数字图像处理领域,一项重大突破正在改变我们修改图像的方式。新加坡国立大学的Yujia Hu、Songhua Liu、Zhenxiong Tan、Xingyi Yang和Xinchao Wang教授团队于2025年6月发表了一篇题为《Image Editing As Programs with Diffusion Models》(图像编辑即程序与扩散模型)的研究论文,该论文已提交至arXiv预印本平台(arXiv:2506.04158v1)。这项研究提出了一种创新的图像编辑框架,通过将复杂的编辑指令分解为简单的原子操作序列,实现了更精确、更灵活的图像编辑效果。

想象一下,你是否曾经尝试过用AI工具编辑图片,却发现它在处理简单修改(如改变颜色)时表现出色,但在涉及添加物体、移动元素位置等复杂编辑时却常常失败?这正是当前图像编辑技术面临的核心挑战,而新加坡研究团队提出的IEAP(Image Editing As Programs,图像编辑即程序)框架旨在解决这一问题。

研究团队首先发现了一个有趣的现象:当前基于扩散变换器(Diffusion Transformer,简称DiT)的图像编辑模型在处理不改变图像布局的简单编辑任务(如改变颜色、风格)时表现出色,但在需要改变图像结构的任务(如添加、删除或移动物体)时效果却大打折扣。这就像是一位厨师擅长调整菜肴的调味和装饰,却不善于改变菜品的主要成分或结构。

基于这一发现,研究团队提出了一个巧妙的解决方案:将复杂的编辑指令分解为一系列基础操作(称为"原子操作"),然后按顺序执行这些操作。这有点像把一个复杂的烹饪食谱分解为一系列简单的步骤:先准备材料,再切菜,然后炒制,最后调味。在IEAP框架中,研究者定义了五种基本的原子操作:

首先是"感兴趣区域定位",这相当于确定你要在图像的哪个部分进行修改,就像厨师决定要修改菜品中的哪一部分。其次是"感兴趣区域修补",用于在选定区域添加新内容或移除现有内容,相当于在菜品中添加或移除某种食材。第三步是"感兴趣区域编辑",用于修改区域内的视觉属性(如颜色、纹理等),就像调整食材的烹饪方式或调味。第四步是"感兴趣区域合成",将编辑后的区域与原图融合,确保过渡自然,就像确保新添加的食材与整道菜的风味协调一致。最后是"全局转换",用于调整整个图像的内容,如改变照明、天气或风格,相当于调整整个菜品的最终呈现效果。

这种方法的巧妙之处在于,它利用了"思维链"(Chain-of-Thought,简称CoT)推理技术,通过一个视觉-语言模型(VLM)智能代理来分析用户的指令,并将其转化为一系列原子操作的执行计划。就像一位经验丰富的厨师主管,能够将顾客的复杂要求("我想要一道带有轻微烟熏味、口感鲜嫩多汁的牛排")转化为厨房团队可以执行的具体步骤。

举个例子,当用户提出"把这位女士放在秋天的森林里,她穿着白色连衣裙,旁边有一只狐狸"这样的复杂要求时,IEAP系统会自动将其分解为:1)将背景更改为森林;2)让女士穿上白色连衣裙;3)在女士旁边添加一只狐狸;4)将时间改为秋天。然后,系统会按顺序执行这些操作,每一步都由专门的模型负责处理。

研究团队在多个基准测试中评估了IEAP框架的性能,包括MagicBrush测试集和AnyEdit测试集。结果显示,IEAP在各种编辑场景中都大幅超越了现有的最先进方法,特别是在处理复杂的多步骤指令时。例如,在AnyEdit测试集上,IEAP的GPT-4o评分达到4.41分(满分5分),而现有最佳方法ICEdit仅获得4.13分。

更重要的是,IEAP在处理结构性不一致的编辑任务(如添加、移除、替换物体等)时表现尤为出色。在"本地语义编辑"测试中,IEAP的CLIPimg得分达到0.907,而ICEdit仅为0.881。这说明IEAP生成的图像不仅更符合用户指令,还保持了更高的语义一致性和视觉质量。

研究团队还将IEAP与一些顶级的多模态模型进行了比较,包括SeedEdit(Doubao)、Gemini 2.0 Flash和GPT-4o。结果表明,IEAP在处理复杂指令方面的表现可以媲美甚至超越这些闭源的商业模型。与竞争对手相比,IEAP能够更忠实地执行每一条指令,同时保持更好的图像一致性和实例保留。

当然,IEAP也存在一些局限性。例如,在处理复杂阴影变化时,它有时会在合成操作后留下不一致的阴影。此外,多次编辑迭代可能会导致图像质量逐渐下降。研究团队计划在未来的工作中通过物理感知阴影建模和基于扩散的质量恢复技术来解决这些问题。

模块化的方法不仅提高了编辑效果,还增强了整个过程的可解释性和可控性。就像一位透明工作的厨师,不仅告诉你最终的菜品是什么,还让你了解每一步的烹饪过程和添加的食材。这使得用户可以更好地理解和控制编辑过程,也为未来的研究和应用提供了更多可能性。

总的来说,IEAP框架代表了图像编辑领域的一个重要进步,它通过将复杂问题分解为简单步骤,解决了当前技术在处理结构性编辑时的局限。这种"编辑即程序"的思路不仅适用于图像编辑,也可能为其他领域的复杂任务分解提供启发。无论是专业设计师还是普通用户,都可以从这种更精确、更灵活的图像编辑方式中受益。

如果你对这项研究感兴趣,可以通过arXiv:2506.04158v1查看完整论文,研究团队也表示将在GitHub上开源相关代码,让更多人能够体验和应用这一创新技术。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-