在数字图像处理领域,一项重大突破正在改变我们修改图像的方式。新加坡国立大学的Yujia Hu、Songhua Liu、Zhenxiong Tan、Xingyi Yang和Xinchao Wang教授团队于2025年6月发表了一篇题为《Image Editing As Programs with Diffusion Models》(图像编辑即程序与扩散模型)的研究论文,该论文已提交至arXiv预印本平台(arXiv:2506.04158v1)。这项研究提出了一种创新的图像编辑框架,通过将复杂的编辑指令分解为简单的原子操作序列,实现了更精确、更灵活的图像编辑效果。
想象一下,你是否曾经尝试过用AI工具编辑图片,却发现它在处理简单修改(如改变颜色)时表现出色,但在涉及添加物体、移动元素位置等复杂编辑时却常常失败?这正是当前图像编辑技术面临的核心挑战,而新加坡研究团队提出的IEAP(Image Editing As Programs,图像编辑即程序)框架旨在解决这一问题。
研究团队首先发现了一个有趣的现象:当前基于扩散变换器(Diffusion Transformer,简称DiT)的图像编辑模型在处理不改变图像布局的简单编辑任务(如改变颜色、风格)时表现出色,但在需要改变图像结构的任务(如添加、删除或移动物体)时效果却大打折扣。这就像是一位厨师擅长调整菜肴的调味和装饰,却不善于改变菜品的主要成分或结构。
基于这一发现,研究团队提出了一个巧妙的解决方案:将复杂的编辑指令分解为一系列基础操作(称为"原子操作"),然后按顺序执行这些操作。这有点像把一个复杂的烹饪食谱分解为一系列简单的步骤:先准备材料,再切菜,然后炒制,最后调味。在IEAP框架中,研究者定义了五种基本的原子操作:
首先是"感兴趣区域定位",这相当于确定你要在图像的哪个部分进行修改,就像厨师决定要修改菜品中的哪一部分。其次是"感兴趣区域修补",用于在选定区域添加新内容或移除现有内容,相当于在菜品中添加或移除某种食材。第三步是"感兴趣区域编辑",用于修改区域内的视觉属性(如颜色、纹理等),就像调整食材的烹饪方式或调味。第四步是"感兴趣区域合成",将编辑后的区域与原图融合,确保过渡自然,就像确保新添加的食材与整道菜的风味协调一致。最后是"全局转换",用于调整整个图像的内容,如改变照明、天气或风格,相当于调整整个菜品的最终呈现效果。
这种方法的巧妙之处在于,它利用了"思维链"(Chain-of-Thought,简称CoT)推理技术,通过一个视觉-语言模型(VLM)智能代理来分析用户的指令,并将其转化为一系列原子操作的执行计划。就像一位经验丰富的厨师主管,能够将顾客的复杂要求("我想要一道带有轻微烟熏味、口感鲜嫩多汁的牛排")转化为厨房团队可以执行的具体步骤。
举个例子,当用户提出"把这位女士放在秋天的森林里,她穿着白色连衣裙,旁边有一只狐狸"这样的复杂要求时,IEAP系统会自动将其分解为:1)将背景更改为森林;2)让女士穿上白色连衣裙;3)在女士旁边添加一只狐狸;4)将时间改为秋天。然后,系统会按顺序执行这些操作,每一步都由专门的模型负责处理。
研究团队在多个基准测试中评估了IEAP框架的性能,包括MagicBrush测试集和AnyEdit测试集。结果显示,IEAP在各种编辑场景中都大幅超越了现有的最先进方法,特别是在处理复杂的多步骤指令时。例如,在AnyEdit测试集上,IEAP的GPT-4o评分达到4.41分(满分5分),而现有最佳方法ICEdit仅获得4.13分。
更重要的是,IEAP在处理结构性不一致的编辑任务(如添加、移除、替换物体等)时表现尤为出色。在"本地语义编辑"测试中,IEAP的CLIPimg得分达到0.907,而ICEdit仅为0.881。这说明IEAP生成的图像不仅更符合用户指令,还保持了更高的语义一致性和视觉质量。
研究团队还将IEAP与一些顶级的多模态模型进行了比较,包括SeedEdit(Doubao)、Gemini 2.0 Flash和GPT-4o。结果表明,IEAP在处理复杂指令方面的表现可以媲美甚至超越这些闭源的商业模型。与竞争对手相比,IEAP能够更忠实地执行每一条指令,同时保持更好的图像一致性和实例保留。
当然,IEAP也存在一些局限性。例如,在处理复杂阴影变化时,它有时会在合成操作后留下不一致的阴影。此外,多次编辑迭代可能会导致图像质量逐渐下降。研究团队计划在未来的工作中通过物理感知阴影建模和基于扩散的质量恢复技术来解决这些问题。
模块化的方法不仅提高了编辑效果,还增强了整个过程的可解释性和可控性。就像一位透明工作的厨师,不仅告诉你最终的菜品是什么,还让你了解每一步的烹饪过程和添加的食材。这使得用户可以更好地理解和控制编辑过程,也为未来的研究和应用提供了更多可能性。
总的来说,IEAP框架代表了图像编辑领域的一个重要进步,它通过将复杂问题分解为简单步骤,解决了当前技术在处理结构性编辑时的局限。这种"编辑即程序"的思路不仅适用于图像编辑,也可能为其他领域的复杂任务分解提供启发。无论是专业设计师还是普通用户,都可以从这种更精确、更灵活的图像编辑方式中受益。
如果你对这项研究感兴趣,可以通过arXiv:2506.04158v1查看完整论文,研究团队也表示将在GitHub上开源相关代码,让更多人能够体验和应用这一创新技术。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。