微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

图像编辑即程序：新加坡国立大学研究团队提出模块化编辑框架，让复杂图像编辑变得简单高效

人工智能图像编辑扩散模型

图像编辑即程序：新加坡国立大学研究团队提出模块化编辑框架，让复杂图像编辑变得简单高效

作者：科技行者

2025-06-07 17:02

分享至：

新加坡国立大学研究团队开发了名为IEAP的图像编辑框架，它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色，但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作，并利用思维链推理技术智能分解用户指令，实验证明其性能显著超越现有方法，尤其在处理复杂多步骤编辑时。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-07 17:02 • 科技行者

在数字图像处理领域，一项重大突破正在改变我们修改图像的方式。新加坡国立大学的Yujia Hu、Songhua Liu、Zhenxiong Tan、Xingyi Yang和Xinchao Wang教授团队于2025年6月发表了一篇题为《Image Editing As Programs with Diffusion Models》（图像编辑即程序与扩散模型）的研究论文，该论文已提交至arXiv预印本平台（arXiv:2506.04158v1）。这项研究提出了一种创新的图像编辑框架，通过将复杂的编辑指令分解为简单的原子操作序列，实现了更精确、更灵活的图像编辑效果。

想象一下，你是否曾经尝试过用AI工具编辑图片，却发现它在处理简单修改（如改变颜色）时表现出色，但在涉及添加物体、移动元素位置等复杂编辑时却常常失败？这正是当前图像编辑技术面临的核心挑战，而新加坡研究团队提出的IEAP（Image Editing As Programs，图像编辑即程序）框架旨在解决这一问题。

研究团队首先发现了一个有趣的现象：当前基于扩散变换器（Diffusion Transformer，简称DiT）的图像编辑模型在处理不改变图像布局的简单编辑任务（如改变颜色、风格）时表现出色，但在需要改变图像结构的任务（如添加、删除或移动物体）时效果却大打折扣。这就像是一位厨师擅长调整菜肴的调味和装饰，却不善于改变菜品的主要成分或结构。

基于这一发现，研究团队提出了一个巧妙的解决方案：将复杂的编辑指令分解为一系列基础操作（称为"原子操作"），然后按顺序执行这些操作。这有点像把一个复杂的烹饪食谱分解为一系列简单的步骤：先准备材料，再切菜，然后炒制，最后调味。在IEAP框架中，研究者定义了五种基本的原子操作：

首先是"感兴趣区域定位"，这相当于确定你要在图像的哪个部分进行修改，就像厨师决定要修改菜品中的哪一部分。其次是"感兴趣区域修补"，用于在选定区域添加新内容或移除现有内容，相当于在菜品中添加或移除某种食材。第三步是"感兴趣区域编辑"，用于修改区域内的视觉属性（如颜色、纹理等），就像调整食材的烹饪方式或调味。第四步是"感兴趣区域合成"，将编辑后的区域与原图融合，确保过渡自然，就像确保新添加的食材与整道菜的风味协调一致。最后是"全局转换"，用于调整整个图像的内容，如改变照明、天气或风格，相当于调整整个菜品的最终呈现效果。

这种方法的巧妙之处在于，它利用了"思维链"（Chain-of-Thought，简称CoT）推理技术，通过一个视觉-语言模型（VLM）智能代理来分析用户的指令，并将其转化为一系列原子操作的执行计划。就像一位经验丰富的厨师主管，能够将顾客的复杂要求（"我想要一道带有轻微烟熏味、口感鲜嫩多汁的牛排"）转化为厨房团队可以执行的具体步骤。

举个例子，当用户提出"把这位女士放在秋天的森林里，她穿着白色连衣裙，旁边有一只狐狸"这样的复杂要求时，IEAP系统会自动将其分解为：1）将背景更改为森林；2）让女士穿上白色连衣裙；3）在女士旁边添加一只狐狸；4）将时间改为秋天。然后，系统会按顺序执行这些操作，每一步都由专门的模型负责处理。

研究团队在多个基准测试中评估了IEAP框架的性能，包括MagicBrush测试集和AnyEdit测试集。结果显示，IEAP在各种编辑场景中都大幅超越了现有的最先进方法，特别是在处理复杂的多步骤指令时。例如，在AnyEdit测试集上，IEAP的GPT-4o评分达到4.41分（满分5分），而现有最佳方法ICEdit仅获得4.13分。

更重要的是，IEAP在处理结构性不一致的编辑任务（如添加、移除、替换物体等）时表现尤为出色。在"本地语义编辑"测试中，IEAP的CLIPimg得分达到0.907，而ICEdit仅为0.881。这说明IEAP生成的图像不仅更符合用户指令，还保持了更高的语义一致性和视觉质量。

研究团队还将IEAP与一些顶级的多模态模型进行了比较，包括SeedEdit（Doubao）、Gemini 2.0 Flash和GPT-4o。结果表明，IEAP在处理复杂指令方面的表现可以媲美甚至超越这些闭源的商业模型。与竞争对手相比，IEAP能够更忠实地执行每一条指令，同时保持更好的图像一致性和实例保留。

当然，IEAP也存在一些局限性。例如，在处理复杂阴影变化时，它有时会在合成操作后留下不一致的阴影。此外，多次编辑迭代可能会导致图像质量逐渐下降。研究团队计划在未来的工作中通过物理感知阴影建模和基于扩散的质量恢复技术来解决这些问题。

模块化的方法不仅提高了编辑效果，还增强了整个过程的可解释性和可控性。就像一位透明工作的厨师，不仅告诉你最终的菜品是什么，还让你了解每一步的烹饪过程和添加的食材。这使得用户可以更好地理解和控制编辑过程，也为未来的研究和应用提供了更多可能性。

总的来说，IEAP框架代表了图像编辑领域的一个重要进步，它通过将复杂问题分解为简单步骤，解决了当前技术在处理结构性编辑时的局限。这种"编辑即程序"的思路不仅适用于图像编辑，也可能为其他领域的复杂任务分解提供启发。无论是专业设计师还是普通用户，都可以从这种更精确、更灵活的图像编辑方式中受益。

如果你对这项研究感兴趣，可以通过arXiv:2506.04158v1查看完整论文，研究团队也表示将在GitHub上开源相关代码，让更多人能够体验和应用这一创新技术。

人工智能图像编辑扩散模型

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
数据合成
大语言模型

2025-07-16 10:01

北航大学团队推出Easy Dataset：让普通人也能制作AI训练数据的神奇工具

北航团队推出Easy Dataset框架，通过直观的图形界面和角色驱动的生成方法，让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能，在金融领域实验中显著提升了AI模型的专业表现，同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
人工智能
自然语言处理
网络安全

2025-07-16 10:01

网络安全AI助手：让电脑漏洞危险等级一秒识别的RoBERTa智能系统

卢森堡计算机事件响应中心开发的VLAI系统，基于RoBERTa模型，能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练，准确率达82.8%，已集成到实际安全服务中。研究采用开源方式，为网络安全专家提供快速漏洞风险评估工具，有效解决了官方评分发布前的安全决策难题。
人工智能
推理模型评估
xVerify系统

2025-07-16 10:00

人工智能评判官：xVerify如何解决复杂推理模型的评估难题

中国电信研究院等机构联合开发的xVerify系统，专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出，在准确率和效率方面均超越现有方法，为AI评估领域提供了重要突破。
多模态推理
视觉语言模型
深度学习

2025-07-16 10:00

只需输入音频就能生成说话人视频？昆仑集团推出的Skywork R1V让AI同时看懂图片和推理数学

昆仑公司Skywork AI团队开发的Skywork R1V模型，成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能，在MMMU测试中达到69.0分，在MathVista获得67.5分，同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术，成功实现了视觉理解与逻辑推理的完美结合，并将所有代码和权重完全开源。