在图像编辑世界中,一项令人瞩目的突破悄然到来。来自加拿大西蒙弗雷泽大学的研究团队,由Amirhossein Alimohammadi和Aryan Mikaeili共同带领,联合Sauradip Nag、华为的Negar Hassanpour、西蒙弗雷泽大学及多伦多大学的Andrea Tagliasacchi以及西蒙弗雷泽大学的Ali Mahdavi-Amiri,于2025年5月29日在arXiv平台发布了一篇题为"Cora: Correspondence-aware image editing using few step diffusion"的论文(arXiv:2505.23907v1)。这项研究为使用扩散模型进行图像编辑提供了全新的解决方案,特别是在处理非刚性变形、物体修改和内容生成等复杂编辑任务时,表现出色超群。对于想要深入了解的读者,可以通过项目网站cora-edit.github.io获取更多信息。
一、图像编辑的新挑战:为何我们需要更智能的编辑工具?
想象一下,你有一张可爱的小狗照片,但突然希望它戴上耳机,或者将灰猫变成浣熊,甚至让静止的狗狗看起来像在跳跃。这些看似简单的愿望,在传统图像编辑中却是极具挑战性的任务。这正是计算机图形学、计算机视觉和视觉特效(VFX)领域中的研究人员们一直在努力解决的问题。
近年来,基于扩散模型的少步骤图像编辑技术取得了长足进步,让我们能够快速有效地完成各种编辑,成果令人印象深刻。然而,当我们需要进行结构性变化,超越简单的像素颜色修改时(比如非刚性编辑、物体改变),现有的扩散模型仍面临巨大挑战。
以TurboEdit为例,这种基于噪声校正的编辑方法常常会产生不必要的纹理伪影,难以保留源图像的身份特征或重要属性(比如姿势)。这是因为这类校正没有考虑到编辑后的生成图像与源图像可能不再在像素级别对齐。就像你试图给拼图添加新的图案,却发现新旧拼图的形状不匹配一样。
对于涉及主体显著变形的编辑(比如让狗狗从站立变为坐下),通常需要生成全新的部分,或者显示源图像中不存在的区域。一些方法尝试通过主要依赖源图像的纹理信息来维持主体的身份。虽然这种策略在某种程度上有效,但由于它们将扩散模型的中间特征从源图像注入到自注意力模块中,它们的编辑往往会将源图像中的不需要纹理复制到目标图像中没有明确对应关系的区域,就像是把狗狗毛发的纹理错误地贴到了它周围的背景上。
二、Cora:对应感知编辑的创新方法
西蒙弗雷泽大学的研究团队提出了一种全新的解决方案,将这个方法命名为"Cora"(对应感知的缩写)。Cora的核心技术贡献之一是结合了携带纹理信息的键(keys)和值(values),同时来自源图像和目标图像。这使网络能够在需要时生成全新内容,同时在源图像中有相关信息可用时准确复制纹理。
想象一下拼图游戏:传统方法只能使用原有拼图块(源图像),而Cora既可以使用原有拼图块,也可以创造新的拼图块(目标图像生成的内容),并且知道在什么情况下该用哪一种。
然而,简单地结合源图像和目标图像的方法(如简单连接)无法达到理想效果。研究团队发现,插值注意力图可以增强性能,同时在生成新内容和保留现有内容之间提供灵活性和控制力。
为了在保持源图像结构的同时获得合适的纹理,还需要通过建立语义对应关系来对齐注意力。因此,研究团队将一种名为DIFT的对应技术融入到他们的方法中。这种技术可以在源图像和目标图像之间对齐注意力图(键和值),实现更准确、更有效的相关纹理传输。
在生成的早期阶段,模型的输出主要是噪声,这使得建立对应关系变得不可行。因此,在四步扩散过程中,团队在最后两步启动对应过程,此时图像结构已经建立,但纹理仍在完善中。为了对齐源图像和目标图像的结构,研究团队使用匹配算法对查询(queries)进行排列。这种对齐在生成的第一步执行,因为图像结构正是在这个阶段形成的。
三、Cora的技术内幕:如何实现对应感知的图像编辑
要理解Cora的工作原理,我们需要先了解扩散模型的基础知识。扩散模型的工作方式类似于慢慢擦去一幅画,然后再一点点重新画出来。在编辑过程中,我们希望在重画的过程中引入一些变化,同时保留原画的某些特性。
### 对应感知的潜在校正
传统的噪声反演方法将输入图像映射到一系列潜在校正项,确保在使用相同文本提示的情况下能完美重建源图像。然而,当编辑需要对源图像进行大幅变形时,这些校正项与生成的图像在空间上不再对齐,导致严重的伪影。
Cora通过建立源图像和目标图像之间的对应图来解决这个问题。研究团队使用DIFT特征在两张图像之间创建语义匹配,然后根据这种对应关系对校正项进行重新对齐。
想象你在做拼贴画:传统方法会强行将原始图案拼到新位置,而Cora则会先找出原始图案和新位置之间的对应关系,然后根据这种对应关系进行调整,使拼贴更加自然。
由于DIFT特征可能存在噪声和不准确性,研究团队采用了基于补丁的对应方法。他们将DIFT特征分成小的、重叠的补丁,并为每个补丁而非单个像素计算对应关系。由于补丁重叠,多个补丁可能对单个像素的对齐有贡献,最终的对齐校正项通过平均所有重叠补丁的贡献获得。
随着去噪过程的进行和特征变得更加精确,补丁的大小会逐渐减小,确保对应关系更加精确,动态适应特征的可靠性变化。
### 对应感知的注意力插值
高质量的图像编辑需要在保留源图像关键方面(如外观或身份)和引入新元素或修改之间取得平衡。最近的方法通常通过将源图像的注意力特征注入到目标图像的去噪过程中来实现这一点。
Cora提出了几种结合源图像和目标图像注意力的策略:
首先是互相自注意力(Mutual Self-Attention),使用源图像的键和值在扩散模型的自注意力模块中。这确保了源图像的上下文(如外观和身份)得到保留,但限制了模型生成新内容的能力。
第二种策略是连接(Concatenation),将源图像和目标图像的键和值连接起来。虽然这使得外观变化成为可能,但常常无法实现两种外观之间的平滑插值,导致不自然的"外观泄漏"。
第三种方法是线性插值(Linear Interpolation),在源图像和目标图像的键和值之间进行线性插值。这种方法在某种程度上有效,但在插值显著不同的特征时可能会导致不需要的伪影。
为了解决这个限制,研究团队探索了使用球面线性插值(SLERP)来插值键和值,考虑到向量方向以实现更平滑的混合。SLERP确保了源图像和目标图像向量之间的过渡尊重它们的角度关系,提供更平滑、更可靠的外观混合。
### 内容自适应插值
当提示需要大幅变形或引入新物体时,不应该强制目标图像中的每个像素都与源图像中的像素匹配。过度强制对齐常常会创建视觉伪影或不正确的纹理传输。
为了解决这个问题,研究团队提出了一种两步策略,在混合之前检查每个目标补丁是否在源图像中有可靠的对应物。
首先是双向匹配:对于每个源补丁和目标补丁,找出它们最相似的补丁。如果源补丁和目标补丁互相是对方的最相似补丁,那么它们被认为是双向匹配的,是强对应关系,可以使用用户定义的权重进行混合。
其次是弱匹配处理:对于未匹配的目标补丁,计算其与源中最佳匹配的相似度。如果这个相似度低于某个阈值,那么该补丁被分类为"新",完全由提示引导而非源图像影响。
### 结构对齐
保留图像的整体布局(即保留结构)在编辑图像时非常重要。近期的研究表明,扩散模型中自注意力模块的查询(queries)指定了生成图像的结构。
Cora的关键思想是,要复制原始图像的结构(可能带有非刚性变形),需要在生成的目标中找到源图像的所有局部结构。研究团队通过源查询和目标查询之间的匈牙利匹配来实现这一点,这提供了一对一的匹配(即每个目标查询应该匹配一个源查询)。
匈牙利匹配计算最优排列,给定一个权重矩阵,然后对生成查询进行重排序。这个权重矩阵定义为两个矩阵的线性插值:一个鼓励目标查询与源查询保持相似(源对齐),另一个尝试惩罚目标查询之间的索引差异(目标一致性)。
通过调整混合权重,可以控制目标图像的结构,在保留源结构和更多地遵循文本提示之间进行过渡。这个过程仅限于去噪的第一步,因为这是生成图像的粗略结构形成的阶段。
四、实验结果:Cora的编辑能力展示
Cora在各种编辑任务中展现了其强大的能力。研究团队通过广泛的实验证明,在定量和定性评估中,Cora在各种编辑中都能出色地保持结构、纹理和身份,包括姿势变化、物体添加和纹理精细化等。
### 质量评估结果
研究团队展示了多种编辑类型的成果,包括非刚性变形(例如让动物做不同的动作)、插入新物体(例如给猫添加耳机)、替换现有物体(例如将猫变成鹰)等。Cora在保持输入图像的整体结构的同时,准确反映了请求的编辑。
与现有方法相比,Cora在保持主体身份和减少伪影方面更加成功。研究团队专注于与TurboEdit和InfEdit等少步骤基线以及MasaCtrl和编辑友好的DDPM反演等多步骤框架进行比较。Cora的结果展现出更少的扭曲和更好的保真度,特别是在仔细观察时。
研究团队还将Cora与更多多步骤方法进行了比较,包括Prompt-to-Prompt(P2P)、plug-and-play(PnP)、instructpix2pix和StyleDiffusion。尽管Cora使用的步骤显著减少(只有4步),但其在保留细节和遵循编辑方面达到了可比甚至更优的结果。
### 用户研究
研究团队进行了用户研究,以更好地评估Cora的性能。参与者被展示原始图像、编辑提示和来自Cora以及各种基线的输出。他们根据与提示的一致性和对源图像中主体的保留程度对图像进行排名,使用1(最差)到4(最好)的等级。
来自51名参与者的反馈强烈倾向于Cora方法,发现它优于其他少步骤方法,并且可与计算密集型的多步骤技术相媲美。另外,关于注意力混合策略的单独用户研究表明,对应对齐的SLERP插值产生了最佳结果。
### 消融研究
研究团队还进行了消融研究,检验Cora框架中各个组件的贡献:
结构对齐:禁用结构对齐会降低背景保真度,虽然编辑的对象仍然与文本提示良好对齐。这证明了结构对齐对于保留场景细节至关重要。
对应感知的潜在校正:移除这个模块会导致编辑区域出现显著的扭曲。因此,潜在校正对于产生连贯的编辑至关重要。
SLERP与LERP比较:虽然从SLERP切换到LERP通常会产生类似的结果,但在某些具有挑战性的案例中,SLERP可以产生更一致的过渡。
移除注意力中的对应对齐:如研究中所示,这会导致更多伪影,因为对齐有助于强制修改后的内容与背景之间的一致性。
五、Cora的未来与局限性
尽管Cora在图像编辑方面取得了显著进步,但研究团队也坦承其存在一些局限性。例如,文本提示可能会改变图像的非预期部分(比如改变汽车颜色可能也会影响背景)。这个问题可以通过使用自动获取的掩码(通过交叉注意力和自注意力)来解决。虽然这是一个有前途的方向,但在只有四步去噪的情况下具有挑战性,可作为未来的研究方向。
另一个潜在的未来方向是将Cora扩展到视频编辑,或评估用于注意力的替代非线性插值技术。
总体而言,Cora代表了图像编辑领域的重要进步,特别是在处理结构性编辑方面。通过创新的注意力混合和对应感知技术,Cora能够在保持源图像保真度的同时实现各种编辑,从简单的外观变化到复杂的非刚性变形。这项技术有望为计算机图形学、计算机视觉和视觉特效领域带来新的可能性,使创作者能够更轻松、更直观地实现他们的创意愿景。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。