微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

解锁物体组合的新时代：南方科技大学团队开创几何可编辑与外观保持双重平衡的对象组合技术

计算机视觉扩散模型图像合成

解锁物体组合的新时代：南方科技大学团队开创几何可编辑与外观保持双重平衡的对象组合技术

作者：科技行者

2025-06-09 11:17

分享至：

南方科技大学林剑满团队开创性提出DGAD模型，解决通用物体组合中几何编辑与外观保持的双重挑战。该方法首先利用语义嵌入隐式捕捉物体几何特性，再通过密集交叉注意力机制精确对齐外观特征，成功实现物体在任意场景中的灵活编辑同时保持细节不变。实验表明，DGAD在编辑灵活性和外观保真度上均优于现有技术，为AR/VR内容创建等应用提供了强大工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-09 11:17 • 科技行者

对于那些喜欢编辑图像的人来说，将一个物体自然地放入背景场景中一直是个难题。想象一下，你手中有一张可爱柯基犬的照片，希望将它放在客厅沙发上，但总是效果不佳：要么柯基看起来像"贴"上去的贴纸，要么角度不对，要么狗狗的毛色和特征都变了。这正是南方科技大学林剑满、李昊杰、青春梅，广东工业大学杨志景，以及中山大学林亮和陈天水等研究者在2025年5月发表的研究"Geometry-Editable and Appearance-Preserving Object Composition"（几何可编辑和外观保持的对象组合）所要解决的问题。

这项发表于arXiv（arXiv:2505.20914v1）的研究，为通用物体组合（General Object Composition，简称GOC）任务提出了全新解决方案。什么是通用物体组合？简单来说，就是将一个目标物体（比如那只柯基）无缝地融入背景场景（比如你的客厅），同时确保这个物体可以按照你想要的角度和位置进行调整，而且保持它原本的细节外观不变。想象成是给照片中的物体一个"新家"，但不改变它的"长相"。

目前的人工智能技术在物体组合方面面临一个两难选择：要么能灵活编辑物体的位置和角度（称为"几何可编辑性"），但物体的细节会丢失；要么能很好地保留物体的细节外观（称为"外观保持"），但位置和角度就难以灵活调整。就像你要么能随意摆放一个积木，但它可能变成了另一种颜色；要么能保持它漂亮的原色，但只能放在固定位置。

南方科技大学的研究团队开创性地提出了一种名为"DGAD"（Disentangled Geometry-editable and Appearance-preserving Diffusion，解耦的几何可编辑与外观保持扩散模型）的方法。这个方法的独特之处在于它将"几何编辑"和"外观保持"这两个任务巧妙地分开处理，又在正确的时机将它们结合起来。

想象DGAD就像一个专业的电影制作团队：首先有一位"场景设计师"（几何编辑部分）确定物体应该放在哪里，以什么角度出现；然后有一位"化妆师"（外观保持部分）确保物体的每一个细节都保持原样。这两位专家并不是各自为政，而是紧密合作：场景设计师先规划好物体的位置和姿态，然后化妆师根据这个规划精确地在每个位置添加正确的外观细节。

那么，DGAD是如何实现这一过程的呢？研究团队的方法包含两个关键步骤：

第一步，他们利用语义嵌入（可以理解为物体的"概念理解"）和预训练扩散模型的强大空间推理能力，隐式地捕捉物体的几何特性。这就像先理解"一只狗应该怎样坐在沙发上"这样的空间关系，而不是直接处理狗的外观。这个阶段使用了CLIP或DINO这样的视觉模型提取的语义特征，让系统能够理解物体应该如何自然地放置在场景中。

第二步，他们设计了一种密集交叉注意力机制，利用第一步学到的几何信息，准确地将物体的外观特征与其对应的几何区域对齐。想象这个过程就像拿着一个透明的狗狗轮廓，然后精确地往这个轮廓的每个部分填充正确的颜色和纹理，确保狗的毛发、眼睛、鼻子等每个细节都保持原样，同时适应新的角度和位置。

值得注意的是，DGAD不只是简单地把物体"贴"到背景上，而是真正理解了物体应该如何自然地存在于背景场景中。它不需要用户提供精确的物体蒙版或复杂的几何信息，只需要指定大致的区域，系统就能自动处理物体的空间放置和外观保持。

通过在公开基准测试中的实验，研究团队证明了DGAD方法在物体编辑性和外观保持方面都优于现有技术。在用户研究中，37.5%的参与者认为DGAD在组合质量方面表现最佳，41.5%的参与者认为它在视觉一致性方面最出色，远超其他对比方法。

这项技术的潜在应用十分广泛：从交互式图像编辑、虚拟环境创建，到增强和虚拟现实（AR/VR）应用的内容生成。想象一下，你可以轻松地将任何物体放入任何背景，创建完全真实的合成场景，无论是为电子商务网站创建产品展示，还是为游戏和虚拟世界构建沉浸式环境。

让我们来看看DGAD与现有方法相比有何不同。现有的方法主要分为两类：一类是依赖语义嵌入（如CLIP/DINO特征）的方法，它们能实现物体的灵活编辑，但会丢失细节；另一类是使用参考网络提取像素级特征的方法，它们能很好地保留外观细节，但编辑灵活性受限。

DGAD的创新之处在于它不是简单地选择这两种方法之一，而是巧妙地结合了两者的优势。它首先使用语义嵌入隐式地学习物体的几何特性，然后使用这些学到的特性作为"指导"，准确地从参考网络中检索和对齐外观特征。这种解耦然后重组的策略，就像是先画出一个精确的轮廓，然后再一笔一笔地填充颜色，确保每一笔都落在正确的位置。

研究团队还进行了广泛的消融研究，验证了DGAD中每个组件的必要性和有效性。例如，他们发现移除几何布局表示会导致编辑能力显著下降，而使用标准交叉注意力替代密集交叉注意力机制则会损害外观保持能力。

总而言之，南方科技大学团队的DGAD方法为通用物体组合任务提供了一个全新的视角和解决方案，成功地实现了几何可编辑性和外观保持的平衡，这在以往的技术中是难以同时实现的。这一突破性进展不仅推动了计算机视觉和图像编辑技术的发展，也为创建更加真实、自然的合成图像铺平了道路，未来有望在多媒体内容创作、虚拟现实和增强现实等领域发挥重要作用。

如果你对这项研究感兴趣，可以访问研究团队的GitHub页面：https://github.com/jianmanlincjx/DGAD，查看代码和预训练模型。

计算机视觉扩散模型图像合成

分享至

0赞

好文章，需要你的鼓励

推荐文章

音频生成
大语言模型
多模态AI

2025-09-10 09:47

如何让AI像电影配乐师一样创作完整的长篇音频故事——腾讯ARC实验室团队AudioStory突破性进展

腾讯ARC实验室推出AudioStory系统，首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术，通过交错式推理生成、解耦桥接机制和渐进式训练，能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异，为AI音频创作开辟新方向。
视频生成
深度学习
多模态学习

2025-09-09 13:57

Meta与特拉维夫大学联手打造VideoJAM：让AI生成的视频动起来不再是奢望

Meta与特拉维夫大学联合研发的VideoJAM技术，通过让AI同时学习外观和运动信息，显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量，在多项测试中超越包括Sora在内的商业模型，为AI视频生成的实用化应用奠定了重要基础。
多模态AI
人类价值观对齐
数据集构建

2025-09-09 13:56

上海AI实验室重磅发布：让AI看图"说人话"的神奇训练法，解决多模态AI与人类价值观对齐难题

上海AI实验室发布OmniAlign-V研究，首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准，通过创新的数据生成和质量管控方法，让AI在保持技术能力的同时显著提升人性化交互水平，为AI价值观对齐提供了可行技术路径。
人工智能
图神经网络
天气预报

2025-09-09 10:56

谷歌研究团队发布超级预测模型：让AI像天气预报员一样预测全球大气变化

谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型，能够在不到一分钟内完成10天全球天气预报，准确性超越传统方法90%的指标。该模型采用图神经网络技术，通过学习40年历史数据掌握天气变化规律，在极端天气预测方面表现卓越，能耗仅为传统方法的千分之一，为气象学领域带来了效率和精度的双重突破。