微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ROSE:让视频中的物体彻底"消失",连阴影也不留痕迹的神奇技术

ROSE:让视频中的物体彻底"消失",连阴影也不留痕迹的神奇技术

2025-09-04 10:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-04 10:00 科技行者

随着视频编辑技术的发展,人们越来越希望能够轻松地从视频中移除不需要的物体。然而,现有的技术往往只能将物体本身删除,却无法处理物体在环境中留下的"痕迹"——比如阴影、倒影、光照变化等。这就像是想要从一张全家福中删掉某个人,却发现地面上还留着他的影子一样尴尬。

最近,来自浙江大学、昆字节AI、北京大学和香港大学的研究团队,在2025年8月26日发布了一项名为"ROSE: Remove Objects with Side Effects in Videos"的突破性研究。这项研究发表在arXiv预印本服务器上(论文编号:arXiv:2508.18633v1),感兴趣的读者可以通过 https://rose2025-inpaint.github.io/ 访问项目页面获取更多信息。

ROSE系统的核心创新在于它不仅能够移除视频中的目标物体,还能智能处理物体对周围环境产生的各种影响。研究团队将这些"副作用"归纳为五个主要类别:阴影效果、反射效果、光源效果、透明效果和镜像效果。这就好比一个顶级的清洁工,不仅能够移走房间里的家具,还能自动处理家具在地板上留下的压痕、墙上的色差,以及因为移动家具而改变的房间光线分布。

为了训练这样一个智能系统,研究团队面临的最大挑战是缺乏高质量的训练数据。传统的方法通常使用简单的"复制粘贴"策略来创建训练数据,就像在两张不同的照片之间移动贴纸一样。然而,这种方法无法真实地模拟物体与环境之间的复杂物理交互关系。

研究团队采用了一个创新的解决方案:利用虚幻引擎这样的3D渲染技术来生成完美的训练数据。他们收集了28个高质量的虚拟环境,并将其分解为450个独特的场景,涵盖了城市环境、自然景观和人工建筑等各种场景。在每个场景中,他们可以精确控制物体的存在与否,从而获得完美对应的"有物体"和"无物体"版本的视频对。这就像拥有一个完美的摄影棚,可以在完全相同的条件下拍摄两个版本的电影——一个版本包含某个演员,另一个版本中这个演员从未出现过,但所有其他条件都完全一致。

一、智能识别:让AI看懂物体与环境的复杂关系

ROSE系统的第一个核心技术是能够理解物体与周围环境之间的复杂关系。这就像训练一个观察力极强的侦探,他不仅能够识别出房间里的物品,还能推断出这些物品对房间整体氛围的影响。

传统的视频编辑方法就像一个粗心的清洁工,只会简单地把不要的东西扔掉,却不会注意到墙上因此露出的色差,或者地板上留下的印记。而ROSE系统则像一个经验丰富的室内设计师,能够预见到移除一件家具后需要进行哪些额外的调整。

系统通过分析视频中的光线分布、物体材质、空间关系等多重信息,来判断移除目标物体后可能产生的环境变化。比如,当系统识别到一个发光的灯泡需要被移除时,它不仅会删掉灯泡本身,还会自动调整周围区域的亮度分布,让整个场景看起来就像从未安装过这个灯泡一样自然。

这种智能识别能力的实现得益于深度学习技术的应用。研究团队设计了一个基于扩散变换器(Diffusion Transformer)的模型架构,这个架构能够同时处理视频的时间连续性和空间复杂性。扩散变换器就像一个精密的画家,能够一笔一笔地"重绘"视频中需要修改的区域,确保每一帧都与前后帧保持完美的连贯性。

二、数据生成:用虚拟世界训练真实能力

获取高质量的训练数据是ROSE系统成功的关键。研究团队面临的挑战就像要教一个学生如何修复古画,但却找不到足够多的"修复前后对比"的真实案例来学习。

为了解决这个问题,研究团队开发了一个全自动的数据生成流水线。他们首先从公共3D资源平台收集了大量虚拟环境,这些环境包括城市街道、自然风光、室内场所等各种场景。然后,他们将这些大环境细分为包含不同物体的小场景,每个小场景都像一个独立的电影拍摄现场。

在每个场景中,系统会自动生成多个不同角度和距离的摄像机位置,就像安排一个摄影团队从各个角度拍摄同一个场景。3D引擎的优势在于,它可以精确控制场景中每个物体的可见性。研究团队就像拥有了一个神奇的开关,可以让某个物体瞬间"隐身",同时自动调整因此产生的光照、阴影等环境变化。

这个过程生成了16,678对高质量的视频数据,每对视频包含90帧(6秒),分辨率达到1920×1080。更重要的是,这些数据完美地展示了物体移除前后环境的所有变化,为AI系统提供了学习如何处理各种复杂情况的完整教材。

整个数据生成过程还包括严格的质量控制。系统会自动过滤掉那些物体被遮挡过多或者视角不佳的视频,确保每一对训练数据都能为AI系统提供清晰、有价值的学习信息。这就像一个严格的教师,只选择最典型、最有教育价值的案例来教授学生。

三、五大副作用类型:涵盖现实世界的复杂情况

ROSE系统的独特之处在于它系统性地研究和处理了物体移除可能产生的五种主要副作用。这种分类方法就像一个经验丰富的医生,能够准确诊断并治疗不同类型的"症状"。

第一种是阴影效果。当阳光照射下的树木被移除时,地面上的树影也必须同时消失,但消失后的地面应该呈现出正常的光照状态,而不是简单的空白。ROSE系统就像一个光影大师,能够准确计算出移除物体后光线的重新分布,让整个场景的光照看起来完全自然。

第二种是反射效果。当湖面上的天鹅被移除时,水中的倒影也必须消失,但湖面应该呈现出平静水面的正常反射状态。这要求系统不仅要理解反射的物理原理,还要能够根据周围环境生成合理的水面反射效果。

第三种是光源效果。这是最复杂的情况之一。当一个发光的路灯被移除时,不仅灯本身要消失,它照亮的整个区域都需要重新调整光线分布。系统需要像一个照明工程师一样,重新计算整个场景的光照方案。

第四种是透明效果。当透明或半透明物体被移除时,原本被遮挡在后面的背景需要完整地显现出来。这就像从一个磨砂玻璃窗后面完全恢复窗外的清晰景象,需要系统能够"想象"出被遮挡部分的真实样子。

第五种是镜像效果。当镜子中的物体被移除时,系统需要同时处理现实中的物体和镜像中的物体,还要确保镜面反射的空间关系保持正确。这要求系统具备复杂的空间推理能力。

研究团队为每种效果都设计了专门的训练数据和处理策略。他们发现,不同类型的副作用需要不同的处理重点:阴影效果主要考验系统对光照的理解,反射效果考验对水面和光滑表面的建模能力,而光源效果则需要系统具备全局光照计算能力。

四、技术架构:引用式擦除的创新方法

ROSE系统在技术实现上采用了一种称为"引用式擦除"的创新方法。这种方法的核心思想是让AI系统能够看到完整的原始视频,而不是像传统方法那样只看到被遮盖后的部分内容。

传统的视频修复方法就像给一个修复师一张被撕掉一块的照片,然后要求他想象出缺失部分的内容。这种方法的问题在于,修复师无法了解被撕掉部分的物体特征,也就难以准确判断这个物体对周围环境产生了什么影响。

ROSE系统的方法则像是给修复师同时提供完整的照片和一个透明的标记,告诉他哪些部分需要被移除。这样,系统就能够充分分析目标物体的特征,理解它与周围环境的交互关系,从而做出更准确的修复决策。

这种方法的技术实现基于扩散变换器架构。系统的输入包括三个部分:带有噪声的视频潜在表示、完整的原始视频、以及标记了需要移除物体的掩码。这三个输入在模型中被连接起来,形成一个丰富的信息源,让AI能够全面理解视频内容和修复任务。

为了增强系统的实用性,研究团队还设计了多样化的掩码增强策略。现实世界中,用户提供的物体标记可能不够精确——有时候是粗糙的方框,有时候是简单的点击,有时候又可能标记过度。为了让系统能够适应这些不完美的输入,训练过程中会随机使用五种不同类型的掩码:精确的分割掩码、极简的点状掩码、粗糙的边界框掩码、扩大的膨胀掩码,以及收缩的腐蚀掩码。

五、差异掩码预测:显式监督的智能辅助

ROSE系统的另一个技术创新是引入了差异掩码预测机制。这个机制就像给AI系统配备了一个专门的"影响范围探测器",能够自动识别出物体移除后哪些区域需要进行修复。

在传统的视频修复方法中,系统只关注被明确标记的物体区域。但是,物体对环境的影响往往超出其自身的边界。一个站立的人不仅占据了身体所在的空间,还在地面投下了影子,在附近的镜子中留下了倒影,甚至可能遮挡了身后的景物。

差异掩码预测器的工作原理是通过比较原始视频和移除物体后的目标视频,自动计算出所有发生变化的像素位置。这个过程就像用一个高精度的"找不同"游戏,系统能够精确识别出两个视频帧之间的每一个细微差别。

技术实现上,差异掩码通过计算像素级别的欧几里得距离来确定。当两个视频帧在某个位置的颜色差异超过预设阈值(研究中设为0.09)时,该位置就会被标记为需要修复的区域。这种计算产生的二值掩码不仅包含了目标物体本身,还覆盖了所有受物体影响的环境区域。

为了将这个差异掩码信息有效地传递给主要的修复模型,研究团队设计了一个专门的预测器网络。这个预测器从视频修复模型的多个变换器层中提取特征信息,然后通过一个两层的多层感知器(MLP)来预测每个区域是否需要修复。预测器的输出经过插值处理后,能够与视频的完整分辨率匹配。

整个系统的训练目标包括两个部分:标准的扩散去噪损失和辅助的掩码预测损失。这种双重监督机制确保了系统不仅能够生成高质量的修复结果,还能准确识别需要修复的所有区域。权衡参数λ用于平衡这两个训练目标,确保系统在修复质量和区域识别准确性之间达到最佳平衡。

六、ROSE-Bench评估体系:全面检验修复能力

为了科学地评估ROSE系统的性能,研究团队构建了一个名为ROSE-Bench的comprehensive评估基准。这个评估体系就像为一个全能运动员设计的综合测试,不仅要检验基本技能,还要测试在各种复杂情况下的表现。

ROSE-Bench包含三个不同层次的测试数据集。第一个是合成配对基准,使用与训练数据相同的3D渲染技术生成,包含六个代表性类别:普通情况、光源效果、镜像效果、反射效果、阴影效果和透明效果。每个类别包含10个高质量的视频三元组(原始视频、编辑后视频和掩码视频),提供精确可控的评估环境。这就像在标准化的实验室环境中测试系统性能,能够准确衡量不同技术组件的贡献。

第二个是真实配对基准,采用基于DAVIS视频分割数据集的复制粘贴策略构建。研究团队将一个视频中的被掩码物体复制到另一个视频中,形成"插入物体"的版本作为输入,原始未修改的视频作为真值目标。这种方法能够创建真实且多样化的测试场景,同时保持地面真值监督的可用性。这个基准就像在半真实环境中的测试,既保持了一定的可控性,又增加了真实世界的复杂性。

第三个是真实无配对基准,直接使用来自DAVIS数据集的真实世界视频和掩码。由于缺乏地面真值,这个基准采用VBench评估框架中的相关指标,评估输出视频在运动平滑性、背景一致性和时间闪烁等方面的质量。这就像在完全真实的环境中进行测试,虽然无法获得精确的定量分数,但能够检验系统在实际应用中的表现。

评估指标方面,对于配对基准,系统使用PSNR、SSIM和LPIPS三个指标来捕获低层结构保真度和感知相似性。PSNR就像测量修复后画面的"清晰度",SSIM衡量结构相似性,而LPIPS则评估人眼感知的相似程度。对于无配对基准,系统采用专门针对视频质量的指标,包括运动平滑性(衡量视频播放是否流畅)、背景一致性(检查背景区域是否保持稳定)、时间闪烁(测量是否存在不自然的闪烁现象)、主体一致性(确保修复区域与整体风格匹配)和成像质量(整体视觉质量评估)。

七、实验结果:全面超越现有技术

通过在ROSE-Bench上的comprehensive测试,ROSE系统展现出了显著优于现有技术的性能表现。研究团队将ROSE与五个代表性的视频修复方法进行了比较,包括基于流的变换器方法(ProPainter、FuseFormer、FGT)和基于扩散的方法(DiffuEraser、FLoED)。

在合成配对基准的测试中,ROSE在所有六个类别中都取得了最佳性能。在普通情况下,ROSE的PSNR达到36.60,显著高于第二名DiffuEraser的30.93。更重要的是,在处理复杂副作用的场景中,ROSE的优势更加明显。在光源效果处理上,ROSE的PSNR为30.07,而其他方法普遍在22-23之间徘徊。在镜像效果处理中,ROSE达到28.35的PSNR,相比之下其他方法的表现都在22-23范围内。

这些数字背后反映的是ROSE在处理复杂物体-环境交互方面的技术优势。传统方法在面对阴影、反射、光源变化等复杂情况时,往往会留下明显的瑕疵或不自然的痕迹。而ROSE能够同时处理目标物体和其环境影响,生成更加自然逼真的结果。

在真实配对基准的测试中,ROSE同样保持了领先地位。虽然在PSNR指标上,ProPainter获得了32.81的最高分,略高于ROSE的31.34,但ROSE在SSIM(0.923)和LPIPS(0.092)指标上都取得了最佳表现。这表明ROSE生成的视频在结构相似性和感知质量方面更加优秀,更符合人眼的观感要求。

在真实无配对基准的评估中,ROSE在多个关键指标上都达到了最高水平。运动平滑性得分0.975(与ProPainter并列最高),背景一致性0.923(所有方法中最高),主体一致性0.908(最高)。这些结果表明ROSE不仅能够产生高质量的修复效果,还能保持视频的时间连贯性和整体一致性。

八、技术创新的关键因素分析

为了深入理解ROSE系统成功的关键因素,研究团队进行了detailed的消融实验。这些实验就像解剖一个复杂机器,逐一检验每个组件的贡献,确定哪些创新真正发挥了重要作用。

首先,研究团队验证了引用式擦除方法的重要性。基线系统采用传统的"掩码-修复"范式,即向模型输入被遮盖后的视频内容。当引入掩码区域引导(MRG)后,系统性能显著提升。在普通情况下,PSNR从32.58提升到35.24,在复杂的镜像效果场景中,PSNR从22.63跃升至28.45。这一显著改进证明了让系统看到完整原始视频的重要性——只有了解目标物体的完整信息,系统才能准确判断其对环境的影响。

掩码增强(MA)策略的效果则更加微妙但同样重要。在大多数场景中,掩码增强带来了适度但consistent的性能提升。虽然在某些场景中(如光源效果),掩码增强似乎带来了性能下降,但这反映了系统在适应不完美输入时的trade-off。在实际应用中,用户提供的掩码往往不够精确,掩码增强策略确保了系统在面对各种质量的输入时都能保持稳定的性能。

差异掩码预测器(DMP)的引入带来了最全面的性能提升。这个组件在所有测试场景中都产生了positive的影响,特别是在处理复杂副作用的场景中。在反射效果处理中,DMP将SSIM从0.843提升到0.872,在普通情况下将PSNR从35.37进一步提升到36.60。这表明显式地预测需要修复的区域能够帮助系统更准确地定位和处理物体-环境交互的影响。

更深入的分析表明,三个技术创新的结合产生了synergistic的效果。引用式擦除为系统提供了丰富的上下文信息,掩码增强增强了系统的泛化能力,而差异掩码预测器则提供了precise的修复指导。三者的结合使得ROSE能够在保持高质量修复效果的同时,准确处理各种复杂的环境交互效应。

实验还揭示了不同类型副作用的处理难度差异。普通情况和透明效果相对容易处理,因为它们主要涉及局部内容的补全。阴影效果和反射效果的难度中等,需要系统理解光照和表面反射的物理原理。而光源效果和镜像效果则最为复杂,需要系统具备全局光照计算和复杂空间推理能力。ROSE在所有这些场景中都取得了leading的性能,demonstrates了其技术架构的comprehensive性和有效性。

九、实际应用与未来展望

ROSE系统的技术breakthrough为视频编辑领域带来了新的可能性,其应用前景覆盖了从个人创意到专业制作的广阔领域。这就像一个万能的"橡皮擦"工具,不仅能够擦除不需要的内容,还能智能地修复环境,让整个画面看起来天衣无缝。

在个人用户层面,ROSE技术可以显著提升日常视频编辑体验。旅行视频中意外入镜的路人、家庭聚会中的多余物品、甚至是拍摄时无法避免的电线杆和垃圾桶,都可以被完美移除,同时保持场景的自然真实感。更重要的是,系统能够自动处理这些物体的阴影和反射,避免了手动编辑时常见的"鬼影"现象。

在professional content creation领域,ROSE的价值更加突出。电影制片人可以在后期制作中轻松移除拍摄现场的设备痕迹,而无需担心留下不自然的光照效果。房地产营销视频可以移除暂时的障碍物,展现property的最佳状态。教育视频制作者可以清理录制环境中的干扰元素,创造更加专业的视觉效果。

然而,正如研究团队在论文中坦承的,ROSE系统目前仍存在一些限制。在处理大幅度运动的视频时,系统可能产生轻微的闪烁artifact,这在VBench评估中有所体现。此外,推理时间会随着视频长度增加而延长,这可能影响长视频处理的效率。这些局限性为future research提供了明确的改进方向。

从技术发展角度看,ROSE开创的合成数据生成范式具有重要意义。通过3D渲染引擎生成高质量训练数据的方法,不仅解决了配对数据稀缺的问题,还为其他视频编辑任务提供了参考。这种方法的成功证明了synthetic data在训练复杂AI系统中的巨大潜力,特别是在需要精确physical modeling的任务中。

研究团队提出的五种副作用分类框架也为该领域建立了重要的theoretical foundation。这种系统性的分类不仅帮助researchers更好地理解video object removal的复杂性,也为future algorithm development提供了明确的技术roadmap。每种副作用类型都对应着特定的技术挑战和解决方案,为targeted improvements指明了方向。

ROSE-Bench评估基准的建立同样具有长远影响。这个comprehensive的评估框架填补了该领域标准化测试的空白,为future research提供了公平、全面的performance comparison platform。基准中包含的多层次测试策略——从controlled synthetic scenarios到real-world applications——确保了评估的全面性和实用性。

未来的研究方向可能包括real-time optimization,以实现更高效的长视频处理;更广泛的环境效应建模,涵盖更多复杂的物理交互;以及better generalization to diverse real-world scenarios。随着computational resources的不断增长和algorithm efficiency的持续改进,ROSE及其后续技术有望成为video editing workflows中的standard components。

说到底,ROSE代表了video object removal技术的一个重要里程碑。它不仅解决了传统方法在处理环境交互方面的技术局限,更重要的是建立了一个systematic framework来理解和处理这类复杂问题。这项研究的成功demonstrates了combining synthetic data generation、advanced deep learning architectures和comprehensive evaluation的powerful synergy,为整个computer vision领域提供了valuable insights和practical solutions。

对于普通用户而言,ROSE技术的成熟将意味着更加智能、易用的视频编辑工具。未来的视频编辑软件可能只需要用户简单地点击不需要的物体,系统就能自动完成包括环境修复在内的所有处理工作,让视频编辑变得像使用智能手机一样简单直观。这种技术的普及将democratize高质量视频制作,让更多人能够创造出professional-grade的视频content。

Q&A

Q1:ROSE技术和普通的视频编辑软件有什么区别?

A:普通视频编辑软件只能删除物体本身,但会留下阴影、反射等痕迹,就像从照片中抠掉一个人但地上还有影子一样。ROSE技术则能同时处理物体和它对环境的所有影响,包括阴影、倒影、光照变化等,让视频看起来就像那个物体从未存在过一样自然。

Q2:ROSE系统是如何获得训练数据的?为什么不用真实视频?

A:真实世界很难找到完全相同场景下"有物体"和"无物体"的视频对比。ROSE团队使用虚幻引擎等3D技术生成了16678对完美匹配的训练视频,涵盖450个不同场景。这就像拥有一个可以控制任何物体出现或消失的魔法摄影棚,能够生成物理规律完全正确的训练数据。

Q3:普通用户什么时候能使用到ROSE这样的技术?

A:目前ROSE还是研究阶段的技术,需要专业的计算设备运行。不过随着技术发展,类似功能可能会逐步集成到主流视频编辑软件中。研究团队已经在项目网站https://rose2025-inpaint.github.io/ 展示了技术效果,未来几年内可能会有商业化的简化版本出现。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-