这项令人瞩目的研究来自哈尔滨工业大学深圳校区、武汉大学人工智能学院以及南洋理工大学的联合研究团队,主要研究人员包括李鸿宇、陈朝峰、李晓明和陆光明。该研究于2025年9月发表在计算机视觉顶级会议上,感兴趣的读者可以通过GitHub项目页面https://github.com/hitlhy715/2DGS-inpaint获取完整的研究资料和代码。
当我们翻看老照片时,经常会遇到一些令人沮丧的情况:珍贵的家庭合影因为年代久远而出现破损,重要文档的关键部分被污渍遮挡,或者刚拍好的风景照却被路人不经意地遮住了最美的部分。传统的图片修复就像用颜料在画布上补色一样,需要艺术家凭借经验和技巧来填补缺失的部分,但这种方法往往难以保证修复后的图片既自然又连贯。
研究团队注意到,我们的眼睛感知世界是连续的、流畅的,但数字图片却是由一个个独立的像素点组成的。这就好比我们用拼图块来表现一幅完整的画面,每个像素就是一个拼图片。现有的图片修复技术就像是在缺失的拼图位置上硬生生地插入新的拼图块,虽然能填补空白,但往往会在边界处产生不自然的跳跃感。
为了解决这个根本性问题,研究团队提出了一种全新的思路:既然人眼感知的是连续的世界,为什么不让计算机也用连续的方式来理解和修复图片呢?他们借鉴了一种名为"高斯涂抹"的技术。这种技术原本用于3D场景的建模,就像用无数个柔和的光斑来描绘一个立体空间一样。研究团队巧妙地将这个概念应用到2D图片处理中,让计算机不再把图片看作是硬邦邦的像素格子,而是看作由无数个柔和、重叠的光斑组成的连续画面。
这种方法的巧妙之处在于,每个"光斑"都有自己的位置、大小、颜色和透明度,它们相互重叠、相互融合,形成最终的图像效果。当图片的某个部分缺失时,计算机可以通过调整附近光斑的参数,让它们自然地扩散和融合,从而无缝地填补空白区域。这就像水彩画中颜料的自然晕染一样,边界处不会有生硬的分割线,而是渐变过渡的。
然而,这种方法也带来了新的挑战。如果要用足够多的"光斑"来精确描述一张高清图片,计算量会变得非常庞大,就像要用数百万个小刷子同时作画一样。为了解决这个问题,研究团队想出了一个聪明的"分块处理"策略。他们将大图片切割成许多小块,就像把一幅大壁画分解成多个小画板,每个小画板可以独立处理,最后再巧妙地拼接在一起。
这种分块策略有点像团队协作做项目:每个人负责自己的部分,但大家需要确保整体协调一致。为了避免各个小块之间出现接缝,研究团队设计了一种"重叠融合"的方法。每个小块在处理时都会稍微扩大一些边界,与相邻区块有所重叠,然后在拼接时对重叠部分进行平滑过渡。这就像裁缝在缝制衣服时会留出缝边,确保整件衣服的线条流畅自然。
但是,仅仅有技术上的连续性还不够,修复出来的内容还必须在语义上说得通。比如,如果一张海滩照片的沙滩部分缺失了,修复系统不能胡乱填充成草地或者建筑物,而应该合理地补充沙滩纹理。这就需要系统具备"理解"图片内容的能力。
研究团队发现,有一种名为DINO的人工智能模型特别擅长理解图片的语义内容。DINO就像一个经验丰富的艺术鉴赏家,即使只看到画作的一部分,也能推断出整幅作品的主题和风格。研究团队进行了大量实验,发现当图片的缺失部分比较小时,DINO仍能准确理解图片的整体语义;但当缺失部分很大时,DINO的理解能力会有所下降。
为了增强DINO在大面积缺失情况下的理解能力,研究团队设计了一个"语义适应模块"。这个模块就像一个智能的翻译器,能够将不完整图片中的模糊语义信息转化为清晰、准确的语义指导。通过这种方式,即使面对大片缺失的图片,系统也能维持对整体语义的准确把握。
整个修复过程就像一个精心设计的流水线:首先,不完整的图片被输入到一个编码器中,这个编码器就像一个细心的观察员,仔细分析图片的每个细节,并将这些信息转化为一系列"光斑"参数。同时,DINO模型和语义适应模块协作,为修复过程提供语义指导,确保补充的内容在逻辑上合理。然后,这些"光斑"参数被送入到渲染器中,渲染器就像一个技艺精湛的画家,根据参数重新绘制出完整的图片。
在训练这个系统时,研究团队采用了多重标准来评估修复质量。除了要求修复后的图片在视觉上接近原图,还要求在感知质量上符合人眼的审美习惯,同时确保修复内容与原图在语义上保持一致。这就像培养一个全能的修复师,不仅要有精湛的技艺,还要有良好的艺术品味和深厚的文化理解。
研究团队在多个标准数据集上进行了广泛的测试,包括人脸图片数据库CelebA-HQ和自然场景数据库Places2。实验结果显示,他们的方法在处理各种类型的图片缺失时都表现出色。特别是在面部修复方面,系统能够很好地保持人物的身份特征和面部结构;在自然场景修复方面,系统能够重建复杂的纹理和空间布局。
为了验证各个组件的重要性,研究团队还进行了详细的对比实验。他们发现,如果去掉DINO语义指导,修复质量会明显下降,特别是在大面积缺失的情况下;如果用传统的卷积神经网络替代高斯涂抹渲染器,不仅修复质量下降,训练过程也变得不稳定;如果调整高斯"光斑"的数量,会直接影响修复的精细程度。
这项研究的意义远不止于技术突破本身。在实际应用方面,这种技术可以帮助人们修复珍贵的历史照片,恢复因意外损坏的重要文档,甚至可以用于电影制作中的特效处理。对于普通用户来说,这意味着我们可能很快就能在手机上使用更加智能和自然的图片编辑功能。
从技术发展的角度来看,这项研究开创了将3D建模技术应用于2D图像处理的先河,为图像处理领域提供了全新的思路。连续性建模的概念可能会启发更多类似的创新应用,推动整个计算机视觉领域的发展。
当然,这项研究也存在一些局限性。目前的方法主要针对自动修复,缺乏对用户个性化需求的精确控制。未来的研究方向可能会集中在增强系统的可控性,比如允许用户通过文本描述或者简单的草图来指导修复过程,使系统能够更好地满足不同用户的特定需求。
说到底,这项研究最令人兴奋的地方在于它改变了我们对图像处理的基本认知。从离散的像素拼接转向连续的光斑融合,不仅在技术上实现了突破,更重要的是为未来的图像处理技术指明了新的发展方向。当技术能够更贴近人类的视觉感知方式时,我们与数字世界的交互也会变得更加自然和直观。研究团队已经将相关代码开源,感兴趣的开发者可以通过GitHub项目页面获取详细资料,为这一技术的进一步发展贡献力量。
Q&A
Q1:2D高斯涂抹技术与传统图片修复方法有什么不同?
A:传统方法像用颜料块拼接,容易在边界产生不自然的痕迹。而2D高斯涂抹技术把图片看作由无数个柔和光斑组成,通过光斑的重叠融合来修复缺失部分,就像水彩画的自然晕染效果,修复后的图片更加连续自然。
Q2:这种技术能处理多大面积的图片缺失?
A:研究显示该技术可以处理20%-60%面积的图片缺失。对于小面积缺失(20%-40%),修复效果非常好;对于大面积缺失(40%-60%),通过DINO语义指导和适应模块,仍能保持较好的修复质量和语义一致性。
Q3:普通用户什么时候能用到这项技术?
A:目前研究团队已经将代码在GitHub开源,技术开发者可以立即使用。对于普通用户,这项技术可能很快会集成到手机照片编辑应用或在线图片处理工具中,让大家能够轻松修复老照片或去除照片中的不需要元素。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。