微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Safe-Sora:为AI视频生成模型加上"身份证",清华大学研究团队开创图像水印新方法

Safe-Sora:为AI视频生成模型加上"身份证",清华大学研究团队开创图像水印新方法

2025-06-02 12:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-02 12:18 科技行者

在数字内容创作领域,生成式AI技术的飞速发展让视频创作变得前所未有的简单。只需输入一段文字描述,先进的AI模型就能生成栩栩如生的视频内容。然而,随着这类技术的普及,一个关键问题也随之浮现:如何保护这些AI生成内容的版权?如何证明某段视频确实由特定的AI服务生成,而非被他人盗用?

这正是由清华大学苏子涵、蒋唐瑜、庄俊豪等研究人员,联合中国科学院自动化研究所的邱学睿、华南理工大学的徐宏斌、深圳人工智能与数字经济实验室(广东)的李明和余飞理查德,以及新加坡管理大学的何胜丰教授共同推出的"Safe-Sora"研究所要解决的问题。这项研究成果于2025年5月发表在arXiv预印本平台(arXiv:2505.12667v1),标题为《Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking》。

想象一下,如果你是一家科技公司,开发了一个强大的视频生成AI模型。你希望用户能使用你的技术创作精彩内容,但同时也担心,如何证明这些视频确实出自你的技术?更重要的是,如果有人盗用这些内容,你如何证明所有权?

传统的解决方案是在内容中嵌入水印——一种肉眼难以察觉但可以通过特定技术提取的标记。在图像生成领域,这种技术已经相当成熟。但在视频生成领域,水印技术仍处于起步阶段。现有的视频水印方法大多只能嵌入简单的二进制码(类似于0和1组成的编码),而非更直观、更容易识别的图形标识(如公司logo)。

这就是Safe-Sora的创新之处。这个框架首次实现了在AI视频生成过程中直接嵌入图形水印,就像给生成的视频加上了一个独特的、难以伪造的"身份证"。

研究团队的灵感来源于一个有趣的发现:当水印图像与承载它的内容在视觉上相似时,水印的效果会显著提升。简单来说,如果你想在一张猫的图片中嵌入水印,使用与猫相关的图形会比使用完全不相关的图形(如一个抽象的标志)效果更好。

基于这一发现,Safe-Sora采用了一种分层的"粗到细"自适应匹配机制。首先,它将水印图像(比如公司logo)分割成小块,然后通过智能算法将每个小块分配到视频中最适合它的帧和位置。这就像是在视频中寻找最适合藏匿水印各部分的"安全屋",确保水印既不会破坏视频质量,又能在需要时被准确提取。

为了更好地处理视频的时空特性,研究团队还开发了一种基于3D小波变换的Mamba架构(一种先进的人工智能模型),配合独特的空时局部扫描策略。这听起来可能有点复杂,但可以这样理解:传统的水印技术就像是在一张照片上加标记,而Safe-Sora的方法则考虑了视频的流动性,就像是在一条河流中释放特殊的、只有特定设备才能检测到的荧光染料,即使河水流动,这些染料的模式依然可以被识别。

研究团队使用了广泛应用的Panda-70M数据集作为视频源,这个数据集包含7000万个高质量视频片段,涵盖各种类别。而水印则来自Logo-2K+数据集,这是一个包含各种真实世界logo的大型集合。

在实验中,Safe-Sora的表现令人印象深刻。与现有方法相比,它不仅保持了极高的视频质量,水印的保真度也非常出色,而且对各种常见的视频处理操作(如压缩、裁剪、旋转等)具有很强的抵抗力。特别是在衡量视频时间一致性的Fréchet视频距离(FVD)指标上,Safe-Sora的得分为3.77,远低于第二好的方法154.35,这表明其处理视频连贯性的能力远超其他方法。

Safe-Sora的工作原理可以分为三个主要步骤:

首先是粗到细的自适应补丁匹配。这个过程就像是一个精明的珠宝商,要将一块宝石(水印)镶嵌到一条项链(视频)中,他会仔细研究项链的每个部分,找出最适合宝石各个部分的位置。系统将水印图像分割成小块,然后通过计算每个小块与视频各帧之间的视觉相似度,决定将它们放在哪里。这种策略确保了水印能够巧妙地融入视频内容,既不影响视频质量,又能保持水印信息的完整性。

第二步是水印嵌入。这一步利用了一种特殊的神经网络结构,称为"2D空间-频率Mamba块",将水印信息与视频特征进行融合。想象一下,这就像是在纺织一块精美的布料,水印的线和视频的线交织在一起,肉眼看起来是一整块布,但在特定光线下,水印的图案就会显现出来。

最后是水印提取。当需要验证视频版权时,系统使用另一个专门的网络,通过特定的算法从视频中提取出原始水印图像。即使视频经过了压缩、裁剪或其他处理,这种方法仍能成功提取出清晰的水印,证明视频的出处。

Safe-Sora的实验结果令人信服。在视频质量评估上,它的PSNR(峰值信噪比)达到42.50,远高于其他方法;在水印质量方面,它的PSNR为37.71,同样遥遥领先。更重要的是,在面对各种常见的视频处理操作时,如随机擦除、高斯模糊、高斯噪声、旋转和H.264压缩,Safe-Sora都展现出了极强的鲁棒性,即使在高压缩率下也能成功提取水印。

这项研究的意义不仅限于学术领域。随着AI生成内容越来越普及,版权保护变得日益重要。Safe-Sora提供了一种可靠的方法,使创作者和平台能够保护自己的知识产权,同时也为用户提供了一种验证内容来源的手段。比如,如果你看到一段声称是某AI平台生成的视频,你可以使用相应的水印提取工具来验证它是否真的来自该平台。

虽然Safe-Sora展现出了令人印象深刻的性能,但研究团队也承认,目前该方法主要适用于静态图形水印,如logo或图标。在未来的工作中,他们计划探索更复杂的水印形式,如动画序列或动态模式,以进一步提升水印的安全性和适应性。

总的来说,Safe-Sora代表了视频生成水印技术的一个重要突破,为AI生成内容的版权保护提供了一种新的、有效的解决方案。随着生成式AI技术的不断发展,这类保护机制将变得越来越重要,而Safe-Sora无疑为这一领域指明了前进的方向。

研究团队表示,他们将在论文正式发表后公开相关代码,供学术界和产业界进一步探索和应用。对于那些对AI生成内容版权保护感兴趣的研究人员和开发者来说,这将是一个宝贵的资源。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-