微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Safe-Sora：为AI视频生成模型加上"身份证"，清华大学研究团队开创图像水印新方法

视频生成水印技术版权保护

Safe-Sora：为AI视频生成模型加上"身份证"，清华大学研究团队开创图像水印新方法

作者：科技行者

2025-06-02 12:18

分享至：

清华大学研究团队开发了一种名为Safe-Sora的创新技术，首次实现在AI视频生成过程中嵌入图形水印。该方法通过分层自适应匹配机制，智能地将水印图像分割成小块并分配到视频中最适合的位置，同时利用3D小波变换增强的Mamba架构处理视频时空特性。实验表明，与现有方法相比，Safe-Sora在保持视频质量、水印保真度和抵抗各种处理操作方面均取得了显著优势，为AI生成内容的版权保护提供了有效解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-02 12:18 • 科技行者

在数字内容创作领域，生成式AI技术的飞速发展让视频创作变得前所未有的简单。只需输入一段文字描述，先进的AI模型就能生成栩栩如生的视频内容。然而，随着这类技术的普及，一个关键问题也随之浮现：如何保护这些AI生成内容的版权？如何证明某段视频确实由特定的AI服务生成，而非被他人盗用？

这正是由清华大学苏子涵、蒋唐瑜、庄俊豪等研究人员，联合中国科学院自动化研究所的邱学睿、华南理工大学的徐宏斌、深圳人工智能与数字经济实验室（广东）的李明和余飞理查德，以及新加坡管理大学的何胜丰教授共同推出的"Safe-Sora"研究所要解决的问题。这项研究成果于2025年5月发表在arXiv预印本平台（arXiv:2505.12667v1），标题为《Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking》。

想象一下，如果你是一家科技公司，开发了一个强大的视频生成AI模型。你希望用户能使用你的技术创作精彩内容，但同时也担心，如何证明这些视频确实出自你的技术？更重要的是，如果有人盗用这些内容，你如何证明所有权？

传统的解决方案是在内容中嵌入水印——一种肉眼难以察觉但可以通过特定技术提取的标记。在图像生成领域，这种技术已经相当成熟。但在视频生成领域，水印技术仍处于起步阶段。现有的视频水印方法大多只能嵌入简单的二进制码（类似于0和1组成的编码），而非更直观、更容易识别的图形标识（如公司logo）。

这就是Safe-Sora的创新之处。这个框架首次实现了在AI视频生成过程中直接嵌入图形水印，就像给生成的视频加上了一个独特的、难以伪造的"身份证"。

研究团队的灵感来源于一个有趣的发现：当水印图像与承载它的内容在视觉上相似时，水印的效果会显著提升。简单来说，如果你想在一张猫的图片中嵌入水印，使用与猫相关的图形会比使用完全不相关的图形（如一个抽象的标志）效果更好。

基于这一发现，Safe-Sora采用了一种分层的"粗到细"自适应匹配机制。首先，它将水印图像（比如公司logo）分割成小块，然后通过智能算法将每个小块分配到视频中最适合它的帧和位置。这就像是在视频中寻找最适合藏匿水印各部分的"安全屋"，确保水印既不会破坏视频质量，又能在需要时被准确提取。

为了更好地处理视频的时空特性，研究团队还开发了一种基于3D小波变换的Mamba架构（一种先进的人工智能模型），配合独特的空时局部扫描策略。这听起来可能有点复杂，但可以这样理解：传统的水印技术就像是在一张照片上加标记，而Safe-Sora的方法则考虑了视频的流动性，就像是在一条河流中释放特殊的、只有特定设备才能检测到的荧光染料，即使河水流动，这些染料的模式依然可以被识别。

研究团队使用了广泛应用的Panda-70M数据集作为视频源，这个数据集包含7000万个高质量视频片段，涵盖各种类别。而水印则来自Logo-2K+数据集，这是一个包含各种真实世界logo的大型集合。

在实验中，Safe-Sora的表现令人印象深刻。与现有方法相比，它不仅保持了极高的视频质量，水印的保真度也非常出色，而且对各种常见的视频处理操作（如压缩、裁剪、旋转等）具有很强的抵抗力。特别是在衡量视频时间一致性的Fréchet视频距离（FVD）指标上，Safe-Sora的得分为3.77，远低于第二好的方法154.35，这表明其处理视频连贯性的能力远超其他方法。

Safe-Sora的工作原理可以分为三个主要步骤：

首先是粗到细的自适应补丁匹配。这个过程就像是一个精明的珠宝商，要将一块宝石（水印）镶嵌到一条项链（视频）中，他会仔细研究项链的每个部分，找出最适合宝石各个部分的位置。系统将水印图像分割成小块，然后通过计算每个小块与视频各帧之间的视觉相似度，决定将它们放在哪里。这种策略确保了水印能够巧妙地融入视频内容，既不影响视频质量，又能保持水印信息的完整性。

第二步是水印嵌入。这一步利用了一种特殊的神经网络结构，称为"2D空间-频率Mamba块"，将水印信息与视频特征进行融合。想象一下，这就像是在纺织一块精美的布料，水印的线和视频的线交织在一起，肉眼看起来是一整块布，但在特定光线下，水印的图案就会显现出来。

最后是水印提取。当需要验证视频版权时，系统使用另一个专门的网络，通过特定的算法从视频中提取出原始水印图像。即使视频经过了压缩、裁剪或其他处理，这种方法仍能成功提取出清晰的水印，证明视频的出处。

Safe-Sora的实验结果令人信服。在视频质量评估上，它的PSNR（峰值信噪比）达到42.50，远高于其他方法；在水印质量方面，它的PSNR为37.71，同样遥遥领先。更重要的是，在面对各种常见的视频处理操作时，如随机擦除、高斯模糊、高斯噪声、旋转和H.264压缩，Safe-Sora都展现出了极强的鲁棒性，即使在高压缩率下也能成功提取水印。

这项研究的意义不仅限于学术领域。随着AI生成内容越来越普及，版权保护变得日益重要。Safe-Sora提供了一种可靠的方法，使创作者和平台能够保护自己的知识产权，同时也为用户提供了一种验证内容来源的手段。比如，如果你看到一段声称是某AI平台生成的视频，你可以使用相应的水印提取工具来验证它是否真的来自该平台。

虽然Safe-Sora展现出了令人印象深刻的性能，但研究团队也承认，目前该方法主要适用于静态图形水印，如logo或图标。在未来的工作中，他们计划探索更复杂的水印形式，如动画序列或动态模式，以进一步提升水印的安全性和适应性。

总的来说，Safe-Sora代表了视频生成水印技术的一个重要突破，为AI生成内容的版权保护提供了一种新的、有效的解决方案。随着生成式AI技术的不断发展，这类保护机制将变得越来越重要，而Safe-Sora无疑为这一领域指明了前进的方向。

研究团队表示，他们将在论文正式发表后公开相关代码，供学术界和产业界进一步探索和应用。对于那些对AI生成内容版权保护感兴趣的研究人员和开发者来说，这将是一个宝贵的资源。

视频生成水印技术版权保护

分享至