微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Ant Group团队打造实时视频生成新突破:23.1帧的流畅画面如何炼成

Ant Group团队打造实时视频生成新突破:23.1帧的流畅画面如何炼成

2025-12-10 19:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-10 19:33 科技行者

这项由浙江大学、Ant Group、华中科技大学和上海交通大学联合团队完成的研究发表于2024年12月,研究团队包括卢云宏、曾彦宏、李浩博、欧阳浩等多位学者。感兴趣的读者可以通过论文编号arXiv:2512.04678v1查询完整论文。

想象一下,你正在观看一部电影,突然间画面开始卡顿,动作变得僵硬,就像老式录像带播放时出现的问题。这正是当前AI视频生成技术面临的困境。虽然现在的AI已经能够制作出非常逼真的短视频,但一旦要求它们生成较长的视频,就会出现各种问题:画面可能会突然回到最初的状态,就像时光倒流一样;或者整个视频变得毫无生气,像一幅静止的画作。

这个问题的根源在于当前的视频生成技术就像一个健忘的画家。当它开始创作一幅长画卷时,为了记住开头的内容,会不断回头查看最初画的部分,结果越看越依赖,最后整幅画都变成了第一笔的复制品。同时,由于计算资源的限制,这个画家只能专注于画面的静态美感,而忽略了动作的流畅性和自然性。

正是为了解决这些问题,研究团队开发了一套名为"Reward Forcing"的全新技术框架。这个框架的核心理念可以比作培训一位既有记忆力又有创造力的超级画家。与传统方法不同,这位"画家"不会过度依赖初始画面,而是能够平衡地记住整个创作过程,同时优先关注那些动感十足、生动有趣的内容。

研究团队的创新突破体现在两个关键技术的巧妙结合。首先是EMA-Sink技术,它就像给AI装上了一个智能记忆系统。传统的AI在处理长视频时,会把最开始的几帧画面当作"锚点"一直保存着,这就导致了后续内容总是受到开头画面的强烈影响。而EMA-Sink技术则采用了一种更加聪明的策略:它会将过去的信息进行"融合记忆",就像人类记忆一样,既保留了重要的历史信息,又不会让某个特定时刻的画面占据主导地位。

具体来说,当AI处理视频的每一帧时,EMA-Sink技术会将即将被"遗忘"的旧帧信息通过指数移动平均的方式融入到记忆库中。这种做法类似于烹饪中的"老汤"概念:每次做汤时,都会保留一部分之前的汤底,然后加入新的食材,这样既保持了整体的风味连贯性,又能融入新鲜元素。通过这种方式,AI既能记住视频的整体脉络,又不会被某个特定画面所束缚。

第二个核心技术是Re-DMD(奖励分布匹配蒸馏),这可以理解为给AI装上了一个"动感雷达"。传统的训练方法就像一个不会区分好坏的老师,对所有学生的作品都一视同仁地评分。而Re-DMD技术则像一个经验丰富的导演,它能够识别哪些画面更有动感、更吸引人,然后告诉AI要重点学习这些精彩的部分。

这个"动感雷达"的工作原理是使用一个专门的视觉语言模型来评估每个视频片段的运动质量。当AI生成的画面充满活力和自然动作时,这个评估系统会给出高分;当画面显得呆板或不自然时,分数就会较低。然后,训练系统会根据这些分数来调整AI的学习重点,让它更多地关注那些高质量、高动感的内容。这就像教一个学生画画时,老师会特别强调那些画得生动有趣的部分,让学生重点学习这些技巧。

在技术实现层面,整个系统的工作流程可以比作一个高效的电影制作流水线。当用户输入一个文本描述后,系统首先会生成一些基础的噪声信息,然后通过多个步骤逐渐细化成清晰的视频内容。在这个过程中,EMA-Sink技术负责维持视频的整体连贯性,确保前后画面的逻辑关系;而Re-DMD技术则负责增强画面的动感效果,确保生成的视频不会显得呆板。

为了验证这套技术的实际效果,研究团队进行了大量的测试和比较。他们使用了多个标准的视频生成测试集,包括VBench等权威评估平台。测试结果显示,使用Reward Forcing技术生成的视频在多个关键指标上都超越了现有的最先进方法。

在速度方面,这套系统能够达到每秒23.1帧的实时生成速度,这意味着它可以实时创建流畅的视频内容。相比之下,许多现有的高质量视频生成系统往往需要几分钟甚至几小时才能生成几秒钟的视频。这种速度的提升对于实际应用来说意义重大,它使得实时视频创作、即时视频会议背景生成、游戏场景实时渲染等应用成为可能。

在质量方面,该系统生成的视频在动态表现上有了显著改善。测试中发现,传统方法生成的长视频往往会出现"回到初始帧"的问题,画面会突然跳回到开头的状态,就像DVD播放时出现的跳帧现象。而使用Reward Forcing技术生成的视频则能够保持连续流畅的动作发展,避免了这种不自然的跳跃。

更令人印象深刻的是,这套系统在处理复杂动态场景时表现出色。比如生成一个人在海滩上跑步的视频时,传统方法可能会让人物在某个时刻突然"定格",或者让整个背景变得静止不动。而Reward Forcing技术则能够维持人物动作的自然性,同时保证海浪、云朵等背景元素的持续运动,创造出更加真实可信的视觉效果。

研究团队还测试了系统的交互性能力。他们发现,这套技术支持在视频生成过程中动态改变文本提示,就像在拍摄过程中临时修改剧本一样。例如,可以在生成视频的前半段使用"一只猫在阳光下睡觉"的提示,然后在中途切换到"猫咪突然听到声音醒来",系统能够自然地衔接这两个不同的场景,创造出连贯的故事情节。

在具体的技术细节上,EMA-Sink机制的工作方式可以更详细地解释为一种智能的信息压缩和存储系统。当系统处理视频序列时,它会维护一个固定大小的"记忆缓存"。随着新帧的加入,最老的帧会被移除,但在移除之前,这些帧的信息会通过数学运算融入到整体记忆中。这个融合过程使用了指数移动平均算法,确保近期的信息权重更大,而历史信息则以递减的方式保留。

EMA-Sink技术的一个重要参数是衰减因子α,研究团队经过大量实验发现,当α设置为0.99时效果最佳。这意味着系统会保留99%的历史记忆,同时融入1%的新信息。这种比例确保了记忆系统既稳定又灵活,既不会完全忘记过去,也不会完全拒绝变化。

Re-DMD技术的实现则更像是一个智能的教练系统。在训练过程中,系统会为每个生成的视频片段计算一个"动感分数",这个分数综合考虑了多个因素:物体运动的自然性、场景变化的流畅性、以及整体视觉效果的吸引力。分数计算使用了先进的视觉语言模型VideoAlign,这个模型经过大量真实视频的训练,能够准确识别什么样的运动看起来更自然、更吸引人。

当系统获得这些动感分数后,它会调整训练策略,让AI模型更多地学习那些高分的视频片段。这个过程类似于一个学生在准备考试时,会重点复习那些最重要、最有可能考到的知识点。通过这种有针对性的学习,AI模型逐渐掌握了生成高质量动态内容的技巧。

为了确保系统的实用性,研究团队还关注了计算效率的优化。他们发现,通过合理的注意力窗口设置,可以在保证视频质量的同时大幅提升生成速度。注意力窗口大小的选择就像摄影师选择镜头焦距一样:窗口太小会失去上下文信息,导致视频不连贯;窗口太大则会消耗过多计算资源,影响生成速度。经过反复测试,团队找到了最佳的平衡点。

在实际应用方面,这套技术的潜力非常广泛。在教育领域,教师可以实时生成个性化的教学视频,根据学生的理解情况动态调整内容。在娱乐行业,内容创作者可以快速制作原型视频,大大缩短创意到成品的时间周期。在商业应用中,企业可以实时生成产品演示视频,根据客户需求即时定制内容。

研究团队还进行了用户体验研究,邀请20位参与者对不同技术生成的视频进行评价。评价维度包括时间连贯性、动态复杂性和整体偏好。结果显示,使用Reward Forcing技术生成的视频在所有维度上都获得了最高评分,平均分数接近"良好"水平(满分4分中的3.6-3.7分),远超其他现有技术。

参与者特别指出,传统技术生成的长视频经常出现"画面突然回到开头"的现象,就像播放器出现故障一样。而Reward Forcing技术生成的视频则能保持自然的时间流动,画面发展符合逻辑预期。在动态表现方面,参与者认为新技术生成的视频"更有生命力",物体运动看起来更加自然真实。

值得注意的是,这项技术还具有良好的扩展性。研究团队表示,Reward Forcing框架是通用的,可以轻松集成到现有的视频生成系统中,无需对底层架构进行大规模修改。这意味着其他研究团队和公司可以相对容易地采用这项技术来改进他们自己的视频生成产品。

在技术挑战方面,研究团队也坦诚地讨论了当前系统的一些限制。首先是奖励函数与评估标准之间可能存在的偏差问题。由于用于评估动感质量的模型本身也有局限性,有时候可能会对某些特定类型的动作给出不够准确的评分。其次是视频奖励模型仍需要进一步改进,特别是在处理长距离时间依赖关系和复杂语义属性方面。

为了解决这些挑战,研究团队建议未来的工作方向可以包括开发更加精准的多目标奖励模型,建立能够在不同时间尺度上评估质量的分层模型,以及引入人类反馈机制来不断改进奖励系统的准确性。他们还提出了领域自适应奖励模型的概念,使系统能够根据不同类型的视频内容调整评估标准。

在社会影响方面,这项技术既带来了机遇也伴随着挑战。积极方面,更高效的视频生成技术可以降低内容创作的门槛,让更多人能够参与视频制作,促进创意表达的民主化。同时,较低的计算需求也意味着更少的能源消耗,有助于绿色AI的发展。

但是,研究团队也意识到技术可能被误用的风险。更便捷的视频生成能力可能会被用来制作虚假信息或深度伪造内容,对社会造成负面影响。因此,他们强调需要建立相应的技术标准和伦理准则,包括在生成内容中加入数字水印、开发检测合成视频的工具、建立清晰的内容标识规范等。

研究团队还呼吁建立跨学科的合作机制,让技术研究者、政策制定者和社会团体共同参与,制定负责任的AI发展指导原则。他们建议在技术部署时采用透明的数据实践、多元化的评估标准,以及持续的社会影响监测机制。

总的来说,这项研究代表了视频生成技术的一个重要里程碑。通过巧妙地结合智能记忆管理和动感质量优化,Reward Forcing技术成功解决了困扰该领域多年的核心问题。23.1帧每秒的实时生成速度,配合显著改善的视频质量,为实用化的AI视频生成应用打开了新的可能性。

从技术创新的角度看,EMA-Sink和Re-DMD这两项核心技术的结合展示了如何通过深入理解问题本质来设计有效的解决方案。EMA-Sink解决的是记忆管理问题,而Re-DMD解决的是质量优化问题,两者相辅相成,共同推动了整体性能的飞跃。

从实际应用的角度看,这项技术的成熟将可能改变多个行业的内容创作方式。无论是教育、娱乐、营销还是新闻媒体,实时高质量的视频生成能力都将为创新应用提供强有力的技术基础。随着技术的不断完善和成本的进一步降低,我们很可能会看到更多创新性的应用场景涌现。

当然,技术进步也提醒我们需要更加深入地思考AI与社会的关系。如何在享受技术便利的同时确保其被负责任地使用,如何在促进创新的同时保护公众利益,这些都是需要全社会共同面对的重要课题。研究团队在论文中体现出的技术创新精神和社会责任意识,为未来的AI研究发展提供了良好的示范。

Q&A

Q1:Reward Forcing技术是如何解决视频生成中的"画面回跳"问题的?

A:Reward Forcing技术通过EMA-Sink机制解决了这个问题。传统方法会把最开始的几帧画面当作"锚点"一直保存,导致后续内容受到开头画面的强烈影响。而EMA-Sink技术采用智能记忆系统,将过去的信息通过指数移动平均方式融合,就像烹饪中的"老汤"概念,既保持整体连贯性又融入新元素,避免了画面突然跳回开头的不自然现象。

Q2:23.1帧每秒的生成速度在实际应用中意味着什么?

A:这个速度实现了真正的实时视频生成,相比现有技术需要几分钟甚至几小时才能生成几秒视频,这是巨大的突破。它使得实时视频创作、即时视频会议背景生成、游戏场景实时渲染等应用成为可能。用户可以像使用摄像头一样即时获得AI生成的高质量视频内容,大大提高了实用性。

Q3:Re-DMD技术是如何让AI学会生成更有动感的视频的?

A:Re-DMD技术就像给AI装上了"动感雷达",使用专门的视觉语言模型VideoAlign来评估每个视频片段的运动质量。当画面充满活力和自然动作时获得高分,呆板不自然时得分较低。然后训练系统根据这些分数调整学习重点,让AI更多关注高质量、高动感的内容,就像老师会特别强调学生画得生动有趣的部分一样。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-