微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 快手团队发布Kling-Avatar:让AI真正"读懂"你的想法,生成超逼真长时长数字人视频

快手团队发布Kling-Avatar:让AI真正"读懂"你的想法,生成超逼真长时长数字人视频

2025-09-12 16:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-12 16:49 科技行者

在人工智能视频生成领域,一个令人兴奋的突破刚刚诞生。来自快手科技Kling团队的研究人员在2025年9月发布了一项名为Kling-Avatar的革命性技术,这项研究成果已发表在arXiv预印本平台上(论文编号:arXiv:2509.09595v1)。对这项技术感兴趣的读者可以访问项目主页https://klingavatar.github.io/观看演示视频,或通过arXiv平台获取完整论文。

这项研究解决了一个我们在日常生活中经常遇到但可能没有深入思考的问题:如何让人工智能真正理解我们的多种表达方式,并创造出既逼真又富有情感的数字人视频。过去,当我们想要创建一个会说话的数字人时,就像试图指挥一个只会机械模仿的演员——它可能会准确地跟随音频移动嘴唇,但却无法理解语言背后的情感和意图。如果你给它一段悲伤的歌曲,它可能依然面带微笑地演唱,这种脱节感让数字人显得毫无生气。

Kling-Avatar的出现彻底改变了这种状况。它就像一位既能读懂剧本又能理解导演意图的优秀演员,不仅能准确地同步唇形,还能理解音频中的情感、文字提示中的指令,甚至参考图片中的风格要求,最终呈现出一个完整、连贯且富有表现力的表演。更令人惊喜的是,它还能持续生成长达数分钟的高质量视频,解决了以往数字人技术只能产生短片段的局限性。

这项技术的核心创新在于引入了一个"多模态大语言模型导演"的概念。如果把传统的数字人生成比作一个只会照搬动作的机器人,那么Kling-Avatar就像拥有了一个智慧的大脑,这个大脑能够综合理解来自不同渠道的信息——无论是听到的声音、看到的图片,还是读到的文字指令,然后统筹规划出一个完整的表演方案。

快手团队采用了一种全新的两阶段生成策略,这种方法就像电影制作过程一样智能化。在第一阶段,多模态大语言模型导演会先理解所有输入信息,制定一个详细的"剧本",这个剧本不仅包含角色应该如何移动,还包含情感表达、摄像机运动、场景布局等高层次的语义规划。基于这个全局规划,系统生成一个蓝图视频,就像电影的分镜头脚本一样。

第二阶段则像是精细化的后期制作过程。系统会从蓝图视频中提取关键帧作为锚点,然后并行生成多个子片段。这种并行处理的方式不仅大大提升了生成效率,还确保了长时间视频的一致性和稳定性。通过这种级联式的框架,Kling-Avatar能够生成任意长度的高质量数字人视频,为数字人直播、在线教育、视频博客等应用场景提供了强有力的技术支撑。

一、多模态指令理解:让AI成为真正的"读心者"

传统的数字人生成技术就像一个只会按部就班工作的工匠,它们通常采用各自独立的方式处理不同类型的输入信息。比如,在处理音频时,系统主要关注声学特征;处理图像时,则专注于像素结构;处理文字时,又只看字面意思。这种各自为政的处理方式就像几个互不沟通的部门在协作一个项目,最终结果往往缺乏协调性。

举个具体例子,当你输入一段愤怒的语音,同时要求系统生成一个平静的表情时,传统系统往往会产生冲突——要么表情愤怒但违背了文字指令,要么表情平静但与语音情感不符。这种语义冲突就像一个演员在表演时一边愤怒地说话,一边却露出甜美的笑容,让观众感到困惑和不自然。

Kling-Avatar通过引入多模态大语言模型(MLLM)导演彻底解决了这个问题。这个MLLM导演就像一位经验丰富的电影导演,能够同时理解和整合来自多个渠道的信息。它使用专门的模型从音频中提取转录内容和情感信息,从图像中生成详细描述,然后将这些信息与用户的文字提示相结合,形成一个统一的理解框架。

这个过程的巧妙之处在于,MLLM导演会按照用户知识、音频内容和图像参考的优先级来协调不同信息源之间的关系。当出现潜在冲突时,它会像一个睿智的调解者一样,找到最合适的平衡点。比如,当音频表达悲伤但文字要求展现坚强时,系统会生成一种"强忍悲伤却试图坚强"的复合表情,这种细腻的情感表达正是人类演员的高超之处。

更重要的是,这个导演系统会输出一个结构化的故事线,详细规划角色特征、背景布局、动作序列、视觉风格、摄像机运动和情感变化。这个故事线就像电影的详细拍摄计划,为后续的视频生成提供了清晰的指导方针。通过这种高层次的语义规划,生成的数字人不仅在技术上准确,更在情感表达上自然真实。

二、级联生成框架:化繁为简的智慧策略

面对长时长视频生成这个技术难题,Kling-Avatar采用了一种类似于建筑工程的分层施工策略。如果把视频生成比作建造一座复杂的大厦,传统方法就像试图一次性完成整个建筑,这往往导致结构不稳定、细节粗糙、前后不一致等问题。而Kling-Avatar的级联框架则像经验丰富的建筑师,先设计整体蓝图,再分区域精细施工。

在第一阶段,系统根据MLLM导演制定的全局故事线生成一个蓝图视频。这个蓝图视频就像建筑的总体框架,确立了整个视频的基本结构、风格基调和发展脉络。虽然这个蓝图在细节上可能还不够精致,但它为整个项目提供了坚实的基础和清晰的方向。

第二阶段的工作则像是精装修过程。系统会智能地从蓝图视频中选择关键帧作为锚点,这些锚点的选择标准非常严格:必须保持身份一致性、展现显著动作、避免遮挡问题,同时传达丰富的面部表情细节。这些精心挑选的锚点就像建筑中的承重柱,为整个结构提供稳定的支撑。

基于这些锚点,系统采用首末帧条件生成策略,并行生成多个子片段。这种并行处理方式的优势是显而易见的:不仅大大缩短了生成时间,还避免了顺序生成过程中可能出现的误差累积问题。就像多个装修队同时在不同楼层工作,既提高了效率,又确保了质量标准的一致性。

为了解决锚点帧与实际语音时间可能出现的不匹配问题,系统还引入了音频条件插值策略。这个策略就像一个精确的时间同步器,确保生成的过渡帧与输入音频完美对齐,实现无缝衔接。通过这种精密的时间校准,观众看到的每一帧都与听到的声音完美同步,营造出极其自然的观看体验。

这种级联框架的可扩展性也非常强。通过增加锚点数量,系统可以生成任意长度的视频,而且运行时间几乎不会显著增加。这为数字人播客、公开演讲、在线教育等需要长时间连续表演的应用场景提供了理想的解决方案。

三、数据准备:精益求精的质量控制体系

在人工智能训练中,有一句广为流传的格言:"垃圾进,垃圾出。"Kling-Avatar项目深刻理解这个道理,因此在数据准备方面采用了一套极其严格的质量控制体系。这套体系就像一个多道工序的精密筛选机,确保最终用于训练的数据都是精雕细琢的上乘之作。

研究团队首先收集了数千小时的音视频内容,涵盖公开数据集和自主收集的视频,包括电影片段、演讲、独白、访谈和歌唱表演等多样化场景。这种广泛的素材收集就像为一位全能演员准备各种角色的训练材料,确保系统能够应对不同的语言风格和角色动态。

然后,团队设计了一套由专家模型组成的多维度数据过滤系统。第一道关卡是唇部清晰度筛选,系统会通过合成方式在高质量说话视频中人为扰动嘴部区域,创建正负样本对,然后训练一个二元判别器来识别和过滤掉嘴部运动模糊或视觉模糊的视频。这个过程就像训练一个专业的口型识别专家,能够精准判断哪些素材适合用来学习准确的唇形同步。

第二道关卡是时间连续性检测。研究团队手动拼接不同视频片段构建负样本,与原始连续片段作为正样本配对,训练时间连贯性判别器。配合PySceneDetect工具,这个系统能够识别并移除不连续的片段。这就像为视频内容配备了一个经验丰富的剪辑师,能够发现任何不自然的跳跃或断裂。

第三道关卡是音视频同步评估。团队采用SyncNet技术评估帧级别的音视频同步置信度分数,丢弃那些低于校准阈值的视频。这个步骤确保了训练数据中的每一帧都与对应的音频完美对齐,为系统学习准确的唇音同步奠定了基础。

第四道关卡是美学质量评估。系统采用视频美学评分方法评估视觉构图和吸引力,只有超过校准质量阈值的视频才会被纳入最终训练集。这个过程就像请来了专业的视觉艺术评委,确保训练数据不仅技术上合格,在视觉效果上也达到了高标准。

经过这四道严格筛选后,团队还进行了人工策展,进一步确保数据质量。最终,他们组装了数百小时的高质量人像视频,为模型训练提供了可靠的监督信号。这种对质量而非数量的追求体现了团队的专业精神,也是Kling-Avatar能够产生卓越效果的重要基础。

四、训练与推理策略:细致入微的技术优化

为了让Kling-Avatar在生成数字人视频时达到更高的准确性和自然度,研究团队在训练和推理阶段都设计了一系列精巧的策略。这些策略就像烹饪中的各种调料和技巧,每一个细节都经过精心考量,最终呈现出完美的"菜品"。

在训练阶段,团队首先采用了滑动窗口机制来强化唇部动作与语音的对应关系。这个机制让每个视频标记只关注与其时间对齐的音频标记,外加少量填充,就像为每个演员配备了专属的音响师,确保他们听到的指令与表演动作完美匹配。这种精确的时间对应关系显著提升了局部相位一致性。

接下来,系统使用DWPose技术定位嘴部区域,并为该区域的扩散去噪损失分配更高权重。这种做法就像在训练中给嘴部表演加上了聚光灯,让系统把更多注意力集中在最关键的唇形同步上。这种重点强化训练确保了生成视频中的口型变化更加准确自然。

为了增强系统在不同拍摄条件下的适应能力,训练过程中还会随机在视频帧周围填充空白像素,人为减少面部在画面中的比例。这种处理方式就像让演员在不同距离的拍摄条件下都能保持良好表现,使模型在小脸和远景条件下依然保持鲁棒性。

特别值得注意的是,为了保持基础视频生成模型的文本可控性,团队在训练期间冻结了文本交叉注意力层的参数。这种做法就像在改进一台精密机器时,保护其核心功能不受影响,专注于增强特定能力。这有效防止了基础模型在特定的说话头部数据上过拟合,保持了系统的通用性。

在推理阶段,首末帧条件并行生成框架天然地解决了现有方法中常见的身份漂移问题。这个问题就像连续拍摄中演员的妆容逐渐走样,而Kling-Avatar的方法则像为每个片段都重新化妆,确保前后一致。

为了进一步提升每个片段内的身份一致性,系统还引入了负帧分类器自由引导机制。通过统计分析,研究团队发现身份漂移通常表现为纹理扭曲、模糊、对比度和饱和度夸张以及颜色偏移等特征。基于这些观察,他们手动按照这些模式破坏参考图像,模拟增强的身份漂移效果,然后将这个劣化图像作为负面引导信号,指导去噪过程朝着身份一致的方向发展。

在推理时,由于没有真实帧可用于嘴部区域掩蔽,系统转而增加音频交叉注意力数值来强化唇音对齐。这种补偿机制确保了即使在没有额外监督的情况下,生成的视频依然保持准确的唇形同步。

五、实验验证:全方位的性能评估

为了全面评估Kling-Avatar的性能表现,研究团队设计了一套综合性的实验评估体系,并与当前业界最先进的竞争对手进行了详细比较。这个评估过程就像为一位新演员安排全方位的试镜,从各个角度检验其表演能力。

团队构建了一个包含375个精心策划样本的挑战性基准测试集。这个测试集的设计非常全面:图像部分包含340个不同种族的人类肖像和35个非人类角色(卡通、动漫和动物角色),涵盖全身和半身格式,分辨率从480p到1080p,包括竖直、水平和方形各种格式。音频部分提取自真实视频,包含150个中文、150个英文、35个韩文和40个日文样本,时长从8秒到2分钟不等,涵盖多种语速和表达风格。文本提示部分经过人工精心标注,包含对情感表达、角色动作、摄像机运动和背景布局的多样化明确规定。

评估采用基于人类偏好的主观评价协议作为主要指标。对于基准测试中的每个样本,三名参与者独立提供好(Good)、相同(Same)、差(Bad)的GSB判断,通过多数投票确定最终标签。系统报告(G+S)/(B+S)作为主要指标,反映方法被判断为"更好或不差"的案例比例。

除了整体评估,团队还在四个具体维度上进行了GSB评估:唇形同步维度评估唇部动作的自然性、音视频对齐的准确性和面部表情的合理性;视觉质量维度评估整体美学吸引力、结构连贯性和视觉清晰度;控制响应维度检验生成视频中的情感、动作和摄像机运动是否准确反映文本指令;身份一致性维度测量生成视频保持身份特征和动态特征的一致性程度。

实验结果显示,Kling-Avatar在与OmniHuman-1的比较中全面领先。整体GSB评分达到2.39,在唇形同步(1.77)、视觉质量(2.06)、控制响应(1.17)和身份一致性(1.37)等各个维度都表现优异。与HeyGen的对比中,系统在整体评分上达到1.37,特别是在唇形同步(2.35)和视觉质量(1.76)方面表现突出。

值得注意的是,在不同语言和内容类型的细分评估中,Kling-Avatar都展现了稳定的优势。在中文语音测试中表现尤为突出,整体评分达到4.53,这可能与训练数据的语言分布有关。在歌唱内容的处理上,系统也显示出了强大的适应能力,特别是在唇形同步方面取得了7.69的高分。

六、应用展示:跨域泛化的强大能力

Kling-Avatar最令人印象深刻的特点之一是其在多样化场景中的出色表现。就像一位真正的全能演员,它不仅能在传统的真人场景中表现出色,还能轻松适应各种风格化的角色和场景,展现出强大的跨域泛化能力。

在真人肖像方面,系统能够生成极其逼真的数字人视频。无论是商务人士的严肃演讲、艺术家的情感表达,还是普通人的日常对话,Kling-Avatar都能准确捕捉每种场景的特定氛围和表演风格。生成的视频中,人物的微表情、眼神变化、头部动作都与语音内容完美同步,营造出自然流畅的交流体验。

更令人惊喜的是,系统在非真人角色上的表现。动漫角色的生成展现了系统对不同艺术风格的理解能力。它能够保持动漫角色特有的夸张表情和风格化动作,同时确保唇形同步的准确性。卡通角色的处理则展示了系统对简化造型的适应能力,即使面对与真人相去甚远的卡通形象,系统依然能够生成连贯自然的说话动画。

甚至在动物角色的处理上,Kling-Avatar也表现出了出人意料的能力。系统能够理解不同动物的面部结构特点,相应调整唇形同步策略,生成符合该动物特征的说话动画。这种跨物种的泛化能力显示了底层技术的强大适应性。

在长时长视频生成方面,系统展现了卓越的一致性维护能力。通过并行生成框架,Kling-Avatar能够稳定生成数分钟长度的视频,同时保持身份特征、视觉质量和表演连贯性。在展示的长时长样例中,可以观察到丰富的背景光照变化、自然的头部运动和生动的手势表达,这些细节的持续性表现证明了系统在复杂场景下的稳定性。

多人场景的处理能力也值得关注。系统能够在包含多个角色的复杂场景中准确识别和处理目标人物,生成协调一致的群体表演效果。这为会议、讨论、表演等多人互动场景的应用提供了可能性。

这些多样化的应用展示不仅证明了Kling-Avatar技术的成熟度,也为其未来的商业化应用提供了广阔的想象空间。从数字人直播、在线教育到娱乐内容创作,系统的强大泛化能力为各行各业的创新应用奠定了技术基础。

快手团队的这项研究为音频驱动的数字人合成领域树立了新的标杆。Kling-Avatar通过多模态指令理解和级联生成框架的创新结合,不仅解决了传统方法在语义理解和长时长生成方面的局限性,还展现了在多样化场景中的强大适应能力。系统能够生成高达1080p分辨率、48帧每秒的流畅视频,在唇形同步精度、情感动态表现、指令可控性、身份保持和跨域泛化等关键指标上都达到了业界领先水平。

这项技术的意义远远超出了学术研究的范畴。在数字化转型日益加速的今天,高质量的数字人技术为远程教育、虚拟助手、内容创作、沉浸式远程呈现等应用场景提供了强有力的技术支撑。Kling-Avatar的出现标志着我们向更自然、更智能的人机交互迈出了重要一步。

未来,随着技术的进一步完善和优化,我们有理由相信,像Kling-Avatar这样的智能数字人技术将在更多领域发挥重要作用,为人们的工作和生活带来更多便利和可能性。对于想要深入了解这项技术详细原理的读者,建议访问项目主页或查阅完整的学术论文,那里有更多技术细节和演示效果等待探索。

Q&A

Q1:Kling-Avatar与传统数字人技术相比有什么突破性改进?

A:Kling-Avatar的最大突破在于引入了多模态大语言模型导演,能够真正理解音频、图像、文字等不同信息的含义并统筹规划。传统技术只是机械地处理各种输入,而Kling-Avatar能够理解语音中的情感、文字中的指令,生成既准确又富有表现力的数字人视频,避免了以往常见的语义冲突问题。

Q2:这项技术能生成多长时间的视频?质量如何保证?

A:Kling-Avatar采用级联并行生成框架,能够生成任意长度的视频,演示中已展示了数分钟长度的高质量视频。系统通过两阶段生成策略保证质量:先生成蓝图视频确立整体框架,再并行生成精细化子片段。这种方法既提高了效率,又确保了长时间视频中身份一致性和视觉连贯性。

Q3:普通用户能否使用Kling-Avatar技术?有什么应用场景?

A:虽然论文未明确提及商业化时间表,但技术已相当成熟,支持1080p、48fps的高质量输出。潜在应用场景包括数字人直播、在线教育、视频博客、虚拟助手等。快手作为短视频平台,很可能会将这项技术集成到其产品中,为用户提供更智能的内容创作工具。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-