在我们日常看的电影、玩的游戏或是欣赏的动画中,角色的动作是否自然流畅直接影响着我们的体验。你是否曾想过,这些逼真的动作是如何被创造出来的?传统上,这需要专业的动作捕捉设备(价格动辄数万美元)和经验丰富的技术人员。想象一下,仅仅创作一段30秒、每秒12帧的动画,就需要六位专业动画师花费约20个工作日!这种高昂的成本和技术门槛限制了许多创作者的想象力和创造力。
近日,来自清华大学深圳国际研究生院的张诗怡、庄峻浩、唐彦松和腾讯ARC实验室的张昭阳、单瑛共同发表了一项突破性研究——《FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios》(FlexiAct:面向异构场景的灵活动作控制)。这篇论文将于2025年8月10日至14日在温哥华举办的SIGGRAPH会议上正式发表,DOI链接为https://doi.org/10.1145/3721238.3730683。有兴趣深入研究的读者可通过该链接访问完整论文。
让我们一起来看看这项研究如何像魔术师一样,让任何角色都能做出你想要的动作。
一、传统"动作转移"的困境:为什么给不同角色"穿上"相同动作这么难?
想象你有一段视频,里面有一个人在跳舞。现在,你想让一张照片中的另一个人(或者甚至是一只猫、一个卡通角色)做出完全相同的舞蹈动作。这就是"动作转移"要解决的问题。
传统的人工智能方法主要分为两大类:一类是"预定义信号"方法,另一类是"全局运动"方法。这两类方法就像是两种不同的裁缝技术。
第一种"预定义信号"裁缝(如AnymateAnyone和StableAnimator)需要精确的人体骨架信息作为裁剪指南。就像是需要非常精确的人体测量数据才能制作合身的西装。问题在于,如果照片中的人与视频中的人身材差异太大,或者站姿、角度不同,甚至更不用说如果你想让一只猫做人类的动作,这种方法就会"量体裁衣"失败。
第二种"全局运动"裁缝(如MotionDirector和Motion Inversion)则是把整体动作作为一个模板直接套用,就像是制作统一尺码的T恤。它可能适合体型相近的人,但如果体型差异大,穿起来就会很不合身。而且,这种方法常常会让生成的角色失去原有照片中的特征,比如脸变了、衣服变了,就像T恤不仅大小不合适,连花纹颜色都变了。
二、FlexiAct:一位会"随机应变"的魔法裁缝
清华大学和腾讯的研究团队提出的FlexiAct就像是一位既懂得精确裁剪又能随机应变的魔法裁缝。它可以将任何参考视频中的动作"裁剪"并"缝合"到任何目标图像上,无论它们之间的形状、姿势和视角有多大差异。更重要的是,它能够保持目标图像的原有特征,不会让猫变成狗,也不会让卡通人物变成真人。
这位魔法裁缝主要依靠两个神奇工具:RefAdapter(适配器)和FAE(频率感知动作提取器)。
RefAdapter就像是一个能自动调整的裁剪模板,它能根据目标图像的特征自动调整参考视频中的动作,使其适合目标的身材和姿势。比如,如果参考视频中是一个强壮的成年人在举重,而目标图像是一个纤细的舞者,RefAdapter会自动调整动作,使其看起来自然而和谐,就像量身定制的服装一样合身。
FAE则像是一个动作解析仪,它能从参考视频中精确提取动作信息。有趣的是,研究团队发现动作信息在视频中就像是由不同频率组成的音乐:低频部分包含了整体动作(比如手臂挥动),而高频部分则包含了细节特征(比如表情变化)。FAE能在视频生成的不同阶段有选择地关注这些不同频率的信息,就像音乐家先谱写主旋律,再添加细节和装饰音。
三、魔法的工作原理:FlexiAct如何实现"一招变形"?
要理解FlexiAct的工作原理,我们可以把视频生成过程想象成从模糊到清晰的渐进绘画。
首先,FlexiAct基于一个叫做CogVideoX-I2V的模型,这个模型可以根据一张图片生成视频,就像是从一张照片开始画一幅动态的连环画。但是原始的CogVideoX-I2V有个限制:它生成的视频第一帧必须与输入图片完全一致,这就像画连环画时,第一格必须与参考图完全一样。
这时,RefAdapter发挥了魔力。它允许系统在保持角色特征(如面部特征、服装等)的同时,改变其姿势和空间位置。就像是魔术师可以让舞台上的人保持其外貌特征,但瞬间改变其站姿和位置。研究团队通过巧妙的训练方法实现了这一点:他们不是总是使用视频的第一帧作为参考图像,而是随机从视频中选取不同帧作为条件。这就像是训练魔术师不仅能从标准姿势开始变形,还能从任何姿势开始。
而FAE的魔法则更加精妙。研究团队发现,在视频生成的早期阶段(想象成绘画的草图阶段),系统更关注低频信息,也就是整体动作;而在后期阶段(绘画的精修阶段),系统更关注高频信息,也就是细节特征。基于这一发现,FAE在不同的生成阶段有选择地增强或减弱对特定频率信息的关注,从而实现精确的动作提取和转移。
这就像是一个绘画高手,先用粗线条勾勒人物的基本动作姿态(低频信息),然后再逐步添加细节,如面部表情、衣物褶皱等(高频信息)。FAE的巧妙之处在于,它知道在什么时候应该关注动作,什么时候应该关注细节,从而确保生成的视频既有准确的动作,又保持了原始图像的外观特征。
四、实验结果:"魔法"到底有多神奇?
研究团队进行了大量实验来验证FlexiAct的效果。他们构建了一个包含250个视频-图像对的评估数据集,涵盖了25种不同的动作类别。每种动作都转移到10个不同的目标图像上,包括真实人类、动物、动画和游戏角色。
实验结果展示了FlexiAct的强大能力。与基线方法相比,FlexiAct在保持动作准确性和外观一致性方面表现出色。具体来说:
文本相似度(Text Similarity):FlexiAct生成的视频与描述文本的语义一致性最高,达到0.2732,而基线方法仅为0.2446。
动作保真度(Motion Fidelity):FlexiAct生成的视频与参考视频的动作一致性最高,达到0.4103,而基线方法仅为0.3496。
时间一致性(Temporal Consistency):FlexiAct生成的视频在时间上的连贯性最好,达到0.9342,而基线方法为0.9276。
外观一致性(Appearance Consistency):FlexiAct生成的视频与目标图像的外观一致性最高,达到0.9162,而基线方法为0.8963。
这些数字可能看起来很抽象,但实际上它们反映了一个简单的事实:FlexiAct生成的视频更加自然、连贯,动作更加准确,同时保持了目标图像的原有特征。
更有说服力的是人类评估结果。研究团队邀请了5名评估者对生成的视频进行评价。在与基准模型的比较中,79.5%的情况下评估者认为FlexiAct的动作一致性更好,78.3%的情况下认为其外观一致性更好。这就像是在盲测中,大多数人都能识别出哪个是"魔术师"变出来的,哪个是普通人做的。
五、实际案例:魔法的真实表现
论文中展示了许多令人印象深刻的案例。例如:
人类动作转移:一段视频中的人在做拳击动作,FlexiAct可以将这个动作精确地转移到各种不同的人物上,包括老人、超人角色,甚至是风格完全不同的照片人物,而且每个人物都保持了原有的面部特征和服装特点。
跨物种转移:更令人惊讶的是,FlexiAct可以将人类的伸展动作转移到狗、猫甚至老虎身上,让它们做出像人一样的动作,但同时保持了它们作为动物的外观特征。
跨域转移:FlexiAct甚至可以将真实人类的动作转移到卡通角色、游戏角色或3D模型上,创造出看起来自然而连贯的动画效果。
这些案例展示了FlexiAct的多功能性和适应性,就像一个真正的魔术师,可以对任何目标施展变形魔法。
六、局限性与未来发展:魔法还需要继续精进
尽管FlexiAct在动作转移方面取得了显著成果,但它也有自己的局限性。与其他类似方法一样,FlexiAct需要为每个参考视频进行优化,这就像魔术师需要为每个新魔术单独练习一样。
研究团队指出,未来的研究方向将是开发"前馈式"动作转移方法,也就是无需为每个视频单独优化的方法。这就像是希望魔术师能够即兴表演,而不需要提前准备。
七、总结:FlexiAct给创作者带来的可能性
归根结底,FlexiAct代表了视频生成和动作转移领域的一个重要进步。它打破了传统方法的限制,实现了跨越不同布局、视角和骨骼结构的灵活动作转移,同时保持了身份一致性。
对于普通创作者来说,这项技术意味着更多可能性。想象一下,你只需要一张照片和一段参考视频,就可以创造出生动、自然的动画效果,无需昂贵的设备和专业技能。这将使电影制作、游戏开发和动画创作变得更加民主化和普及化。
这项由清华大学深圳国际研究生院和腾讯ARC实验室合作完成的研究,不仅展示了中国在人工智能领域的研究实力,也为未来的视频生成技术指明了方向。
如果你对这项研究感兴趣,可以通过前文提到的DOI链接访问完整论文,或者在FlexiAct项目网站上查看更多示例和代码。
你有没有想过,如果这项技术进一步发展,它会如何改变我们创作和消费视频内容的方式?未来,也许每个人都能成为自己的动画导演,只需要一部智能手机和一些想象力。
好文章,需要你的鼓励
现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。
想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。
想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。
想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。