微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港科大团队用AI创造互动视频世界:手绘轨迹就能让任何角色按你想法演戏

香港科大团队用AI创造互动视频世界:手绘轨迹就能让任何角色按你想法演戏

2025-12-22 10:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-22 10:18 科技行者

这项由香港科技大学、蚁集团等机构联合开展的研究发表于2024年12月,研究团队开发了名为WorldCanvas的AI框架。有兴趣深入了解的读者可以通过论文编号arXiv:2512.16924v1查询完整论文。研究的核心作者包括王翰林、欧阳豪、王秋雨等来自不同知名院校的研究者,陈启峰教授担任通讯作者。

在电影制作中,导演需要与演员反复沟通才能拍出理想的镜头。如今,一种全新的AI技术让这个过程变得像用画笔作画一样简单。你只需要在屏幕上画出想要的运动路径,输入一段文字描述,再放入一张参考图片,AI就能自动生成完全符合你创意的视频片段。

这听起来像科幻电影的情节,但香港科技大学的研究团队真的做到了。他们开发的WorldCanvas系统就像一个魔法画布,任何人都能在上面创造出生动的视频世界。更令人惊喜的是,这个系统不仅能让静态角色动起来,还能让它们按照你的想法进行复杂的互动,甚至能处理角色暂时消失又重新出现的情况,始终保持前后一致。

传统的视频生成AI通常只能根据文字描述产生大概的画面,就像你告诉画家"画一个人在跑步",结果可能千差万别。而WorldCanvas的创新之处在于,它把控制权完全交给了用户。就好比你不仅告诉画家要画什么,还能精确指导每一笔的走向,最终得到的作品完全符合你的构思。

这种精确控制是通过三种信息的巧妙结合实现的。轨迹信息就像舞台上演员的走位图,告诉AI角色应该在何时何地做什么动作。参考图片则像是角色的身份证照片,确保AI生成的角色外观始终保持一致。而文字描述则是剧本,说明角色要执行什么样的动作和情感表达。这三种信息相互配合,就像一个完整的电影制作方案。

研究团队在设计这套系统时遇到的最大挑战是如何让AI理解复杂的多角色场景。设想一个场景:两个小女孩在公园里玩耍,一个在前面哭泣并用手擦眼泪,另一个从后面走过来蹲下安慰。传统AI很难准确区分哪个动作对应哪个角色,经常会搞混。

为了解决这个问题,研究团队开发了一种叫做"空间感知加权交叉注意"的技术。这个名字听起来很复杂,但原理其实很简单。就像一个聪明的舞台导演,AI会特别关注每个角色周围的区域,并将相应的文字描述精确匹配到对应的角色身上。这样,AI就能准确理解"前面的女孩哭泣"指的是哪个角色,"后面的女孩蹲下"又是指哪个角色。

更有趣的是,这套系统还能处理一些看似不可能的情况。比如一条鲨鱼从沙漠的沙子中跳出来,再潜入沙中,然后又跳出来。虽然这在现实中完全不可能发生,但AI能够理解这种"反常识"的创意,并生成相应的视频效果,甚至还会添加鲨鱼跳跃时溅起沙尘的细节。

在数据准备方面,研究团队就像烹饪大师准备食材一样精心。他们从公开视频中筛选出高质量的片段,然后使用专门的追踪算法记录每个物体的运动轨迹。接着,他们让先进的AI模型观察这些带有轨迹标记的视频,并要求它描述每条轨迹对应的动作。这样,AI就学会了如何将抽象的运动路径与具体的动作描述联系起来。

最关键的创新在于轨迹的处理方式。以往的系统只是简单地记录物体的位置坐标,就像在地图上标记几个点。而WorldCanvas则把轨迹当作包含丰富信息的"故事线"。轨迹上点与点之间的距离暗示了运动速度:点密集的地方表示缓慢移动,点稀疏的地方表示快速移动。轨迹还包含可见性标记,告诉AI角色在什么时候应该出现或消失。

这种精细的轨迹处理让系统能够生成极其逼真的动作。当你画出一个篮球的抛物线轨迹时,AI不仅知道球的飞行路径,还能根据轨迹的密度变化自动调整球的飞行速度,让整个投篮动作看起来完全符合物理定律。

在实际测试中,WorldCanvas展现出了令人印象深刻的能力。研究团队设计了一个复杂场景:一位老人和一辆汽车同时进入画面,老人在看到汽车后向后退步,汽车急刹车避免撞到老人,最后老人走出画面。这个场景涉及多个角色的协调动作和因果关系。传统的视频生成AI往往会产生混乱的结果,比如让老人去追汽车,或者完全忽略两者之间的互动。而WorldCanvas则能准确生成符合逻辑的完整序列。

更令人惊叹的是系统的一致性维护能力。当一个角色暂时离开画面然后重新出现时,AI能够保持角色的外观、身份和场景的连续性。这就像一个有记忆的画家,即使画布被暂时遮挡,重新露出时也能准确接续之前的内容。

为了验证系统的效果,研究团队进行了详细的对比实验。他们将WorldCanvas与当前最先进的视频生成模型进行比较,包括Wan2.2、ATI和Frame In-N-Out等。结果显示,WorldCanvas在轨迹跟踪准确度、语义理解能力和视频质量等多个方面都显著超越了这些基准模型。

在用户研究中,研究团队邀请了15位参与者,包括视频制作研究人员、艺术家和普通用户,对不同模型生成的视频进行评价。结果显示,在轨迹跟踪、文本遵循、文本-轨迹对齐、参考图片保真度和整体视频质量五个维度上,WorldCanvas都获得了压倒性的支持,获得了75%以上的"最佳"选票。

这项技术的潜在应用前景广阔。在电影制作领域,导演可以快速制作概念验证视频,在正式拍摄前就能看到想象中的画面效果。在游戏开发中,设计师可以轻松创建复杂的角色动画和场景演示。在教育领域,老师可以制作生动的教学视频来解释复杂概念。甚至普通用户也能用它来制作个性化的社交媒体内容。

当然,这项技术也面临一些挑战。在处理极其复杂的空间变换或需要高度逻辑推理的场景时,系统偶尔会出现不完美的结果。比如当相机做360度旋转时,画面中的物体可能会出现轻微的模糊或不一致。另外,当角色暂时离开视野时,系统有时无法完全准确地推理出角色在视野外应该发生的变化。

尽管存在这些局限,WorldCanvas代表了视频生成AI的一个重要里程碑。它不仅仅是一个技术工具,更像是一个创意伙伴,能够理解用户的想法并将其转化为视觉现实。随着技术的进一步完善,我们可能很快就会看到一个人人都能成为视频创作者的时代到来。

从技术角度看,这项研究还为更高级的AI系统奠定了基础。能够理解和生成复杂时空事件的AI,距离真正的通用人工智能又近了一步。这样的系统不仅能生成视频,还能理解世界的运作方式,这对于开发能够在真实世界中安全运行的AI代理具有重要意义。

研究团队已经将相关代码和模型开源,这意味着全球的研究者和开发者都能基于这项工作继续创新。相信在不久的将来,我们会看到更多基于WorldCanvas的应用出现,让视频创作变得像画画一样简单自然。

Q&A

Q1:WorldCanvas是什么样的AI系统?

A:WorldCanvas是香港科技大学团队开发的视频生成AI框架,用户只需手绘运动轨迹、输入文字描述,再加入参考图片,就能让AI自动生成符合创意的视频片段,就像在魔法画布上创作一样简单。

Q2:WorldCanvas比其他视频生成AI强在哪里?

A:传统AI只能根据文字生成大概画面,而WorldCanvas通过轨迹、文字和参考图片的结合,让用户能精确控制角色的动作、位置和外观。它还能处理多角色互动场景,保持角色前后一致性,甚至能生成反常识的创意场景。

Q3:普通人能用WorldCanvas制作视频吗?

A:目前WorldCanvas还在研究阶段,研究团队已经开源了相关代码。虽然普通用户暂时无法直接使用,但随着技术发展,未来可能会出现基于这项技术的消费级应用,让视频创作变得像画画一样简单。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-