微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

香港科大团队用AI创造互动视频世界：手绘轨迹就能让任何角色按你想法演戏

人工智能视频生成多模态控制

香港科大团队用AI创造互动视频世界：手绘轨迹就能让任何角色按你想法演戏

作者：科技行者

2025-12-22 10:18

分享至：

香港科技大学团队开发的WorldCanvas AI框架实现了视频创作的重大突破。用户只需手绘运动轨迹、输入文字描述和参考图片，即可生成精确可控的视频内容。该系统通过空间感知技术解决多角色场景的精确控制问题，在轨迹跟踪、语义理解等方面显著超越现有模型，为视频制作、游戏开发、教育等领域带来革命性应用前景。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-12-22 10:18 • 科技行者

这项由香港科技大学、蚁集团等机构联合开展的研究发表于2024年12月，研究团队开发了名为WorldCanvas的AI框架。有兴趣深入了解的读者可以通过论文编号arXiv:2512.16924v1查询完整论文。研究的核心作者包括王翰林、欧阳豪、王秋雨等来自不同知名院校的研究者，陈启峰教授担任通讯作者。

在电影制作中，导演需要与演员反复沟通才能拍出理想的镜头。如今，一种全新的AI技术让这个过程变得像用画笔作画一样简单。你只需要在屏幕上画出想要的运动路径，输入一段文字描述，再放入一张参考图片，AI就能自动生成完全符合你创意的视频片段。

这听起来像科幻电影的情节，但香港科技大学的研究团队真的做到了。他们开发的WorldCanvas系统就像一个魔法画布，任何人都能在上面创造出生动的视频世界。更令人惊喜的是，这个系统不仅能让静态角色动起来，还能让它们按照你的想法进行复杂的互动，甚至能处理角色暂时消失又重新出现的情况，始终保持前后一致。

传统的视频生成AI通常只能根据文字描述产生大概的画面，就像你告诉画家"画一个人在跑步"，结果可能千差万别。而WorldCanvas的创新之处在于，它把控制权完全交给了用户。就好比你不仅告诉画家要画什么，还能精确指导每一笔的走向，最终得到的作品完全符合你的构思。

这种精确控制是通过三种信息的巧妙结合实现的。轨迹信息就像舞台上演员的走位图，告诉AI角色应该在何时何地做什么动作。参考图片则像是角色的身份证照片，确保AI生成的角色外观始终保持一致。而文字描述则是剧本，说明角色要执行什么样的动作和情感表达。这三种信息相互配合，就像一个完整的电影制作方案。

研究团队在设计这套系统时遇到的最大挑战是如何让AI理解复杂的多角色场景。设想一个场景：两个小女孩在公园里玩耍，一个在前面哭泣并用手擦眼泪，另一个从后面走过来蹲下安慰。传统AI很难准确区分哪个动作对应哪个角色，经常会搞混。

为了解决这个问题，研究团队开发了一种叫做"空间感知加权交叉注意"的技术。这个名字听起来很复杂，但原理其实很简单。就像一个聪明的舞台导演，AI会特别关注每个角色周围的区域，并将相应的文字描述精确匹配到对应的角色身上。这样，AI就能准确理解"前面的女孩哭泣"指的是哪个角色，"后面的女孩蹲下"又是指哪个角色。

更有趣的是，这套系统还能处理一些看似不可能的情况。比如一条鲨鱼从沙漠的沙子中跳出来，再潜入沙中，然后又跳出来。虽然这在现实中完全不可能发生，但AI能够理解这种"反常识"的创意，并生成相应的视频效果，甚至还会添加鲨鱼跳跃时溅起沙尘的细节。

在数据准备方面，研究团队就像烹饪大师准备食材一样精心。他们从公开视频中筛选出高质量的片段，然后使用专门的追踪算法记录每个物体的运动轨迹。接着，他们让先进的AI模型观察这些带有轨迹标记的视频，并要求它描述每条轨迹对应的动作。这样，AI就学会了如何将抽象的运动路径与具体的动作描述联系起来。

最关键的创新在于轨迹的处理方式。以往的系统只是简单地记录物体的位置坐标，就像在地图上标记几个点。而WorldCanvas则把轨迹当作包含丰富信息的"故事线"。轨迹上点与点之间的距离暗示了运动速度：点密集的地方表示缓慢移动，点稀疏的地方表示快速移动。轨迹还包含可见性标记，告诉AI角色在什么时候应该出现或消失。

这种精细的轨迹处理让系统能够生成极其逼真的动作。当你画出一个篮球的抛物线轨迹时，AI不仅知道球的飞行路径，还能根据轨迹的密度变化自动调整球的飞行速度，让整个投篮动作看起来完全符合物理定律。

在实际测试中，WorldCanvas展现出了令人印象深刻的能力。研究团队设计了一个复杂场景：一位老人和一辆汽车同时进入画面，老人在看到汽车后向后退步，汽车急刹车避免撞到老人，最后老人走出画面。这个场景涉及多个角色的协调动作和因果关系。传统的视频生成AI往往会产生混乱的结果，比如让老人去追汽车，或者完全忽略两者之间的互动。而WorldCanvas则能准确生成符合逻辑的完整序列。

更令人惊叹的是系统的一致性维护能力。当一个角色暂时离开画面然后重新出现时，AI能够保持角色的外观、身份和场景的连续性。这就像一个有记忆的画家，即使画布被暂时遮挡，重新露出时也能准确接续之前的内容。

为了验证系统的效果，研究团队进行了详细的对比实验。他们将WorldCanvas与当前最先进的视频生成模型进行比较，包括Wan2.2、ATI和Frame In-N-Out等。结果显示，WorldCanvas在轨迹跟踪准确度、语义理解能力和视频质量等多个方面都显著超越了这些基准模型。

在用户研究中，研究团队邀请了15位参与者，包括视频制作研究人员、艺术家和普通用户，对不同模型生成的视频进行评价。结果显示，在轨迹跟踪、文本遵循、文本-轨迹对齐、参考图片保真度和整体视频质量五个维度上，WorldCanvas都获得了压倒性的支持，获得了75%以上的"最佳"选票。

这项技术的潜在应用前景广阔。在电影制作领域，导演可以快速制作概念验证视频，在正式拍摄前就能看到想象中的画面效果。在游戏开发中，设计师可以轻松创建复杂的角色动画和场景演示。在教育领域，老师可以制作生动的教学视频来解释复杂概念。甚至普通用户也能用它来制作个性化的社交媒体内容。

当然，这项技术也面临一些挑战。在处理极其复杂的空间变换或需要高度逻辑推理的场景时，系统偶尔会出现不完美的结果。比如当相机做360度旋转时，画面中的物体可能会出现轻微的模糊或不一致。另外，当角色暂时离开视野时，系统有时无法完全准确地推理出角色在视野外应该发生的变化。

尽管存在这些局限，WorldCanvas代表了视频生成AI的一个重要里程碑。它不仅仅是一个技术工具，更像是一个创意伙伴，能够理解用户的想法并将其转化为视觉现实。随着技术的进一步完善，我们可能很快就会看到一个人人都能成为视频创作者的时代到来。

从技术角度看，这项研究还为更高级的AI系统奠定了基础。能够理解和生成复杂时空事件的AI，距离真正的通用人工智能又近了一步。这样的系统不仅能生成视频，还能理解世界的运作方式，这对于开发能够在真实世界中安全运行的AI代理具有重要意义。

研究团队已经将相关代码和模型开源，这意味着全球的研究者和开发者都能基于这项工作继续创新。相信在不久的将来，我们会看到更多基于WorldCanvas的应用出现，让视频创作变得像画画一样简单自然。

Q&A

Q1：WorldCanvas是什么样的AI系统？

A：WorldCanvas是香港科技大学团队开发的视频生成AI框架，用户只需手绘运动轨迹、输入文字描述，再加入参考图片，就能让AI自动生成符合创意的视频片段，就像在魔法画布上创作一样简单。

Q2：WorldCanvas比其他视频生成AI强在哪里？