2025年5月,由弗吉尼亚大学的Boyang Wang、Xuweiyi Chen、Zezhou Cheng以及Adobe研究院的Matheus Gadelha共同完成的研究论文《Frame In-N-Out: Unbounded Controllable Image-to-Video Generation》在arXiv上发表(预印本编号:2505.21491v1)。这项研究致力于解决图像到视频生成过程中的一个常见但未被充分探索的电影技术:Frame In(入境)和Frame Out(出境)效果。有兴趣深入了解的读者可以通过项目页面https://uva-computer-vision-lab.github.io/Frame-In-N-Out/获取更多信息。
一、研究背景:超越画框的视频想象力
想象一下,当你观看一部电影时,屏幕上展示的画面只是导演精心选择的一小部分场景。导演的创意和想象力其实远超过你所看到的有限画面。许多关键的剧情转折往往发生在画面之外:一个新角色可能从画面边缘进入以增加戏剧张力,或者一个现有角色可能离开画面以推动后续剧情发展。
随着视频生成技术的不断进步,一个自然而然的问题浮现出来:我们能否让视频生成技术不再局限于初始画面的空间边界,而是捕捉一个更广阔、更富有想象力的世界?这正是本研究的核心目标——将现实世界中常用的电影技术"Frame In"(入境)和"Frame Out"(出境)带入可控视频生成领域。
想一想我们日常看到的视频效果:一只鸟飞入画面,停留片刻后又飞出画面;一辆车从远处驶来,穿过画面后消失在视野之外。这些看似简单的效果在计算机生成的视频中却很难实现,因为传统的图像到视频生成技术通常将初始图像的边界视为一道不可逾越的"墙"。
二、研究创新:无边界画布与精准控制
传统的图像到视频生成模型,如果要控制物体的运动,通常需要在初始图像上提供对齐的轨迹信号。这些模型把图像边界视为不可移动的"墙",无法让物体自然地离开或进入画面。研究团队的创新之处在于提出了"无边界画布"(Unbounded Canvas)的概念。
想象一下,传统模型就像是在一张固定大小的纸上作画,而Frame In-N-Out则是将这张纸放在了一块更大的画布上。这样,条件控制信号就可以延伸到初始图像区域之外,使物体能够移出画面边界,或者为新物体的进入提供准备空间,同时保持时间和空间的连贯性。
具体来说,研究团队定义了两种关键场景:
1. Frame Out(出境):控制初始画面中的现有物体完全移出可见边界,之后可能再次返回,同时保持其真实性和完整性。就像一个演员走出摄像机视野,但在故事中仍然存在。
2. Frame In(入境):允许一个全新的物体(如人物、车辆、动物)自然地进入场景——可以从侧面或从上方进入,遵循用户指定的运动轨迹。这就像导演安排一个新角色走入镜头,为故事增添新元素。
为了实现这一目标,研究团队重新设计了数据处理流程,并构建了一个新的视频扩散变换器(Diffusion Transformer)架构,能够整合多种条件控制:时空像素对齐的运动轨迹、非对齐的身份参考,以及最重要的无边界画布条件。
三、数据集创建:寻找电影技术的数字足迹
研究团队面临的首要挑战是现有数据集中缺乏明确捕捉Frame In和Frame Out动态的训练数据。为解决这个问题,他们从零开始重新设计了数据处理流程。
想象你是一位寻宝猎人,需要从成千上万的视频中找出那些包含完美"入境"和"出境"效果的珍贵片段。这个过程包括以下几个关键步骤:
首先,研究团队进行了基础筛选,包括元数据过滤(如视频时长、分辨率和宽高比)、图像级筛选(使用自动图像质量评估和美学评估工具)、视频级筛选(使用场景切换检测和相机运动估计工具),以及自动生成文本描述。
接下来,他们需要确定"感兴趣的身份物体"。不同于基于光流的随机点跟踪(无法提供语义含义),团队使用了全景分割技术对图像中的所有物体进行分类和分割。他们从133个COCO数据集类别中手动定义了22个可移动物体类别(如人、车、动物等),并应用K-means聚类获取物体上的均匀分布点。
为了获得稳定准确的轨迹,团队采用了CoTracker3技术进行"循环跟踪":首先从第一帧到最后一帧进行前向跟踪,然后从最后一帧回到第一帧进行后向跟踪。如果起始位置和回溯位置之间的误差超过预设阈值,这些点就会被过滤掉。宁可点少但准确,也不要大量不精确的点。
最后,团队使用回归策略随机生成数千个不同大小的边界框,并利用跟踪信息识别Frame In和Frame Out模式。Frame Out场景是指物体最初位于边界框内,随后完全移出边界框;而Frame In场景则要求物体在第一帧完全位于边界框外,之后进入边界框内。
这个精心设计的数据处理流程为研究提供了高质量的训练数据,使模型能够学习并生成自然的Frame In和Frame Out效果。
四、技术架构:扩散变换器的艺术重构
研究团队选择了CogVideoX-I2V作为基础视频扩散变换器架构,这是一个相对小型的模型(50亿参数),但研究团队相信他们的贡献可扩展到大多数视频扩散变换器架构。
考虑到计算资源的限制,团队巧妙地利用了绝对位置嵌入和旋转位置嵌入的特性,通过在较低分辨率(384×480)上训练,然后在用户使用的各种分辨率上测试。这就像是先在小画布上学习绘画技巧,然后再应用到各种大小的画布上。
对于运动控制,团队将所有时空轨迹坐标转换为图像形式的像素标记。由于数据处理过程中使用了全景分割,每个跟踪点都有丰富准确的语义含义。不同物体使用不同的颜色标记,促进模型学习语义关系。同一物体的多个跟踪点共享相同颜色。
在无边界条件方面,团队首先将初始图像区域扩展到更大的无边界画布区域,通过提供的左上角和右下角扩展像素数量定义。他们调整了绝对和相对位置编码系统,将画布区域的左上角设为时间、水平和垂直方向的(0,0,0)索引。在这种设置下,运动控制信号可以扩展到画布区域内的任何区域。
在统一身份参考条件方面,团队利用了现代视频扩散变换器中因果3D VAE的特性,使用相同的预训练VAE对身份参考图像进行编码。他们将身份参考调整并缩放到与画布大小相同的分辨率,然后在潜在身份参考和视频帧之间进行帧间连接。
这种设计充分利用了视频扩散变换器的3D全注意力特性。文本标记、视频标记和身份参考标记在分块过程后会进行标记级连接,然后一起优化。通过重用所有经过良好训练的规范化、投影和前馈模块,训练变得更加稳定,实现也更加优雅。
五、训练策略:两阶段循序渐进
研究团队的训练分为两个阶段。在第一阶段,他们基于文本提示和运动控制,学习基础条件并适应他们对绝对位置编码的修改。这就像是先学习基本的绘画技巧,掌握颜色和形状的表达。
在第二阶段,团队联合训练Frame In和Frame Out,使用无边界画布区域设置。每次最多考虑一个身份参考图像。对于仅有Frame Out的场景,在身份参考位置插入单色白色占位符。
研究团队发现,完美的Frame Out场景(物体完全移出)很少见,而Frame In场景(身份完全与第一帧区域无重叠)更加罕见。为了解决数据稀缺问题,团队在训练数据处理中降低了标准,不要求物体完全在第一帧区域内或外。他们认为,最困难的训练目标是在原始视频扩散变换器中学习新的身份参考信号与运动控制。
六、实验结果:打破边界的视觉奇迹
研究团队使用OpenVid-1M、VidGen-1M和WebVid-10M的子集作为训练数据集,并从OpenVid-1M中保留了一部分作为评估测试集。训练在两个阶段各进行了36K次迭代,批量大小为8,训练分辨率(画布分辨率)为384×480。所有视频以12 FPS标准处理和获取。
为了评估模型效果,研究团队定义了专门的评估数据集和指标。他们精心策划了183个Frame In和189个Frame Out完美案例作为评估数据集。所有Frame In评估数据集都配有一个且仅有一个身份参考图像。
评估指标包括三个广泛采用的生成质量指标:Fréchet Inception Distance (FID)、Fréchet Video Distance (FVD)和Learned Perceptual Image Patch Similarity (LPIPS)。此外,研究团队还修改了传统的跟踪、分割、LLM评估和身份保持指标,以适应In-N-Out模式的特点。
特别设计的指标包括轨迹误差(评估生成视频与GT视频之间所有轨迹点的欧几里得距离)、视频分割平均绝对误差(计算生成视频与GT视频之间分割区域的差异)、视觉语言模型评估(使用大型视觉语言模型判断物体是否离开或进入第一帧)以及相对DINO(计算身份参考与每个视频帧之间的余弦相似度)。
实验结果令人印象深刻。在Frame Out比较中,研究团队的模型(尤其是第二阶段模型)在所有指标上都优于现有方法,轨迹误差比DragAnything降低了50%以上,视频分割MAE降低了一半。这表明研究团队的Frame Out架构具有显著优势,同时也突显了两阶段训练的有效性。
在Frame In比较中,研究团队的方法显著优于现有的元素到视频模型,在FID、FVD、LPIPS、轨迹误差、视频分割MAE和VLM准确性等关键指标上表现出色。虽然相对DINO分数略低于带运动提示的Phantom,但这主要是因为研究团队的模型忠实遵循运动引导,有时会将身份移出画布,影响帧间相似性。
视觉效果同样令人印象深刻。在Frame Out案例中,基线模型(如DragAnything和ToRA)无法将人物完全移出图像边界,而研究团队的模型成功处理了完整的退出效果。在Frame In场景中,只有研究团队的模型能够实现指定身份的Frame In效果,基线模型如Phantom和SkyReels-A2无法理解研究团队想要的Frame In意图。
七、局限性与未来方向
尽管研究团队的方法展示了令人印象深刻的结果,但他们也坦诚承认了一些局限性。主要是在使用单点轨迹时存在3D歧义。当前大多数运动控制工作都是基于单轨迹点的,而单个轨迹点难以表示姿势歧义。
有时我们希望生成后视图,但可能会看到侧视图。此外,单点轨迹难以控制身份参考的大小,有时可能比预期更大或更小。另外,预训练模型数据集中的相机运动和研究团队使用的CUT3R过滤方法无法完全移除所有带有相机运动的视频,这导致模型生成的视频有时会有一些不必要的相机运动。
这些问题可能通过引入更强大的3D控制系统来解决,如相机控制或身份参考的大小控制。研究团队认为这些见解和领域重点在电影行业或广告制作等场景中具有广泛前景。
结语:突破边界的创意视频生成
归根结底,Frame In-N-Out研究为图像到视频生成领域带来了突破性的进展,使生成的视频不再受限于初始图像的空间边界。通过引入无边界画布的概念,并结合身份参考和运动轨迹控制,研究团队成功实现了电影制作中常用的Frame In和Frame Out技术,为创意内容创作开辟了新的可能性。
想象一下未来的可能性:电影制作人可以从单张图像开始,让角色自然地进入和离开画面;广告创作者可以制作产品从不同角度进入画面的动态展示;甚至普通用户也可以为自己的照片赋予更加生动的故事性和动态效果。
这项研究不仅是技术上的进步,更是创意表达方式的拓展。它向我们展示了人工智能如何帮助我们打破创作的边界,实现更加自由和富有想象力的视觉叙事。
如果你对这项研究感兴趣,不妨访问他们的项目页面https://uva-computer-vision-lab.github.io/Frame-In-N-Out/,探索更多精彩的视频生成案例和技术细节。未来的视频生成,将不再局限于框内,而是延伸到无限的创意空间。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。