这项由韩国浦项科技大学(POSTECH)与三星电子视觉显示事业部联合完成的研究,发表于2026年7月举办的SIGGRAPH Conference Papers(美国洛杉矶),论文编号为DOI: 10.1145/3799902.3811098,arXiv预印本编号为arXiv:2605.17543。
你有没有遇到过这样的烦恼:手机拍的竖版视频发到电脑屏幕上两边全是黑边,或者想把一段普通视频投到宽幕电视上,结果画面只占据屏幕中央一小块,四周空空荡荡?这个问题在视频制作行业里叫做"视频外推"或"视频扩图"——也就是说,要在原始画面之外,凭空"脑补"出周围本来没拍到的内容,而且脑补出来的东西要跟原画面无缝衔接,看起来就像是镜头当时就拍到了那里一样。
这件事说起来轻巧,做起来极难。人工手动填补,费时费力,效果也参差不齐。而最先进的人工智能技术,虽然已经能对单张图片做出相当不错的"扩图",但一旦遇到视频,麻烦就来了——视频不是一张图,而是几百甚至上千张连续的画面,每一帧扩出来的内容都要和前后帧保持一致,不能一会儿出现一棵树,下一帧这棵树又消失了,或者背景的颜色忽明忽暗。这种时间上的连贯性,是视频扩图最让研究者头疼的核心挑战。
更要命的是,现实需求往往还不止于此。用户想要的不只是把一段几秒钟的短片扩宽一点点,而是要把一段长达几分钟、甚至包含数百帧画面的视频,扩展到高清乃至超高清分辨率。这就好比:原本要求你给一张明信片大小的照片四周补上内容,现在要求你给一幅几米长的壁画四周全部补全,而且补出来的每一寸都要天衣无缝。
面对这个双重挑战,POSTECH与三星的研究团队提出了一套名为**HL-OutPaint**的新方法。"HL"代表"高分辨率(High-resolution)与长序列(Long-range)",正是这个方法要同时攻克的两座大山。这篇研究的核心思路,可以用一个装修房子的比喻来贯穿理解:在正式施工之前,先画出一张整栋房子的简略草图,确保每个房间的位置、风格、整体布局都协调一致;然后,再凭借这张草图,一间一间地精细装修,添上细节。
一、为什么以前的方法都有缺陷
要理解HL-OutPaint的突破,得先明白前人在哪里栽了跟头。
早期的视频扩图方法,大多是把图像扩图的技术直接搬过来用,每一帧单独处理,完全不考虑帧与帧之间的联系。结果就是画面闪烁不定,像是幻灯片而不是视频,用户体验极差。
后来,研究者开始专门针对视频开发方法。比较有代表性的有几条路线。M3DDM这个方法,会从整段视频里均匀抽取一些关键帧,把这些关键帧作为"代表"来处理,试图保证整体结构的一致性。这个思路有点像:你要复述一部两小时的电影,只看了其中均匀分布的几个场景截图来帮助记忆。问题在于,当视频里有快速运动时,相邻两个关键帧之间可能发生了很多变化,跳过了太多中间过程,导致时间上产生跳跃感和不一致。
另一个叫做Infinite-Canvas(无限画布)的方法,走的是另一条路:把画面切成很多小块,一块一块地分别处理,再拼接起来。这种方式在空间上灵活,但问题是每个小块都是单独生成的,缺乏对全局的把握,就像请了很多不同的工匠各自装修不同房间,结果每间屋子风格都对不上,甚至出现重复的花纹和结构。
还有一个叫VACE的方法,它依赖一种"接龙"式的生成策略:生成完第一段视频,再把最后一帧当成下一段的开头,继续往后生成。这就好比接力赛,每一棒都基于前一棒的终点出发。问题是,一旦某一棒跑偏了,后面的棒次只会越跑越偏,误差不断积累,最终整个视频的前后风格越来越不一致。
归根结底,以前的方法要么只解决了"长视频"的问题,要么只解决了"大空间扩展"的问题,没有一个能同时把两个难题都搞定。
二、草图先行:全局粗略引导的设计思路
HL-OutPaint的核心武器,是一个叫做**全局粗略引导(Global Coarse Guidance,简称GCG)**的机制。回到装修的比喻:在动任何工具之前,先花时间画出整栋楼的简略草图——哪里是客厅,哪里是卧室,风格是北欧还是工业,色调是冷还是暖。这张草图不需要画得精细,但必须把整体格局确定下来。有了它,后续每个房间的装修都有了参照,自然不会出现前厅贴的是摩洛哥花砖而书房却挂满了日式木格窗的尴尬。
GCG的构建方式是这样的:首先,把整段视频在空间上缩小(降低分辨率),同时在时间上抽稀(只保留关键帧),得到一个又小又短的"压缩版视频"。然后,用人工智能对这个压缩版视频做扩图处理。因为分辨率低、帧数少,AI模型可以一次性"看到"整段视频的全貌,在它的注意力范围内同时考虑到第一帧和最后一帧,从而保证整体风格、光线、空间结构的一致性。这个低分辨率但全局一致的扩图结果,就是GCG。
这个设计的巧妙之处在于,它让AI在处理困难任务时先做了最重要的事情——确定大方向,而不是一头扎进细节里迷失方向。低分辨率意味着AI不用在每一根草叶的形状上纠结,只需要关心"这里是一片草地"这个大事实;关键帧抽稀则意味着AI能在有限的计算资源内,把整段几分钟的视频压缩成几十帧来一起思考,不会只盯着局部窗口而忽视整体。
三、本地窗口弥补细节:全局与局部的双向交流
然而,仅有粗略草图还不够。压缩带来了便利,也带来了损失。当关键帧之间的时间跨度很大时,两帧之间发生的许多局部细节就消失了。考虑这样一个场景:视频里有一辆车从左边驶入画面,在第10帧时刚刚进入,在第50帧时已经完全驶出。如果关键帧只有第1帧和第100帧,那么整个车辆出现和消失的过程对AI来说完全是黑盒。AI在对第1帧和第100帧做扩图时,根本不知道中间有辆车经过,可能凭空编造出完全不同的内容,导致补出来的内容与真实情况不符。
为了弥补这个缺陷,研究团队设计了一个极具创意的机制——**全局-局部帧交换(Global-Local Frame Swapping)**。
具体来说,对于每一个关键帧,研究者在它附近额外抽取一小段密集的帧,称为"局部时间窗口"。这个窗口里的帧间隔很小,能捕捉到关键帧附近发生的细节变化。然后,在AI进行扩图的推理过程中(专业上叫"去噪步骤"),在早期的若干步骤里,研究者会让关键帧和它对应的局部窗口进行信息交换:把局部窗口里同一时刻帧的中间状态"借"给关键帧参考,让关键帧能感知到自己周围发生了什么。
换用装修的比喻来说:全局草图负责确定整栋楼的大格局,但每个房间的装修工人在开工前,还会去邻居家参观一圈,看看隔壁用了什么颜色、什么材质,确保不会出现大方向一致但细节格格不入的问题。这种双向信息流动,让全局关键帧既能保持整体一致性,又能吸收局部细节,避免"脑补"出与实际不符的内容。
实验中,研究者专门做了对比测试。以一段包含路边交通标志的视频为例:没有全局-局部帧交换时,关键帧只能看到标志被截断的一角,AI只好自己发挥想象力,编了一个形状完全不同的标志;而在相邻的局部帧里,完整的箭头形标志清晰可见。加入帧交换后,关键帧从局部窗口里获得了正确的参考,扩图结果与真实的标志形状完全吻合,前后帧不再出现结构跳变。定量测试也验证了这一点,加入帧交换后,多项评估指标(包括画质评分、时间一致性等)都有明显提升。
四、多尺度迭代细化:应对超长视频
对于特别长的视频,一轮GCG构建还不够用。假设视频有1000帧,第一轮只抽取了均匀分布的13个关键帧,那么相邻两个关键帧之间可能间隔近80帧。就算AI能处理好这13帧,两帧之间的长段视频补起来依然风险巨大,因为中间发生的事情太多,80帧间隔中可能有整个场景的切换。
研究团队的解决方案是**多尺度迭代细化**:第一轮GCG完成后,在每两个相邻关键帧的正中间,插入新的中间帧,让原来的关键帧集合密度翻倍。然后以已有的关键帧作为参考,对新插入的中间帧重新做一轮扩图。这个过程不断重复,直到相邻关键帧之间的间距小于一个预设阈值(研究中设为20帧)为止。
这就像是给装修草图不断增加细节:第一版草图只画了房间的轮廓,第二版在每面墙上标注了大致的装饰风格,第三版进一步标出了每块区域用什么材料……每一轮都在上一轮的基础上精化,而不是从头开始,因此效率很高,且越来越精确。
五、高分辨率精细化:让草图变为真画
有了全局粗略引导之后,HL-OutPaint进入第二大阶段:**GCG引导的视频外推**。这个阶段分为两个步骤。
第一步叫**时间补全**:以GCG中的关键帧作为锚点,在低分辨率下对整段视频的所有帧进行补全。凡是在GCG里已经处理好的关键帧,就直接用它作为参考;其他帧则在这些参考帧的约束下,用AI生成出来。为了处理视频帧数超出AI单次处理能力的情况,视频被切成若干有重叠的时间段,分段处理后在重叠区域做平滑融合,就像瓦片屋顶的叠压方式一样,确保接缝处没有突兀的断层。
第二步叫**空间精化**:经过时间补全后,得到了一段低分辨率的完整视频。然后,通过双三次插值(一种常用的图像放大算法)把它放大到目标分辨率,再给放大后的画面注入少量随机噪声,让AI从这个"带噪声的放大图"出发,重新精细化高频细节。这一步的灵感来自一种叫做SDEdit的技术——先轻微"弄乱"一张已有的图,再让AI来"修复",修复的过程中AI会自然地补充清晰的细节,而不会随意改变整体结构。在精化过程中,原始输入视频中已知的区域(也就是本来就有的画面)始终作为参考,确保扩图区域与原始内容协调一致。
同样地,由于高分辨率视频的尺寸和长度超出了AI单次处理的上限,这一步也采用了时空分块处理、重叠区域融合的策略。
六、技术实现细节:如何训练出这样的AI
研究团队以目前最先进的视频生成模型Wan2.2-14B-I2V为基础,采用一种叫做LoRA(低秩适配)的高效微调方式对其进行定制化训练,而不是从头训练一个全新的模型。LoRA的好处在于,它不改动原模型绝大多数的参数,只在特定位置插入少量可训练的"适配层",就像给一位经验丰富的工匠配备了几件针对特定任务的专用工具,而不需要重新培训这位工匠的全部技能。
研究者训练了两个独立的LoRA模块,分别对应GCG构建阶段和GCG引导外推阶段,因为这两个阶段对AI的要求不同:前者处理时间上稀疏的关键帧(帧与帧之间间隔大),后者处理时间上密集的完整视频序列(正常帧率)。训练数据来自约17000个来自OpenVid-1M数据集的视频,以及270个来自REDS数据集的动态场景视频。训练时,会随机在视频四个方向(上、下、左、右)施加遮罩,让模型学会在不同方向上做空间扩展。
在技术上,有一个值得关注的细节:HL-OutPaint所基于的3D视频变分自编码器(VAE),原本设计用于处理时间上连续、相关性强的帧序列,但GCG构建阶段输入的是时间上稀疏的关键帧,相邻帧之间内容差异可能很大。如果强行用标准的时空压缩方式处理,会导致不相关的帧被强制混合,信息严重失真。研究团队注意到,当只输入单帧时,VAE不会进行时间维度的压缩,利用这个性质,在GCG构建阶段对每帧独立进行空间压缩,再将结果在时间轴上拼接,从而绕开了这个潜在的问题。
七、实验结果:与同类方法的对比
研究团队在多个数据集上进行了系统评测,涵盖短视频(平均68帧)和长视频(平均481帧),以及不同的空间扩展比例。评测数据集包括广泛使用的DAVIS视频分割数据集(90个视频)、专门构建的DAVIS-20(更大空间扩展的挑战子集)、YouTube-VOS数据集,以及从Pexels平台收集的Long-Video(20个约500帧长视频)和Short-Form(9个竖版短视频)数据集。
评测指标涵盖了多个维度:PSNR和SSIM衡量扩图画面与参考画面的像素级相似度;FVD(弗雷歇视频距离)评估整体视频分布的质量;SC(主体一致性)和BC(背景一致性)通过测量每帧与第一帧及相邻帧之间的特征相似度来量化时间连贯性;AQ(美学质量)则评估单帧的视觉美感。
在大多数评估维度和数据集上,HL-OutPaint都取得了最优或次优的成绩。尤其在YouTube-VOS数据集(从256×256扩展到512×512)上,PSNR达到22.15,比排名第二的Infinite-Canvas高出5.44分,SSIM从0.592提升到0.821,FVD从1401降低到634,提升幅度极为显著。在长视频数据集上,HL-OutPaint同样全面领先,Short-Form数据集上的主体一致性达到0.920,远超VACE的0.900。
从视觉对比来看,M3DDM和MOTIA在大空间扩展时经常出现严重的视觉伪影和模糊;Infinite-Canvas和VACE虽然单帧质量较好,但在涉及场景遮挡和显露(比如一列火车驶过站台,暂时遮住背景再重新露出)的场景中,往往无法保证前后一致性——同一片区域在遮挡前后呈现出完全不同的外观。HL-OutPaint则能在这类挑战性场景中稳定地保持前后一致。
研究团队还进行了用户主观评测,招募20名参与者对10段随机视频进行评分。在视觉质量、时间一致性、主体质量和背景质量四个维度上,HL-OutPaint获得了压倒性的选择比例(93%到97%),而VACE仅有3%到5%的支持率,其余三个方法几乎未获得任何票数。
八、推理效率:意外惊喜
在计算效率方面,HL-OutPaint也有出乎意料的表现。在A100-80GB显卡上对一段500帧、720×1280分辨率的视频进行推理,HL-OutPaint只需要约105分钟,而排名第二的VACE需要143分钟,Infinite-Canvas需要285分钟,MOTIA需要161分钟,M3DDM则需要长达780分钟。HL-OutPaint不仅质量领先,速度也是最快的,这得益于其分层处理策略——低分辨率GCG构建阶段开销相对较小,而精细化阶段因为有了GCG的全局引导,可以更高效地收敛,不需要反复探索全局结构。
九、局限与未来方向
当然,HL-OutPaint也有自己的边界。首先,它不适合实时应用,因为所有帧是联合生成的,推理时间以分钟计,无法做到即时输出。其次,在极端情况下(比如要把一段视频从512×512扩展到5760×5760,也就是空间面积扩大100多倍),GCG构建时输入视频需要被压缩到非常低的分辨率(如768×768),原始信息损失严重。对于原始画面区域,后续精化阶段可以凭借原始帧作为参考来恢复细节;但对于扩图区域,没有任何原始参考可依赖,只能依赖GCG提供引导,而GCG本身分辨率很低,高频细节已经丢失,难以在精化阶段恢复,导致扩图区域可能出现模糊或过于平滑的问题。此外,对于极长视频,即便经过多尺度迭代,关键帧与局部窗口的覆盖也可能出现不完整的情况,使时间一致性面临挑战。不过,研究者也指出,这些极端情况在实际视频生产中并不常见。
说到底,HL-OutPaint做的事情,用一句话概括就是:先画草图,再精雕细琢,而且草图的绘制过程中还特别设计了机制,让"宏观视角"和"微观细节"互相借鉴、双向滋养。这种由粗到精、全局与局部协同工作的思路,不只是解决视频扩图问题的一个有效方案,也给更广泛的视频生成、视频编辑领域提供了新的思考框架。
从普通用户的角度来看,这项研究意味着,未来将竖版短视频转换为横版宽屏视频、为电视直播补全超宽屏画幅、对老旧视频素材进行格式适配等需求,都有望通过自动化的AI工具高质量地完成,而不再需要耗费大量人工时间。对于视频创作者、电视台、影视后期制作公司来说,这类技术的成熟会显著降低格式适配的成本和门槛。
对这篇研究感兴趣的读者,可以通过DOI: 10.1145/3799902.3811098查询完整论文,或在学术预印本平台上搜索arXiv:2605.17543查阅详细的技术报告和补充材料。
---
Q&A
Q1:HL-OutPaint中的全局粗略引导(GCG)是什么,为什么要先构建它?
A:GCG是对整段视频进行低分辨率、少关键帧压缩后做的扩图预处理结果,相当于整栋房子的装修草图。有了它,AI在后续精细化阶段就不会各帧各自为政,而是有了统一的全局参考,确保整段视频的空间结构和风格保持一致,不会出现前几帧是森林后几帧变成草地这种混乱情况。
Q2:全局-局部帧交换机制具体解决了什么问题?
A:当关键帧之间时间跨度很大时,AI对中间发生的局部细节一无所知,可能凭空编出与实际不符的内容。全局-局部帧交换通过在推理早期让关键帧与其周围的密集短窗口帧互相参考,把局部真实发生的细节"告诉"关键帧,让关键帧的扩图结果与周围帧保持结构上的一致,避免出现同一个物体在相邻帧里形状完全不同的问题。
Q3:HL-OutPaint与VACE相比,优势主要体现在哪里?
A:两者都基于先进的视频扩散模型,但VACE采用自回归接龙方式(用上一段的结尾生成下一段),误差会随时间积累,导致长视频前后不一致。HL-OutPaint则先构建全局引导再并行生成所有帧,不存在误差积累问题。在长视频测试中,HL-OutPaint的时间一致性指标和视觉质量普遍优于VACE,用户主观评测中的支持率也远高于VACE。
好文章,需要你的鼓励
腾讯混元提出CPPO方法,通过位置权重和累积前缀预算两个机制改进AI强化学习训练,在多个Qwen3模型的数学推理任务上超越现有方法,最大提升达5.56分。
PaperMentor是多伦多大学等机构联合开发的AI论文写作导师,通过12个专业智能体和40余份专家技能文件,在Overleaf中为科研人员提供行内批注式的写作建议。
论文揭示AI安全测试的"审计缺口":模型外表安全但内部可能脆弱,并提出潜在脆弱性分数(LVS)量化内部风险。
这项研究提出ICMIL框架,让AI通过在合成数据上预训练,无需针对新任务重新训练即可完成多示例学习分类,在十二个基准上超越需要调参的监督方法。