
这项由香港科技大学(广州)主导、联合亚利桑那大学参与的研究,发表于2026年第43届国际机器学习大会(ICML 2026,Seoul, South Korea,PMLR 306),论文编号为arXiv:2605.04569,有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。
你有没有想过,用人工智能来给视频换个风格、把视频里的狗换成猫,或者把背景从沙漠变成海边,这些功能是如何实现的?现在的AI视频编辑技术确实越来越强大,但有一个让工程师们头疼的问题一直没有被很好地解决:算力。视频编辑用的AI模型在处理信息时,需要让每一帧画面的每一个像素块都去"认识"其他所有像素块,这个过程叫做注意力计算,而它的计算量随着视频长度增加会以平方倍速急剧膨胀——视频长度翻倍,计算量就变成原来的四倍。这还没完,新一代视频编辑用的是"情境学习"框架,也就是要同时处理两段视频:一段原视频,一段参考视频(告诉AI你想要什么效果)。两段视频加在一起,计算量直接翻了四倍。
正是在这个背景下,来自香港科技大学(广州)的研究团队提出了一套全新的解决方案,他们将其命名为**ISA(In-context Sparse Attention,情境稀疏注意力)**,并在此基础上搭建了一个完整的视频编辑系统**LIVEditor**。这套系统最令人称道的地方在于:注意力模块的计算延迟减少了约60%,但编辑效果不仅没有下降,在多个权威测试基准上反而比原本的"全力计算"版本还要好。这篇文章将带你从头到尾彻底弄懂这项研究的来龙去脉。
一、注意力计算:AI视频编辑的"交通大堵塞"
要理解这项研究解决的问题,先得理解视频AI里的"注意力机制"是什么。
以一段视频为例,AI在处理这段视频时,会把它拆成一个个小方块(像乐高积木一样),每个小方块都需要去了解其他所有小方块的信息,这样AI才能理解整个画面的内容和动态。这个"互相了解"的过程就是注意力计算。当视频有5000个小方块时,计算量还勉强可以接受;但当视频有50000个小方块时(对应高分辨率或长视频),计算量就像一座城市的所有人同时给其他所有人打电话,立刻造成"通信网络崩溃"。
在视频编辑的情境学习框架里,问题更加棘手。情境学习要求AI同时处理"原视频"(研究团队称之为源序列)和"参考视频"(称之为情境序列),两段视频的所有小方块都要互相认识,总规模直接翻倍,计算量变成了原来的四倍。之前大多数试图优化注意力计算的方法,都是针对普通视频生成任务设计的,根本没有考虑到情境学习这种"两段视频同时处理"的特殊结构,自然也无法充分利用这种结构来做针对性的优化。
研究团队意识到,这个特殊的结构里藏着一个关键线索:原视频和参考视频的小方块,对最终计算结果的"贡献"并不相同。这个发现,是整个ISA方案的起点。
二、一个关键发现:参考视频的大多数方块,其实是"冗余的"
研究团队首先做了一件看似简单却非常有价值的事:把AI在进行注意力计算时的"注意力分布图"画出来看看。
这张图(论文中的图4和图5)揭示了一个清晰的规律:当AI处理原视频的方块时,它绝大部分的"注意力"都集中在原视频的其他方块上,对参考视频方块的关注程度要低得多。而且,越是靠近网络深层的计算层,这种差距越明显。
用一个类比来说,就好像你在一家餐厅点菜,菜单(参考视频)给了你灵感,但你真正仔细研究的还是眼前的食材(原视频)。菜单上的大部分内容你其实扫了一眼就够了,只需要记住其中几个关键菜品即可。
这意味着参考视频中有大量的小方块是"冗余的"——它们对计算结果几乎没有贡献。如果能智能地找出真正重要的参考视频方块,保留它们,丢掉其余的,计算量就能大幅减少而效果基本不变。但这只解决了问题的一半:即使筛选完参考视频的方块,原视频自身的计算仍然庞大。这就引出了ISA的第二个核心机制。
三、"查询锐度"理论:如何决定哪些计算需要精确,哪些可以近似
研究团队在理论层面给出了一个优雅的答案,并用数学证明来支撑它。
在注意力计算中,每个小方块都会发出一个"查询"信号(Query),去询问其他方块:"你跟我有多相关?"当一个小方块发出的查询得到的回应极不均衡——比如有一个方块给出了90%的相关度,其余的只有一点点——这种状态叫做"查询锐度高"(Sharp Query),意思是这个方块对信息的需求非常挑剔,必须精确地找到那个最相关的方块。反之,如果一个小方块收到的回应比较均匀分散,这就是"查询锐度低"(Flat Query),它对信息的需求比较模糊,用个大概的平均值来代替精确计算,结果也差不多。
研究团队在论文的定理3.1中严格证明了:查询锐度越高,用近似计算代替精确计算所产生的误差就越大;查询锐度越低,近似计算的误差就越小。这个结论听起来有点绕,用一个具体情境来说就清晰多了:去超市购物,有些商品你非常在意品牌(比如某款特定的婴儿奶粉),这种情况下你必须精确地找到那个品牌,用近似的"差不多的奶粉"代替肯定不行——这就是"高锐度";而有些商品你随便买(比如纸巾),任何品牌都差不多,这时用"平均水平的纸巾"来代替完全可以接受——这就是"低锐度"。
研究团队还做了实验来验证这个理论(论文图6),确认了"查询锐度"确实跟近似误差有直接的正比关系。这个发现非常有价值,因为查询锐度很容易计算(在已有的粗粒度注意力计算中就能得到),而直接计算近似误差则代价高昂。于是,查询锐度就成了一个高效的"误差预警指标"。
四、ISA的完整工作流程:三管齐下的智能节省策略
理解了上述两个核心发现之后,ISA的具体设计就很自然了。整个流程分为几个紧密衔接的步骤,就像一条精心设计的流水线。
流水线的第一站叫做"块级压缩与粗粒度打分"。AI首先把所有的小方块按块分组,对每组计算一个平均代表,然后用这些"缩略版"的代表做一遍快速的低分辨率注意力计算。这一步的计算量极小,但能给出一张大致的"相关性地图",告诉系统哪些块跟哪些块关系密切。
第二站是"情境预选",专门处理参考视频的冗余问题。借助第一站得到的相关性地图,系统查看原视频的方块对参考视频各个方块的关注程度,只保留得分最高的那部分参考视频方块(由一个叫做"选择比例αs"的参数控制保留多少,默认保留12.5%),其余的参考视频方块直接丢弃。然后把筛选出的参考视频方块和完整的原视频方块拼接在一起,形成一个更短的新序列,用于后续精确计算。
第三站是"锐度感知的查询分组"。系统利用粗粒度注意力的结果,计算每个查询块的锐度值(具体用的是注意力权重分布的方差),然后按照锐度高低把所有查询块排序分组。锐度高的查询块被归为"Sharp组",锐度低的归为"Flat组"(由"平坦比例αf"参数控制,默认50%的查询块走Flat路线)。
第四站是"解耦计算",两组查询各走各的路。Sharp组的查询块走标准的FlashAttention精确计算通道,结果精确可靠。Flat组的查询块则走一条全新的"块级0阶泰勒稀疏注意力"通道,这是ISA最关键的技术创新。
五、"块级0阶泰勒稀疏注意力":用"平均替代"实现极速近似
这个长名字初看很唬人,但背后的逻辑其实相当直白,可以用一个购物场景来理解。
假设你要估算购物车里所有商品的总价。精确方法是把每件商品的价格逐一加起来。近似方法是:先数一下购物车里有多少件商品,然后随机估一个每件商品的平均价格,两者相乘得到总价估算。这个近似方法快得多,但有误差。
ISA的块级0阶泰勒稀疏注意力做的事情类似。对于那些与当前查询块不够相关的键值块(通过粗粒度相关性地图判断,由"非稀疏比例αns"参数控制,默认只有6.25%的块走精确通道),它不做完整的精确计算,而是用那个块的"平均代表"来代替整块的所有方块,用这个平均代表来近似整块的贡献。这样一来,原本需要对块内每个方块逐一计算的步骤(复杂度正比于块大小),变成了只需要对一个平均代表计算一次,计算量从每块O(LQ × LK × D)降低到O(LQ × D),节省的计算量与块大小成正比(默认块大小为32,即节省约32倍的块内计算量)。
研究团队还专门研究了1阶和2阶泰勒展开(更精确的近似方式),但发现它们很难在GPU上高效实现,额外的计算开销超过了精度提升带来的好处,因此最终选择了简单高效的0阶近似。整个算法用Triton(一种专门为GPU写高性能算子的编程语言)实现了完整的前向和反向传播,这意味着ISA不仅能用于推理加速,还能用于模型训练,让模型在训练时就适应这种稀疏计算方式。
从实测数据来看(论文图2),当序列长度从4096增长到131072时,ISA相对于标准PyTorch SDPA的速度提升越来越大。在序列长度为131072、头维度为128的情况下,标准SDPA耗时735毫秒,FlashAttention 2耗时199毫秒,而ISA只需要34毫秒左右,速度优势随着序列增长变得越来越显著。
六、LIVEditor:基于ISA构建的完整视频编辑系统
有了ISA这个高效的注意力机制,研究团队进一步搭建了一套完整的视频编辑系统LIVEditor,并在工程层面做了几个关键设计选择。
首先,LIVEditor的基础模型来自Wan 2.2(一个大规模视频生成预训练模型的高噪声分支),在此基础上进行了专门的视频编辑后训练。其次,为了解决原视频和参考视频长度不一致导致的位置编码混乱问题,研究团队引入了一种"解耦旋转位置编码"(Decoupled RoPE)策略:对原视频和参考视频的方块分别独立编码位置信息,参考视频的位置索引从0开始重新计数,而不是接着原视频的位置继续编号。这样可以防止模型因为两段视频长度不同而产生位置偏差,确保不论视频多长都能稳定工作。
训练过程分为两个阶段,就像厨师先用大量普通食材练手,再用精选食材做精品菜一样。第一阶段使用约170万条混合质量的视频编辑数据进行大规模预训练,学习广泛的编辑语义;第二阶段则用精心筛选的8.9万条高质量数据进行精细调优,提升视觉效果和指令跟随能力。训练使用了32块80GB显存的GPU,跨4个计算节点,采用序列并行和DeepSpeed ZeRO-3优化策略。
值得一提的是,研究团队还特意回避了一个容易出问题的数据配置:他们在训练时只让"AI生成的编辑图像"作为参考视频,让"真实图像"作为原视频,而不反过来。这是因为他们发现,如果让AI生成的图像作为"要被编辑的目标",模型容易产生失真的伪影。
七、1.7百万条数据从哪里来:一条全自动的数据生产流水线
视频编辑AI的训练需要海量的"配对数据"——也就是一对对的"编辑前视频"和"编辑后视频",并配有说明编辑内容的文字指令。这种数据在现实中极难获得,研究团队因此设计了一套全自动的数据合成流水线。
整个流程从原始视频出发,分四个阶段推进。第一阶段叫"指令准备":从原始视频中抽取第一帧作为参考图像,然后用大型多模态语言模型(主要是Gemini 2.5 Flash)来分析这张图,随机从一个编辑任务池里选一种任务类型(包括对象添加、对象移除、对象替换、对象风格化、整体风格迁移、动作编辑等),生成具体的编辑指令,比如"把草地上的狗换成一只猫"。
第二阶段叫"目标帧生成":把原始帧和编辑指令输入给Gemini 2.5 Image Preview,让它生成编辑后的目标帧图像。同时再用语言模型根据原视频的描述和目标帧的内容,生成一段描述目标视频应该是什么样子的文字提示。之后用HPSv2(人类偏好评分模型)、PickScore等多个质量评估工具对生成的目标帧进行筛选,淘汰质量不达标的。
第三阶段叫"目标视频生成":用研究团队内部的140亿参数文本-图像-视频扩散模型,以目标帧和文字提示为输入,生成完整的编辑后视频。为了保证原视频和目标视频的一致性(比如背景不能乱变、摄像机运动要一致),系统还用YOLO、GroundingDINO、SAM等视觉工具计算一致性分数进行再次筛选,并把原视频和目标视频并排拼接成一个画面,输入给语言模型做最终的一致性评判。对于含有人物的视频,为了保持姿势的自然性,系统额外使用了姿势引导的视频生成;对于不含人物的视频,则用注意力注入的方式保持运动一致性。
第四阶段叫"后处理与潜空间编码":对视频进行分辨率调整和帧率重采样,用语言模型生成最终的编辑指令文本,然后用VAE(变分自编码器)把视频压缩成用于模型训练的潜在表示,完成整个数据处理闭环。
除了自建数据,研究团队还整合了Ditto、LoVoRA、ReCo等公开数据集,第一阶段共约170万条,第二阶段精筛到8.9万条高质量样本。数据涵盖风格迁移(33.87%)、对象替换(21.94%)、对象添加(14.02%)、人物编辑(12.80%)、对象风格化(9.49%)、对象移除(6.79%)等多种类型。
八、实验结果:用数字说话的全面验证
研究团队在四个权威基准上全面评测了LIVEditor,分别是EditVerseBench、VIE-Bench、IVE-Bench和FiVE-Bench,每个基准侧重不同的评估维度。
在EditVerseBench上,这个基准包含100个真实世界视频,每个视频配两条编辑指令,共200对测试样本,覆盖20种不同编辑类别,既有横屏视频也有竖屏视频。LIVEditor(ISA版本)在所有指标上都超过了之前最好的方法。具体来说,在VLM(大型视觉语言模型)评估的质量指标上得了7.89分,文本对齐20.09分,时序一致性27.19分,编辑质量24.55分,均超越了此前最佳成绩(分别为7.65、20.07、27.14、24.32)。在PickScore(人类偏好评分)上,帧级别达到99.32,视频级别达到99.22,远超其他方法的最高纪录(98.56和98.44)。更令人印象深刻的是,ISA版本的表现甚至比同款模型的"全注意力"版本(未使用任何稀疏化)还要好,这意味着ISA的稀疏化设计不仅没有损失质量,反而带来了性能提升。
在与其他稀疏注意力机制的对比中(EditVerseBench上的测试),研究团队将ISA在无需重新训练的情况下直接应用到已训练好的全注意力模型上(训练无关模式),与Radial Attention、Sparge Attention、STA、SWA、VSA这五种方法进行比较。结果显示,ISA在所有VLM评估指标和PickScore指标上均显著领先所有竞争对手,同时实现了1.47倍的速度提升。相比之下,速度最快的STA(2.09倍提升)在编辑质量上几乎崩溃(从23.80分降到了4.82分),而其他方法的性能下降幅度也普遍明显。
在VIE-Bench上,LIVEditor(ISA)在对象添加、对象替换、对象移除、风格迁移、混合编辑五个子任务上全面处于领先。对象添加平均分8.84(第二名Omni-Video仅6.24),对象替换8.14(第二名Pika为7.41),风格迁移8.16(全面超越InsV2V和Omni-Video)。
在IVE-Bench的短视频子集测试中,LIVEditor(ISA)的综合总分达到0.67,与第一梯队并列第一,同时在视频质量的四个子指标(主观质量0.97、背景保留0.98、画面闪烁0.99、动作质量1.00)上全部排名第一,展现了ISA在去除噪声方块方面的附加效益。
在FiVE-Bench的精细化对象编辑测试中,ISA版本在刚性对象替换、非刚性对象替换、颜色修改、材质修改、对象添加等所有子任务上,几乎在每一项评估指标上都超过了全注意力版本,进一步佐证了ISA的性能提升效应。
九、超参数分析:三个旋钮决定速度与质量的平衡点
ISA的稀疏程度由三个超参数控制,研究团队通过大量消融实验分析了它们各自的影响。
选择比例αs控制从参考视频中保留多少比例的方块。实验显示,αs在0.1到0.5之间,模型性能先上升后下降,说明不是保留越多越好,也不是越少越好,适当的筛选能去除噪声,过度筛选则会损失有用信息。默认设置为0.125(保留12.5%的参考视频方块块)。
非稀疏比例αns控制有多少比例的键值对需要走精确计算通道(而非泰勒近似)。实验发现,视频质量和文本对齐指标在αns很小时反而有所上升,其他指标则先升后降,说明这个参数可以设得相当低。默认设置为0.0625(即只有6.25%的键值块走精确通道,其余93.75%走近似通道)。
平坦比例αf控制有多少查询块走泰勒近似通道(而非精确的FlashAttention)。这是ISA最敏感的超参数,实验表明当αf降低(即更多查询走近似通道)时,各项指标都会明显下降。因此,这个参数不能设得太低,默认值为0.5,即一半的查询走精确计算,一半走近似计算。
研究团队还测试了ISA与TeaCache(一种通过跳过冗余时间步来加速扩散模型的技术)的兼容性,发现两者可以叠加使用。当δ=0.10时,综合速度提升达到2.69倍,质量几乎没有损失;δ=0.20时速度可达4.87倍,质量有一定下滑但仍在可接受范围内。
此外,研究团队还测试了ISA在HunyuanVideo-1.5(另一个视频生成基础模型)上的迁移效果,使用针对Wan2.2调好的超参数直接应用,结果ISA仍然比全注意力基线更好,速度提升1.39倍,证明ISA具有良好的跨模型泛化能力。
归根结底,这项研究做的事情,是给视频编辑AI装上了一套更聪明的"注意力分配系统"。原来AI处理视频是"一视同仁、平等对待"所有信息,结果在大量不重要的信息上浪费了大量算力。ISA教会了AI"区别对待":把力气花在真正重要的地方(精确计算高锐度查询、保留高相关性参考方块),对不重要的地方用"差不多就行"的近似方式一带而过。结果是速度快了近60%,效果反而还更好了。
这对于视频创作者和普通用户而言意味着什么呢?从技术路径来看,未来的视频编辑软件如果采用类似的思路,在普通消费级硬件上实现实时或接近实时的高质量视频编辑并非遥不可及。当然,从实验室成果到实际产品还需要工程化落地,但这项研究至少证明了这个方向是可行的,而且可行得比很多人预期的更彻底。
如果你对这项研究感兴趣,可以通过arXiv:2605.04569获取完整论文,里面包含详细的数学证明、完整的算法伪代码和丰富的可视化实验结果,值得深入研读。
Q&A
Q1:ISA(情境稀疏注意力)是如何在减少计算量的同时保证甚至提升视频编辑效果的?
A:ISA通过两个机制实现了这一点。第一,它从参考视频中筛选掉大量低相关性的方块,只保留最关键的12.5%,去除了噪声信息的干扰;第二,它根据"查询锐度"把查询块分为两组,需要精确计算的用FlashAttention,不需要精确的用高效的平均近似代替。这种"智能分流"既节省了算力,又因为去除了无用噪声而反而提升了结果质量。
Q2:LIVEditor训练用的170万条视频编辑数据是从哪里来的,质量如何保证?
A:数据主要通过全自动合成流水线生成:先用Gemini等大型语言模型生成编辑指令,再用Gemini图像编辑生成目标帧,最后用内部视频扩散模型生成目标视频。整个过程通过HPSv2、PickScore、YOLO、SAM、DOVER等多个质量评估工具进行多轮筛选,还用视觉语言模型判断原视频和目标视频的一致性,保证最终入库数据的质量。
Q3:ISA和现有的其他稀疏注意力方法(比如STA、VSA)相比最大的区别是什么?
A:现有的稀疏注意力方法(如STA、SWA、VSA)主要是为普通视频生成设计的,没有考虑视频编辑中"原视频+参考视频"这种双流结构的特点。ISA则专门针对这种结构设计,引入了针对参考视频的预筛选机制和基于查询锐度的动态分组机制,因此在视频编辑任务上性能远超这些通用稀疏注意力方法,同时速度也更具竞争力。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。