微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

新加坡国立大学团队推出Kiwi-Edit：让视频编辑像拼积木一样简单，仅凭一张图片就能精准操控整个视频

视频编辑多模态学习开源数据集

新加坡国立大学团队推出Kiwi-Edit：让视频编辑像拼积木一样简单，仅凭一张图片就能精准操控整个视频

作者：科技行者

2026-03-04 15:02

分享至：

新加坡国立大学团队发布Kiwi-Edit视频编辑系统，创新性地结合文字指令和参考图片进行精准视频编辑。研究构建了包含47.7万样本的RefVIE数据集，通过多阶段训练实现专业级编辑效果。系统在多项基准测试中超越现有开源方法，为视频编辑技术的普及化应用奠定重要基础。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-04 15:02 • 科技行者

这项由新加坡国立大学Show Lab团队领导的创新研究于2026年3月发表，研究编号为arXiv:2603.02175v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。

当我们想要编辑一段视频时，往往需要借助复杂的专业软件，花费大量时间学习各种工具和技巧。更困难的是，当你想让视频中的某个人物穿上特定款式的衣服，或者把背景换成你心目中的理想场景时，仅仅用语言描述往往难以准确传达你的想法。就像你去理发店，光说"剪短一点"往往得不到满意的结果，最好的办法是拿一张照片给理发师看。视频编辑也面临着同样的困境。

新加坡国立大学的研究团队就像是给视频编辑行业带来了一位贴心的翻译官。他们开发的Kiwi-Edit系统，能够理解你的文字描述，同时参考你提供的图片，然后像一位经验丰富的视频制作师一样，精准地按照你的意图编辑视频。这就好比你不仅能告诉理发师"我想要短发"，还能同时给他看一张明星的发型照片，让他完全明白你想要的效果。

研究团队发现了当前视频编辑技术的一个关键痛点：现有的方法主要依赖文字指令，但文字在描述复杂视觉细节时存在天然局限性。当你想要替换视频中的某个物体时，说"换成一辆红色跑车"和"换成一辆法拉利488 GTB"虽然都是红色跑车，但视觉效果却可能天差地别。更不用说那些难以用语言准确描述的纹理、风格或者具体形状了。

为了解决这个问题，研究团队构建了一个名为RefVIE的大规模数据集，包含了47.7万个高质量的四元组训练样本。每个样本都包含源视频、编辑指令、参考图片和目标视频四个要素。这就像是为人工智能准备了一本巨大的视频编辑教科书，里面不仅有文字说明，还配有丰富的图片示例。

研究团队的数据构建过程就像是一个精密的流水线工厂。他们首先从现有的大型视频编辑数据集中收集了370万个原始样本，然后通过四个精心设计的过滤阶段，最终筛选出47.7万个高质量样本。这个过程就像淘金一样，从大量的原料中提取出最有价值的部分。

一、数据生成：从无到有的智能制造过程

整个数据构建过程就像一个智能化的内容工厂，将原本零散的视频编辑材料组装成完整的训练套餐。研究团队从三个主要的开源数据集开始收集原材料，包括Ditto-1M、ReCo和OpenVE-3M，这些就像是工厂的原材料仓库。

第一个关键步骤是质量筛选，就像质检员检查产品一样。研究团队使用EditScore这个评估工具，为每个样本打分。他们发现，只有得分在6分以上的样本才适合用于基础的文字指导训练，而对于需要参考图片的复杂编辑任务，他们将标准提高到8分以上。同时，他们专门选择了两类最能从视觉参考中获益的任务：局部修改和背景替换。

接下来是定位和分割阶段，这就像外科医生精确定位手术部位一样。研究团队使用了Qwen3-VL-32B这个先进的视觉语言模型来理解编辑指令，并在视频的第一帧中精确定位需要编辑的区域。对于背景更换任务，模型会定位前景物体，以便后续将其移除，只保留新背景作为参考。对于局部编辑，模型会定位被编辑的物体，将其提取作为参考。这些粗略的边界框坐标随后由SAM3系统精细化，生成像素级的精确分割蒙版。

参考图片生成阶段是整个流水线的核心创新。研究团队巧妙地利用了Qwen-Image-Edit-2511这个图像编辑工具。对于背景任务，他们提取并移除前景物体，然后对该区域进行修复，生成干净的背景图像作为参考。对于局部编辑，他们提取目标物体并将其放置在干净的背景上，创建一个紧密裁剪的参考图，突出显示编辑物体的外观。这个过程就像是为每个编辑任务定制一个完美的"样品展示"。

最后是质量控制和后处理阶段，确保最终产品的高质量。研究团队使用多模态大语言模型验证合成的参考图像是否与目标视频中的编辑内容保持一致，过滤掉低保真度的生成结果。同时，他们提取参考图像的CLIP特征并执行全局去重，防止数据泄露和冗余。这个严格的流程将最初的370万个样本精炼为47.7万个高质量的指令-参考-视频四元组。

二、技术架构：搭建智能视频编辑的桥梁

Kiwi-Edit的技术架构就像一个精心设计的翻译和执行系统，能够理解人类的多模态指令并将其转化为具体的视频编辑操作。整个系统由两个主要组件构成：负责理解的多模态大语言模型和负责生成的扩散变换器。

多模态大语言模型充当系统的"大脑"，负责理解和处理来自不同渠道的信息。研究团队选择了Qwen2.5-VL-3B作为基础模型，这个模型能够同时处理源视频帧、文字编辑指令和可选的参考图像。为了避免破坏预训练的知识，基础模型的权重保持冻结状态，研究团队只是注入了轻量级的LoRA（低秩适应）模块来适应视频编辑领域。

这个"大脑"处理信息的方式很有趣，它处理一个交错序列，包含源视频帧、文本编辑指令和可选的参考图像。从输出中，研究团队通过两个专门的通道提取条件特征。第一个通道叫做查询连接器，使用一组可学习的查询tokens来提取编辑意图。根据任务的复杂程度，这些查询tokens的数量会有所不同：图像任务使用256个，视频编辑使用512个，参考引导任务使用768个。这些查询tokens通过一个多层感知器投影，以与扩散变换器的维度对齐。

第二个通道是潜在连接器，专门处理需要具体视觉引导的任务。当任务需要参考特定视觉样例时，这个连接器会提取参考图像对应的视觉tokens，通过另一个独立的投影器进行处理。这两个连接器的输出被连接起来，形成统一的上下文tokens序列，作为扩散变换器交叉注意力层的键值对，引导生成的语义内容。

在结构条件控制方面，研究团队发现单纯的交叉注意力机制不足以进行精细的空间保持。因此，他们引入了一种混合注入策略。对于源视频控制，他们采用逐元素注入的方式。源帧通过VAE编码到潜在空间，这些潜在表示由零初始化的PatchEmbed层处理。关键的创新在于，他们不是简单地连接这些特征，而是将它们逐元素地添加到噪声潜在表示中，并且这个加法操作由一个可学习的、时间步长依赖的标量调制。

这种设计的巧妙之处在于时间步长缩放的引入。在扩散过程的不同阶段，源视频信息的重要性会有所不同。在早期去噪阶段，可能需要更多地依赖源视频的结构信息，而在后期精细化阶段，则可能需要更多地关注语义引导。这个可学习的标量能够自动调整这种平衡。

对于参考图像控制，研究团队采用了序列连接的策略。参考图像被patch化并连接到扩散变换器的输入序列中，这有效地扩展了空间-时间注意力窗口，允许模型直接从参考图像"复制"纹理细节。这种设计让模型能够精确地将参考图像中的视觉特征转移到生成的视频中。

训练目标采用了流匹配框架，这是一种相对较新的生成模型训练方法。与传统的扩散模型不同，流匹配通过最小化预测速度场和真实漂移之间的均方误差来训练模型。这种方法在实践中通常能够获得更稳定的训练过程和更好的生成质量。

三、分阶段训练：从入门到精通的学习之路

Kiwi-Edit的训练过程就像培养一个视频编辑师从新手到专家的完整历程。研究团队精心设计了三个循序渐进的训练阶段，每个阶段都有明确的学习目标和训练重点。

第一阶段是基础对齐训练，就像新员工的入职培训一样。在这个阶段，研究团队冻结了多模态大语言模型和扩散变换器的主干网络，只训练连接两者的桥梁组件。这些组件包括LoRA适配器、查询连接器、潜在连接器以及可学习的查询tokens。这个阶段使用基于文本的编辑三元组，重点建立语义映射关系，确保连接器能够将大语言模型的表示转换为扩散变换器能够理解的格式。

这个阶段的训练数据专门来自高质量的图像编辑任务，包括GPT-Image-Edit和NHR-Edit数据集。选择图像编辑作为起点是有深层考虑的：图像编辑任务相对简单，能够让模型快速学会基础的语义空间对齐，同时避免了视频编辑的复杂时间动态。这就像学习绘画时先从静物素描开始，掌握基本技法后再进阶到动态场景。

第二阶段是指令调优训练，模型开始学习真正的视频编辑技能。在这个阶段，扩散变换器的层级被解冻，允许联合优化。模型继续在基于文本的编辑三元组上训练，但训练数据扩展到包含大规模的指令图像和视频编辑数据集。这个阶段的核心目标是学习通用的编辑基元，比如物体移除、风格转换等基础操作。

为了提高训练效率，研究团队采用了分辨率课程学习策略。训练从低分辨率片段开始，然后逐渐扩展到更高分辨率。具体来说，他们先在480p分辨率上训练，然后进阶到720p。这种策略不仅能够加速训练过程，还能让模型更好地学习从粗糙到精细的特征层次。

第三阶段是参考引导微调，这是整个训练过程的精华部分。在这个最终阶段，研究团队引入了精心策划的RefVIE数据集，解锁模型的精确视觉控制能力。训练数据变成了指令编辑数据和新的参考引导四元组的混合，比例经过精心调试。这个阶段refined模型利用参考tokens进行精细纹理传输的能力，确保生成内容能够与用户提供的视觉样例对齐。

整个训练过程中，研究团队将从视频采样的最大帧数设置为81帧，这在计算资源和时间建模能力之间取得了很好的平衡。全局批处理大小设置为128，学习率设置为2×10^-5，这些超参数都是经过大量实验验证的最优配置。

在第二阶段，图像和指令视频数据以1:1的比例混合采样，训练过程分两个子阶段进行：首先在360K像素分辨率上训练，然后在960K像素上训练，每个子阶段持续10K步。第三阶段的数据混合更加复杂，图像数据、指令视频数据和参考引导视频数据按照2:1:1的比例混合，总训练步数为10K步。

这种渐进式的训练策略确保了模型能够稳定地掌握从基础语义理解到高级视觉控制的完整技能谱系。每个阶段都建立在前一阶段的基础上，避免了直接训练复杂任务可能导致的不稳定性和性能瓶颈。

四、评估体系：全方位检验编辑质量

为了全面评估Kiwi-Edit的性能，研究团队建立了一套综合性的评估体系，就像为视频编辑效果设计了一系列严格的考试。这个评估体系不仅要检验模型在现有基准测试上的表现，还要专门评估参考引导编辑这一全新能力。

研究团队首先在OpenVE-Benchmark这个权威的指令视频编辑基准上进行了全面测试。这个基准包含了五个主要的编辑类别：整体风格变换、背景更换、局部更改、局部移除和局部添加。评估使用了Gemini-2.5-Pro作为自动判评器，这是一个先进的多模态大语言模型，能够像专业的视频编辑师一样评判编辑质量。

在这个基准测试中，Kiwi-Edit取得了令人瞩目的成绩。总体得分达到3.02分（满分5分），显著超过了之前最好的开源模型OpenVE-Edit的2.50分。特别值得注意的是，在背景更换任务上，Kiwi-Edit获得了3.84分的高分，甚至超过了商业模型Runway Aleph的2.62分。当推理分辨率提升到1280×704并应用训练课程时，性能在所有指标上都获得了持续提升。

不过，研究团队也发现了一个有趣的现象：第三阶段的参考引导训练提高了局部编辑性能，但略微降低了背景更换性能。他们将这种现象归因于数据集中局部更改样本的偏向性。这个发现提醒我们，即使是最先进的模型也需要在不同任务之间进行平衡和权衡。

更重要的创新是RefVIE-Bench的建立，这是专门为参考引导视频编辑设计的全新评估基准。这个基准包含110个手工验证的三元组，涵盖主题参考（70个样本）和背景替换（40个样本）两个主要类别。与自动生成的训练数据不同，这些基准样本经过了严格的三阶段人工验证过程，确保了质量和多样性。

评估指标的设计也很巧妙。对于主题参考任务，评估涵盖身份一致性、时间保真度和物理整合三个维度。身份一致性检查生成的对象是否与参考图像在纹理、结构和风格上保持一致。时间保真度评估对象在不同帧之间是否保持稳定的形状和纹理细节。物理整合则检查对象是否正确地与场景进行交互，包括运动跟踪、阴影、反射和遮挡处理。

对于背景替换任务，评估标准调整为参考保真度、抠图质量和视觉和谐性。参考保真度检查生成的背景是否忠实地再现了参考图像的结构和风格。抠图质量评估前景主体的边缘处理和时间稳定性。视觉和谐性则考察前景和背景之间的光照、色彩和深度是否自然协调。

为了确保评估的逻辑一致性，研究团队设计了分层约束机制，即时间和物理得分不能超过主要身份得分。这种设计防止了模型获得高时间稳定性分数但语义错误的情况。

在RefVIE-Bench上的测试结果显示，Kiwi-Edit达到了3.31的整体得分，略微超过了商业模型Runway Aleph的3.29分。在身份一致性方面获得了3.98分，在参考相似性方面获得了3.72分，表现出了强大的视觉参考遵循能力。虽然商业模型Kling-O1取得了更高的绝对分数，但考虑到其显著更大的参数规模和封闭源代码的训练语料库，Kiwi-Edit为开源参考引导视频编辑建立了一个强有力的基线。

五、实验验证：从理论到实践的完整验证

研究团队通过大量的实验验证了Kiwi-Edit在各个方面的性能表现。这些实验就像是对产品进行的全方位压力测试，确保在各种使用场景下都能提供稳定可靠的服务。

在指令编辑能力的验证中，研究团队将Kiwi-Edit与多个开源模型进行了对比，包括VACE、OmniVideo、InsViE、ICVE、Lucy-Edit和DITTO，同时也与商业模型Runway Aleph进行了比较。测试结果显示，Kiwi-Edit在几乎所有评估维度上都取得了开源模型中的最佳表现。

特别值得关注的是模型在不同分辨率下的表现差异。当推理分辨率从720×480提升到1280×704时，模型的整体性能从2.98分提升到3.02分，显示出分辨率提升对编辑质量的积极影响。同时，训练课程的应用也带来了持续的性能提升，证明了分阶段训练策略的有效性。

在参考引导编辑的验证中，研究团队将重点放在与领先商业模型的比较上。与Runway Aleph和Kling-O1的对比显示，Kiwi-Edit在开源模型中建立了强有力的基准。虽然在某些指标上仍有改进空间，但考虑到开源模型在资源和数据方面的限制，这样的表现已经相当出色。

定性结果展示了模型在不同编辑任务上的视觉表现。在指令遵循方面，模型能够准确捕捉源视频和参考图像的视觉语义。例如，它能够正确定位帽子的添加位置和桌子的替换区域。在参考一致性方面，模型在剧烈的背景风格变化过程中仍能保持高度的主题一致性，这在红色边界框标注的比较中得到了清楚的体现。

六、深入分析：探究模型设计的关键要素

为了更好地理解模型的工作机制，研究团队进行了详细的消融实验，就像拆解一台精密机器来研究每个零件的作用。这些实验揭示了设计选择背后的深层原理。

在条件设计的分析中，研究团队比较了不同的源视频输入调节策略。实验结果显示，通道连接的表现很差，而共享patch嵌入会显著降低结果质量，得分降至1.01，证明了独立特征提取的必要性。带有时间步长缩放的加法配置表现最佳，在移除任务上获得2.63分，在风格任务上获得4.07分，超过了基线配置。

时间步长缩放的重要性通过对比实验得到了证实。移除这个组件会导致模型忽略详细的源结构，而用通道连接替代加法操作则会降低编辑能力。这说明了设计选择的精妙之处：看似简单的技术细节往往包含着深层的理论考量。

训练课程的有效性通过系统性的消融验证得到确认。首先，跳过对齐阶段会导致灾难性的性能下降，证实了在多模态大语言模型和扩散变换器之间建立粗略语义映射是有效指令遵循的先决条件。其次，排除图像协同训练会降低结构任务的性能，移除任务得分从2.84降至2.58，表明虽然纯视频训练可以达到较高的风格得分4.07，但缺乏图像编辑数据集提供的精细空间监督，这对复杂局部操作至关重要。

参考条件设计的分析揭示了双连接器架构的价值。仅依赖可学习指令查询的基线得分为3.20，虽然查询能有效捕获高层编辑意图，但往往难以保留精细的视觉细节。通过潜在连接器引入参考潜在特征，明确地将参考图像的密集语义先验注入到上下文中，使得分数提升至3.30。这证明了稀疏指令查询与密集视觉潜在表示的结合对于实现高保真参考遵循的重要性。

架构选择的分析显示了查询和参考潜在特征的协同效应。单独使用查询连接器的得分为3.20，而添加参考潜在连接器后得分提升至3.30，证明了多模态条件输入的价值。这种设计能够同时处理高层语义指令和低层视觉细节，为精确的参考引导编辑提供了完整的信息基础。

通过这些深入的分析，研究团队不仅验证了模型设计的合理性，还为未来的研究提供了宝贵的经验和洞察。每个设计选择都经过了严格的实验验证，确保了最终系统的稳定性和有效性。

这项研究代表了视频编辑技术发展的重要里程碑。通过巧妙的数据构建策略、精心设计的模型架构和系统性的训练方法，研究团队成功地解决了参考引导视频编辑这一长期存在的技术挑战。更重要的是，他们将所有的数据集、模型和代码都开源发布，为整个研究社区提供了宝贵的资源。

随着Kiwi-Edit的发布，我们可以期待视频编辑工具变得更加智能和易用。普通用户将能够通过简单的文字描述配合参考图片，就能获得专业级别的视频编辑效果。这不仅会降低视频创作的门槛，还可能催生出全新的创意表达方式和商业应用。从社交媒体内容创作到影视后期制作，从教育培训到广告营销，这项技术的影响将是深远而广泛的。

说到底，Kiwi-Edit代表的不仅仅是一个技术突破，更是人机交互方式的一次重要进步。它让我们离"所想即所得"的创作体验更近了一步，真正实现了用最自然的方式表达创意想法。随着技术的不断完善和普及，我们有理由相信，未来的视频编辑会像现在的拍照一样简单普及，成为每个人都能轻松掌握的创作技能。

Q&A

Q1：什么是RefVIE数据集？

A：RefVIE是新加坡国立大学团队构建的大规模视频编辑数据集，包含47.7万个高质量的四元组样本。每个样本都包含源视频、编辑指令、参考图片和目标视频四个要素，是目前首个大规模开源的参考引导视频编辑资源。

Q2：Kiwi-Edit和传统视频编辑软件有什么区别？

A：传统视频编辑软件需要用户手动操作各种复杂工具，而Kiwi-Edit只需要用户提供文字描述和参考图片，就能自动完成专业级的视频编辑。就像从手工制作到智能制造的升级，大大降低了视频编辑的技术门槛。

Q3：普通人如何使用Kiwi-Edit技术？

A：目前研究团队已经开源了所有代码和模型，开发者可以基于这些资源开发用户友好的应用程序。未来可能会有基于Kiwi-Edit技术的在线工具或移动应用，让普通用户也能轻松体验参考引导的视频编辑功能。

视频编辑多模态学习开源数据集

分享至