这项由罗切斯特大学(University of Rochester)主导、联合MIT-IBM沃森人工智能实验室与英伟达的研究团队发布的工作,于2026年5月18日以预印本形式公开,论文编号为arXiv:2605.18748v1,感兴趣的读者可通过该编号在arXiv平台检索完整原文。
你有没有过这样的经历:脑子里有个很清晰的想法,想让别人帮你改一张图或剪一段视频,但说出来的话总是模模糊糊——"就是那种感觉"、"你懂的那种"、"反正要好看一点"。对面的人可能是设计师、剪辑师,或者今天越来越常见的AI工具,结果往往是:对方做出来的东西和你脑子里那个完全不一样。
视频编辑领域的AI在过去几年突飞猛进,但有一个根本问题始终没有被正视:这些工具假设你已经把需求整理好了。你得把参考图准备好,你得精确地告诉它"改哪里",你得提供一个边界分明的区域。可现实中,大多数人说的是"把这个换成那个奢侈品牌的围巾",而他们脑子里连那条围巾长什么样都需要去搜一搜。这就是Aurora这个项目要解决的核心问题。
Aurora是一个"能帮你把说不清楚的想法整理好、然后再执行"的视频编辑系统。它由两个部分协作完成工作:一个像智能助手一样理解并补全你想法的规划模块,以及一个真正负责生成和修改视频画面的扩散模型。这篇文章将带你一步一步拆解这套系统是怎么工作的,为什么它能比现有工具做得更好,以及研究团队为了让它更聪明付出了哪些努力。
---
一、问题从哪里来:AI视频编辑的"鸡同鸭讲"困境
先来理解一件事:现代的AI视频编辑模型,从技术上来说已经相当厉害了。它们可以接收文字说明、原始视频、参考图片,然后输出一段经过修改的视频。不管是换掉某个物体、改变整体风格、删掉某个人、还是加入一个新元素,很多模型已经能做到。
但这里有一个隐藏的前提条件:这些模型假设你已经把所有材料准备齐了。就像一个厨师,设备再好、技术再精湛,你至少得告诉他今天要做什么菜,还得把食材递给他。如果你只是说"做点好吃的,就那种感觉",他是无法开工的。
研究团队把这个问题归纳成两种"说不清楚"的类型。第一种叫做"视觉上的模糊"——你说的东西需要一张参考图,但你没提供。比如"把这个视频里的手机换成华为最新款",这句话说清楚了要换什么,但AI需要知道华为最新款长什么样。第二种叫做"语言上的模糊"——你对想要的效果只有一个隐约的方向描述。比如"让这段视频显得更有力量感",AI很难直接从这句话推断出具体要做什么操作。
这两种模糊在日常生活里极其普遍。研究团队做了一个很准确的比喻:现有的视频编辑AI相当于一个技术超强但完全不善沟通的执行者,它只会按字面意思走,一旦你的输入缺什么它就直接蒙猜或者出错。
---
二、Aurora的解法:在厨师和顾客之间加一个贴心的服务员
Aurora的核心思路是:在你和视频编辑AI之间,加一个智能的"翻译层"。这个翻译层负责把你说的那些半成品想法,整理成视频编辑AI真正需要的完整材料包。
整套系统的运作流程可以用一个点菜的比喻来理解。顾客(也就是你)走进餐厅说:"我想吃那个健康一点的、我上次吃过的那种沙拉,但换成我今天看到的那个网红版本。"服务员(Aurora的规划模块)听到之后,会先在脑子里理解你说的是什么,然后去菜单上查,去问问厨房今天有什么,最后给你端出来的是一张完整的点菜单,里面写清楚了食材、做法、摆盘要求。厨师(视频编辑的扩散模型)拿到这张清单,就能准确执行了。
具体来说,Aurora的规划模块(技术上叫做VLM智能体,即视觉语言模型智能体)会把你的原始请求转化成一份包含四个字段的"编辑计划"。第一个字段是"改写后的指令",也就是把你模糊的说法变成一句精确、模型友好的描述。第二个字段是"任务类型标签",用来告诉后面的视频模型这是一个替换操作、删除操作、风格转换还是添加操作。第三个字段是一个可选的"图片搜索查询词",当你的需求涉及某个具体的品牌、产品、艺术品或角色时,规划模块会自动去互联网搜索相关图片。第四个字段是一个可选的"遮罩描述词",当你的操作需要精确定位到视频中的某个区域时,规划模块会描述需要框选出哪个区域。
这四个字段分工明确,像是一套标准化的作战指令。当你说"把背景墙上的那幅画换成葛饰北斋的《神奈川冲浪里》",规划模块会识别出这是一个"替换"任务,然后立即去搜索《神奈川冲浪里》的高清图片,搜到之后让视频编辑模型参考这张图执行替换。当你说"把右边那个人从画面里去掉",规划模块会激活分割工具,自动圈出那个人所在的区域,然后把这个区域信息一起交给视频模型做修复填充。
---
三、规划模块的工作方式:一个学会了判断力的"助手"
知道这个规划模块做什么还不够,更值得聊的是它是怎么学会做这些判断的。毕竟,知道什么时候该搜图、什么时候该框区域、什么时候直接改写指令就够了,这本身就是一种需要学习的能力。
Aurora团队使用的规划模块底座是一个叫做Qwen3-VL-8B的开源视觉语言模型,然后在这个底座上进行了两个阶段的训练。
第一个阶段叫做"监督式微调",通俗来说就是给它看大量的"题目和标准答案"。研究团队准备了两万五千个规划样本,每个样本都包含一段原始视频、一个用户随意说出的粗糙请求,以及对应的那份完整四字段编辑计划。这些训练数据的生成方式很有意思——研究团队先收集了大量已经标注好的视频编辑对(原始视频加上精确指令加上编辑后视频),然后把那些精确的指令人为地"降级"成更日常、更口语化、更含糊的说法,以此模拟真实用户会怎么表达。比如一条精确指令"将画面左侧桌上的白色瓷碗替换为一个新鲜的绿色苹果",可能被降级成"换个苹果在那里"。模型的任务是从降级后的说法重新还原出那份完整的编辑计划。
除了规划训练,研究团队还另外准备了一万个样本专门用来训练"参考图片筛选"能力。当规划模块触发了图片搜索之后,搜索引擎会返回一批候选图片,但并不是每一张都合适。这一万个样本让模型学会了从候选图片中挑出最符合用户需求的那张,比如用户说"百胜客披萨盒",模型需要认出哪张图片上的披萨盒才是真正的百胜客品牌包装,而不是随便一个看起来像的。
第二个训练阶段叫做"偏好对齐",用的技术叫DPO(直接偏好优化),通俗理解就是给模型"纠纠坏习惯"。监督训练能让模型学会基本的规划动作,但有一些灰色地带它处理得不够好——这些边界案例正是DPO阶段重点关注的。研究团队整理了五类容易出错的情形。一是"本来在视频里就有的东西,不应该再去搜图"——比如视频里已经清楚地出现了一个可口可乐瓶,用户说"换掉这个可乐瓶",模型就不应该再额外搜索可口可乐的图片,因为参考已经现成在画面里了。二是"遮罩描述太模糊"的情形,比如"那个人"在多人场景里没办法精确定位,这种描述不适合触发遮罩工具。三是"不该搜图的任务非要搜图",比如"整体做成水墨画风格"这种全局风格转换根本不需要参考图,但模型如果没训练好可能还是会去搜。四是"改写指令时把用户的原始约束条件给丢了",比如用户说"换掉桌上那个蓝色的杯子,但保持旁边的花不动",改写后的指令里不能把"保持花不动"这个约束遗漏。五是"任务类型分错类",比如把"删除操作"分成了"替换操作"。针对每一类错误,研究团队构建了成对的"正确示范"和"错误示范",让模型通过对比学会区分。这批偏好数据共有一千八百对。
---
四、视频编辑模型:接收完整指令、精确执行的"厨师"
规划模块负责整理材料,真正执行视频修改任务的是Aurora的视频扩散模型(技术上叫做DiT,即扩散变换器)。这个模型以Wan2.2-TI2V-5B为基础改造而来,参数量约五十亿,能够处理最多八十一帧的视频。
这个视频模型有一个设计上的关键特点:它把所有类型的输入——改写后的文字指令、原始视频、参考图片、遮罩图像——统一放进同一套处理管道里,不为不同类型的输入单独开设处理分支。这个设计听起来简单,但实际上带来了很大的灵活性,因为它意味着同一套模型权重可以处理"只有文字描述"、"文字加参考图"、"文字加遮罩图"这些完全不同的输入组合,而不需要针对每种组合单独训练一个模型。
视频模型的内部工作有两条并行的通路。一条通路负责"理解":它把改写后的指令、从原始视频里抽取的若干帧画面、以及参考图片,全部喂给一个叫做Qwen3.5-4B的语言模型(注意,这个语言模型和规划模块用的那个不是同一个,两者完全独立、不共享权重),让这个语言模型生成一组"多模态上下文向量"——你可以把这个理解为"一份综合了文字、画面、参考图的浓缩理解摘要",这份摘要后续会通过注意力机制持续影响视频生成的每一步。另一条通路负责"执行":它把原始视频帧、参考图片、以及正在被一步步从随机噪声中恢复出来的目标视频帧,拼接成一个长序列,让视频模型在这个序列上做自注意力计算,从而让模型能够同时"看着原版"和"看着参考"来生成修改后的视频。
这里还有一个技术细节值得一提。在视频模型处理这个长序列时,原始视频帧和参考图片帧的"时间步"被设置为零,而正在被生成的目标视频帧的时间步则正常变化。"时间步"在扩散模型里代表的是当前帧的噪声程度,时间步为零意味着"这是一个已经完全清晰、确定的内容",而不断变化的时间步意味着"这是一个正在被逐步去噪、生成的内容"。通过这种方式,模型能清楚地区分哪些是固定的参考内容、哪些是需要它来生成的新内容,避免把两者混淆。
遮罩图像的处理方式也很简洁:研究团队没有为遮罩单独设计一个输入通道,而是把遮罩信息直接合成到一张图片上——比如原始视频帧叠加一个半透明的遮罩高亮区域——然后把这张合成图作为普通的参考图片输入。这样既统一了处理接口,也避免了模型结构的复杂化。
---
五、训练数据从哪里来:一个精心搭配的"食材库"
一套这样的系统要训练起来,需要的数据量是非常大的。Aurora的视频编辑模型完全基于开源数据集训练,没有使用任何私有数据。研究团队构建的训练数据分成三大类。
第一类是"图片编辑对",来源包括CrispEdit-2M、UltraEdit和TextEdit等数据集,共约二百三十九万个样本。这类数据帮助模型学习基础的"看懂文字指令然后修改图片"的能力,提供最广泛的指令跟随训练基础。
第二类是"指令式视频编辑对",来源包括ReCo、Ditto、OpenVE、EgoEdit、ROSE、EffectErase等多个视频编辑数据集,共约一百六十七万个样本。这类数据让模型学会如何在保留视频时序性的同时按照指令修改内容。研究团队对这些数据进行了严格筛选,使用Gemini Flash-Lite模型逐一评估每对数据的质量,检查指令是否与修改内容吻合、修改区域是否精准、运动是否一致、编辑是否真实可信。
第三类是"参考图引导的视频编辑对",来源包括OpenS2V、RefVIE、SpatialVID、ROSE和EffectErase等,共约六十一万个样本。这类数据专门教会模型如何参考一张外部图片来修改视频内容,对于Aurora的核心功能(把搜索到的参考图"插入"到视频中)至关重要。
其中有一个特别有创意的数据构建策略值得单独介绍。Ditto数据集里有这样一种情况:同一段原始视频分别被两种不同的操作指令修改过,从而产生了两个不同的编辑版本。研究团队想到,可以把这两个编辑版本互相配对——把其中一个编辑版本当作"新的原始视频",把另一个编辑版本当作"目标视频",然后让模型学习如何从第一个编辑版本出发、只修改它和第二个版本之间不同的地方,同时保持两者相同的地方不变。这种"复合任务"数据让模型练习了一种更细腻的局部编辑能力。这批数据最终筛选出了约六万五千对有效样本。
---
六、AgentEdit-Bench:一把专门衡量"处理模糊需求"能力的尺子
Aurora不仅带来了一个新的系统,还提出了一个新的测评基准,叫做AgentEdit-Bench。这个基准的设计出发点非常明确:现有的视频编辑测试基准,测的都是"当你把材料准备好了、指令写清楚了"的情况下模型能做多好。但没有一个基准专门测"当用户的需求本身就是模糊的"时候模型的表现。
AgentEdit-Bench共有一百五十个测试案例,分成五种编辑任务类型。第一种是"品牌或知名实体替换",比如把某个物品替换成某个真实品牌的产品。第二种是"品牌或知名实体添加",比如在视频画面里加入某个知名品牌的产品或logo。第三种是"品牌或知名实体的背景替换",比如把背景换成某个著名地点或场景。第四种是"局部删除",要求精确删掉指定的人或物,并合理修复背景。第五种是"推理式编辑",用户没有直接说要改什么,而是描述了一种效果或逻辑,需要模型先理解意图再执行,比如"把湖面变成能倒映云彩的镜子"。
所有一百五十段源视频都来自Pexels版权允许使用的素材库,所有编辑指令都经过设计,故意保留了"视觉模糊"或"语言模糊"的特征,模拟真实用户的说话方式。
评分由Gemini 2.5 Pro担任"裁判",对每个编辑结果从七个维度打分(非品牌相关任务只用前五个维度)。这七个维度依次是:指令是否被执行、修改区域是否精准、未修改区域是否被保留、视觉质量是否真实自然、时序是否稳定一致、品牌实体是否出现在画面里、品牌实体的外观是否与真实形象匹配。每个维度最高三分,品牌相关任务总分最高二十一分,非品牌任务总分最高十五分,最终统一换算成百分制报告。
删除类任务还有一个特别设置:如果模型没有把被删除的对象真正删掉,而是把它换成了别的什么东西,那么"指令执行"这一维度的得分上限就被强制压低到一分,以此防止模型用"偷换内容"的方式蒙混过关。
---
七、实验结果:数字说明的改善有多显著
Aurora在三个测评基准上进行了测试,结果呈现出一个清晰的图景。
在专门为模糊需求设计的AgentEdit-Bench上,如果Aurora的视频编辑模型单独运行(没有规划模块辅助,直接接收原始的模糊指令),它的综合得分是74.7分。加上规划模块之后,得分大幅跳升至87.9分,提升了13.2个百分点。作为对比,另外两个同类方法UniVideo和Kiwi-Edit在同样接受原始模糊指令(不借助规划模块)时,得分分别只有67.0分和69.7分。
规划模块的帮助在哪类任务上最明显?在三种涉及品牌或知名实体的编辑任务中,提升幅度最为突出。原因很直观:这类任务的原始指令里通常只是提到了一个品牌名称,但没有提供任何视觉参考,视频模型只能靠自己对文字的理解来猜那个品牌的外观,猜出来的东西往往只是"看起来像个logo"而不是真正准确的品牌视觉。规划模块搜来对应的参考图之后,视频模型就能精确参考真实的品牌视觉来执行替换或添加。
另一个值得关注的实验是"规划模块能否帮到别人的视频模型"。研究团队把Aurora的规划模块和UniVideo、Kiwi-Edit这两个第三方模型配对测试:对UniVideo,加入规划模块后得分从6.12提升到6.48(在EditVerse-Bench上);对Kiwi-Edit,在OpenVE-Bench上得分从3.02提升到3.29。这说明Aurora的规划模块不仅能帮自己的视频模型,对其他结构类似的视频编辑模型也有帮助,具有一定的通用性。
在已经充分提供好材料和指令的传统基准上,Aurora同样保持了竞争力。在EditVerse-Bench上,Aurora以7.61分位列所有开源方法第一,超过了Senorita-2M(6.54分)、Kiwi-Edit(7.00分)、UniVideo(6.12分)。与闭源商业系统Runway Aleph的7.17分相比,Aurora以开源模型身份基本持平甚至更优。在OpenVE-Bench上,Aurora得分3.38,同样是开源方法中的最高,仅略低于闭源的Runway Aleph(3.51分)。
值得补充的是:在这两个传统基准的测试中,Aurora的规划模块被设置为"只改写文字指令,不触发图片搜索和遮罩工具",因为这些基准已经预先提供了参考图和精确指令。即便如此,单纯靠指令改写带来的提升也依然存在,说明让指令更规范、更精确,对视频编辑的效果是有正面影响的。
---
八、从训练到工具调用的全流程技术细节
为了给读到这里还意犹未尽的读者一个更完整的技术图景,这里把Aurora的完整工作流程再梳理一遍,把各个环节的技术细节串联起来。
当一个用户输入了一段视频和一句不太完整的需求之后,Aurora的规划模块(Qwen3-VL-8B加LoRA适配器)首先"看"视频、"读"指令,然后输出一段中间格式的JSON计划——这是一份包含"改写后指令"、"任务类型"、"是否需要搜图以及搜图关键词"、"是否需要遮罩以及遮罩描述词"的结构化文档。
如果计划里的搜图字段不为空,系统会调用Serper API(一个谷歌搜索的接口)获取一批候选图片,然后规划模块再次登场,从这批候选图片中挑选最合适的一张,作为视频模型的参考图片。如果计划里的遮罩字段不为空,系统会依次调用GroundingDINO(一个负责"把文字描述转化为画面中的检测框"的模型)和Segment Anything(一个负责"根据检测框精确勾勒出物体边界"的模型),把遮罩区域高亮合成到原始视频帧上,生成一张遮罩合成图,同样作为参考图片输入给视频模型。
视频模型接收到的最终材料包括:改写后的指令文本、原始视频的若干帧、以及上述过程可能生成的一张或多张参考图片(包括搜索到的品牌参考图、用户自己上传的参考图、或者遮罩合成图)。这些材料被统一处理后,视频模型通过五十步去噪迭代,生成八十一帧的编辑后视频。
在推理阶段,系统使用了一种三路引导机制:同时计算"有完整文字和视觉条件"、"只有视觉条件没有文字"、"文字和视觉都没有"三种情况下的速度场预测,然后按照一定权重加权组合,从而在遵循文字指令和保留原始视频内容之间取得更好的平衡。在AgentEdit-Bench测试中,文字引导权重设为2.0,视觉引导权重设为1.25;在另外两个基准的测试中,视觉引导权重退化为1.0(等价于只用文字引导的标准两路CFG)。
---
九、局限与未来方向:诚实的研究团队告诉你它还做不到什么
Aurora的研究团队在论文中坦率地列出了当前系统的两个明显局限,这种诚实的态度值得称道。
第一个局限是,规划模块的训练使用的是"离线偏好优化"(即DPO),但没有做到"在线强化学习"。两者的区别是这样的:离线优化相当于让模型反复练习别人标注好的题目,而在线强化学习相当于让模型真正去执行视频编辑、然后根据最终的视频质量来得到奖励信号并调整行为。后者理论上能让规划模块学到更贴合实际效果的判断策略,但问题在于:视频生成速度还不够快,每次执行完整的编辑流程再给奖励,在现有计算资源下训练成本太高。研究团队提出的未来解决思路是:先对视频模型做少步蒸馏(让它从五十步变成几步就能出结果),然后再做联合在线强化学习训练。
第二个局限是,五十亿参数的视频模型在处理"运动幅度很大的新增对象"时表现不够好。换句话说,在视频里加入一个静止摆放的商品logo,或者替换掉一个基本不动的背景,Aurora做得很不错。但如果要在一段运动激烈的视频里加入一个同样在剧烈运动的新主体,并且要求这个新主体的物理运动看起来自然可信,现有模型就力不从心了。这一方面是因为五十亿参数的模型本身对复杂运动的建模能力有上限,另一方面也是因为训练数据里这类"大幅度运动插入"的样本太少。研究团队计划通过更大的基础模型和更广泛的训练数据组合来解决这个问题。
此外,研究团队还特别提醒了潜在的风险:任何能够修改视频、插入参考图像的技术,都可能被用于未经当事人同意的身份操控,而Aurora的图片搜索功能还可能引入版权和肖像权方面的风险。研究团队明确表示,Aurora应被理解为一个创作辅助工具,而不是一个可用于生产"证据"或伪造信息的工具。
---
说到底,Aurora解决的是一个每天都在发生、但长期被忽视的问题:当AI工具越来越强大,用户却越来越不愿意(或者根本不知道怎么)把自己的想法转化成"机器可执行的格式"时,那个从"人类自然语言"到"机器精确指令"之间的桥梁,就是系统设计者应该负责补上的。Aurora用一个训练有素的规划模块担起了这座桥的重量,让用户可以更自然地表达,剩下的脏活累活交给系统自己去搞定。
这套思路对整个AI应用领域都有启发意义:不是每个工具都必须要求用户先学会如何"正确地用它",而是工具可以先学会如何理解"不够标准的用户输入"。对普通人来说,这个区别意味着AI助手和AI工具之间的根本差异。
有兴趣深入了解这套系统每一个技术环节的读者,可以在arXiv上通过编号2605.18748检索完整论文,代码已开源于GitHub(搜索yeates/Aurora),项目主页可通过搜索"Aurora-Page yeates"找到。
---
Q&A
Q1:Aurora视频编辑系统和普通视频编辑AI有什么本质区别?
A:普通的AI视频编辑工具要求用户提前准备好参考图片、写出精确的指令、甚至手动标注修改区域。Aurora则在视频编辑模型前面加了一个"规划模块",这个模块能理解用户模糊的自然语言需求,自动判断是否需要上网搜参考图、是否需要自动框选目标区域,然后把整理好的材料包递给视频模型执行,用户不需要自己准备任何额外材料。
Q2:Aurora的规划模块是怎么训练出"判断什么时候该搜图"这个能力的?
A:研究团队用两个阶段来训练这个能力。第一阶段是"监督式微调",用两万五千个样本教它每类任务该怎么规划。第二阶段是"偏好对齐训练",专门针对五类容易出错的边界情形——比如视频里已有的品牌不该再搜图、纯风格转换任务不该搜图等——构建了一千八百对正确与错误示范,让模型学会区分这些细微的判断差异。
Q3:AgentEdit-Bench测评基准和现有视频编辑测评基准有什么不同?
A:现有的视频编辑基准测的是"指令和材料都已经准备好的情况下模型能做多好",相当于只考验厨师手艺。AgentEdit-Bench专门测"用户的需求本身是模糊的、不完整的"情况下整套系统能不能正确理解并执行,共有一百五十个案例,涵盖品牌实体替换、添加、背景更换、局部删除、推理式编辑五类任务,评分标准也包含了"品牌外观是否与真实形象匹配"这类针对模糊需求特有的考察维度。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。