微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 中国传媒大学等机构联手开发:当AI"剪辑师"遇上专业视频软件,结果让人大跌眼镜

中国传媒大学等机构联手开发:当AI"剪辑师"遇上专业视频软件,结果让人大跌眼镜

2026-05-28 12:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-28 12:33 科技行者

这项由中国传媒大学媒体信息与内容生产研究组(MIPG)联合新加坡国立大学、USEIT AI共同完成的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.19484。感兴趣的读者可通过该编号查找完整论文。

你有没有想过,用AI生成几段视频素材之后,下一步要做什么?生成视频这件事,AI已经越来越厉害了——用Keling、即梦这样的工具,输入一段文字描述,几秒钟就能生成一段视频片段。但"生成片段"和"做出一部完整的视频"之间,还隔着一座大山:你得把这些素材导入专业软件,剪辑、调色、加特效、对齐音频,然后才能导出成品。这个过程对普通人来说费时费力,对AI来说同样是个巨大的挑战。

正是为了测试AI是否真的能胜任这项工作,研究团队构建了一个叫做 **CutVerse** 的测试平台。这个平台专门用来考验AI智能体(也就是能够自主操作电脑的AI程序)在真实专业视频编辑软件中的实际表现。测试结果说实话有些令人哭笑不得——即便是当今最强的AI模型,在复杂的视频后期制作任务上,成功率也只有36%左右。这意味着,让AI独立完成一个专业视频项目,目前还远远没有到"随叫随用"的程度。

研究团队还借此提出了一个新的创作范式,他们称之为"氛围剪辑"(Vibe Cutting):AI生成工具负责提供原始素材,AI智能体负责在专业软件里完成后续的所有编辑工作,整个流程从创意到成片,尽可能减少人工干预。这是一个很有吸引力的愿景,但从测试数据来看,通往这个愿景的路还很长。

一、为什么要测AI剪视频——一个被忽视的巨大挑战

在讨论CutVerse之前,有必要先搞清楚"AI智能体操作电脑"这件事的背景。研究领域有一类专门的AI,不是用来生成图片或回答问题的,而是能够像人一样盯着电脑屏幕、移动鼠标、点击按钮、输入键盘,从而完成各种电脑操作任务。这类AI被称为"计算机使用智能体"(Computer Use Agent,简称CUA)。

近年来,这类AI在一些常规任务上表现得相当不错,比如在网页上搜索信息、填写表格、整理文件夹。就好像一个刚参加工作的新员工,处理日常行政工作没什么大问题。但当你把他推进一个专业的视频剪辑间,面对Adobe Premiere Pro那密密麻麻的界面,要求他完成一个包含调色、音频对齐、特效叠加的完整项目时,情况就完全不同了。

专业视频软件的界面密度极高,光是After Effects的工具栏,就密密麻麻排着几十个没有文字标注的图标。操作流程非常长,一个简单的"给视频加一个转场效果",可能需要先找到效果面板、搜索对应效果、把它拖到时间轴的精确位置、双击打开参数设置、调整数值——任何一步出错,整个操作就失败了。此外,这些操作还涉及多个软件之间的协作,比如先在ComfyUI里生成素材,再在Premiere里剪辑,再在DaVinci Resolve里调色,最后导出。这种跨软件的工作流程,对AI来说是一个全新的、极其困难的挑战。

现有的AI测试平台几乎没有覆盖这个领域。大多数平台测试的是简单的网页操作或基础的文件管理,没有专门针对专业创意软件的系统性评测。CutVerse的出现,就是为了填补这个空白。

二、CutVerse是怎么搭建的——一套精心设计的考题库

研究团队构建CutVerse的过程,有点像大学教授设计一门专业课的期末考试——既要覆盖所有重要知识点,又要有足够的区分度,还要保证考题真实反映实际工作中的需求。

整个过程从招募专业人员开始。研究团队请来了10位在视频后期制作和AI创作工具上都有丰富经验的专业创作者。这些人不是普通的兼职标注员,而是真正的行业从业者,他们的工作就是在Premiere Pro、After Effects这些软件里摸爬滚打。

这10位专业人员总共设计并录制了186个任务,涵盖7款专业软件:Adobe Premiere Pro、Adobe After Effects、Adobe Photoshop、DaVinci Resolve、即梦(JianYing)、可灵(Keling)和ComfyUI。这186个任务并不是随机堆砌的,而是按照真实的视频制作流程精心分类,分成了九大类别。

这九大类别从简单到复杂依次是:软件启动与初始设置(最基础的操作,比如打开软件、新建项目)、预览与验证(检查操作是否正确)、生成式工作流(在AI生成工具中使用提示词)、资产导入与管理(把素材文件导入软件)、导出与交付(把成品导出)、时间轴编辑与排列(在时间轴上剪辑视频片段)、音频与节拍编辑(处理背景音乐、音效对齐)、效果与视觉调整(添加特效、色彩校正)、遮罩与追踪(在视频中对特定区域进行精细控制)。

每一个任务,专业人员在录制操作视频时,同时记录下每一次鼠标点击和键盘按键的精确坐标和时间。这些原始录像和操作日志随后被送进研究团队开发的一套"解析器"(Parser)进行处理。这个解析器就像一个细心的速记员,能把长达几分钟的操作录像,精确地分解成一步一步有意义的操作序列,每一步都标注着"这一步之前屏幕是什么状态"和"这一步之后屏幕发生了什么变化"。

更重要的是,解析器还会把每个完整任务拆分成若干个"里程碑"(Milestone)。好比爬一座山,最终目标是到达山顶,但沿途有几个必须经过的检查站——通过了1号营地、2号营地,才能到达顶峰。每个里程碑都有配套的视觉问答题:在这个阶段,屏幕上应该出现什么?AI必须真正完成这个操作,而不仅仅是"声称"自己完成了。

这套设计非常巧妙,因为它解决了一个评估AI的核心难题:如何判断AI是真的做对了,还是只是在说"我已经完成了"?通过逐一核对每个里程碑的视觉状态,测试系统能精准定位AI在哪一步卡住了。

三、测试环境的搭建——让AI真的去"动手"

光有考题还不够,还需要一个真实的考场。研究团队搭建了基于Windows虚拟机的测试环境,每个任务开始时,虚拟机都会从一个预先保存的精确状态(称为"检查点")启动,确保每次测试的起始条件完全一样,就像每次考试前把试卷整整齐齐摆在桌上,一道题都不多一道题都不少。

AI智能体在这个虚拟机里的操作方式,和真人完全相同:它能看到屏幕截图,然后决定下一步要点击哪里、要按哪个键。它无法使用任何"作弊"手段——比如直接调用软件的后台接口、读取隐藏的文件数据——只能凭借"看屏幕"来操作,就像一个蒙着眼睛只能靠触摸来工作的人……不对,更准确地说,是只能靠眼睛但没有手的人——它能看见,然后发出指令,让虚拟的鼠标和键盘执行动作。

在评估方面,研究团队采用了"VLM作为裁判"的方式。当AI完成一个任务后,系统会用GPT-5.4和Claude-4.6-Opus两个强大的语言模型来逐一检查每个里程碑是否真的达成了——通过对比截图和预设的问答题来判断。为了验证这个自动评判系统的可靠性,研究团队还专门做了人工对照研究:让专业人员和自动系统分别评判300个操作轨迹,结果两者的吻合率高达98.3%到99%。换句话说,这套自动评判系统几乎和专业人员的判断一样准确。

四、数据背后的故事——这186个任务到底有多难

在正式汇报测试结果之前,先来感受一下这套题目的难度。整个数据集的录制时间超过2.43小时,包含3484个独立的操作动作,平均每分钟发生23.8次操作。每个任务平均需要18.73步操作才能完成,而最复杂的任务甚至需要239步。

作为对比,常见的网页操作类AI测试平台,任务平均只需要几步到十几步。18.73步的平均值已经远超这些平台,而239步的极端案例则相当于让AI自动完成一个需要人类操作者盯着屏幕专注工作将近4分钟的复杂项目。

再来看操作类型的分布,这个细节很能说明问题。在所有3484个操作中,鼠标在时间轴上的操作占了总操作量的46.07%,而对图层和轨道的控制操作占了25.32%。这两类加起来超过70%的操作,都是对着那些像河流一样横跨屏幕的"时间轴"进行的。时间轴操作和网页上点击按钮完全不同——没有明确的边界,没有标准的标签,需要精确到像素级别的拖拽和定位。对AI来说,这不是"找到写着'确认'的按钮然后点击",而是"找到时间轴上第3.2秒的位置,然后在那里精确地剪断视频"。

九大类任务中,复杂度各有不同。效果与视觉调整任务和遮罩追踪任务被标记为"极限难度",前者平均需要20.27步操作、耗时52.81秒,后者平均需要25.40步、耗时更是高达72.98秒。相比之下,软件启动任务只需平均7.56步、31.18秒,难度标记为"低"。这种差异清晰地勾勒出一张专业视频制作技能的难度地图。

五、成绩单出来了——AI们的表现令人五味杂陈

研究团队选取了5款代表性的AI模型参加测试,涵盖了目前业界最强的选手。其中有两款商业闭源模型:Anthropic公司的Claude-Opus-4.6和Google DeepMind的Gemini-3-flash;还有三款开源模型:阿里巴巴的Qwen3-32B、字节跳动旗下的UI-TARS-1.5-7B,以及美团的EvoCUA-32B。这5款模型代表了目前AI智能体领域的顶尖水平。

测试在统一的Windows 11 Pro虚拟机环境下进行,每次测试开始时系统状态完全相同。AI模型在每一步操作时,能看到当前屏幕截图和最近5次操作的历史记录,但不会得到"下一步应该做什么"的提示——它必须自己判断。

整体成绩来看,Claude-Opus-4.6表现最好,整体任务成功率为68.3%;Gemini-3-flash紧随其后,达到67.2%。开源模型中EvoCUA-32B表现最佳,成功率51.6%;Qwen3-32B为48.4%;UI-TARS-1.5-7B最低,仅有44.1%。

然而,这些数字需要放在具体背景下才有意义。当研究人员把任务按类型分开来看时,画面就变得更加有趣——或者说更加残酷了。

在"程序性操作"类任务(包括软件启动、导出交付、资产管理、预览验证)上,所有模型表现都相当出色。以生成式工作流任务为例,5款模型全部获得了满分1.000,就是说每次测试全部成功。导出与交付任务中,Claude成功率达到1.000,其他模型也都在0.917左右。这些任务的共同特点是操作步骤相对固定、有明确的视觉反馈。

但当测试切换到"核心媒体编辑"类任务时,情况急转直下。遮罩与追踪任务中,UI-TARS的成功率跌至0.095——几乎等于十次里只有不到一次成功。就连表现最好的Gemini在这类任务上也只有0.381,Claude只有0.286。效果与视觉调整任务中,Qwen的成功率只有0.207,意味着五次里只有约一次能成功。音频与节拍编辑任务中,Claude和Qwen的成功率都只有0.333。

这个落差惊人。就像一个能够熟练操作电梯、自动门的机器人,一旦要求它拿起外科手术刀做精细操作,立刻就显得力不从心了。

六、里程碑与最终成功之间的鸿沟

CutVerse测试还揭示了一个非常有价值的发现,这个发现甚至比单纯的成功率数字更有洞察力。研究团队同时记录了"里程碑成功率"和"任务整体成功率",而这两个数字之间存在显著的差距。

以音频与节拍编辑任务为例,Claude的里程碑成功率高达0.929,这意味着在这类任务的中间检查点上,Claude有92.9%的概率都能通过。但Claude在这类任务上的整体成功率只有0.333。这就好比一个学生在期中考、期末大作业上都拿了高分,但最终综合成绩却不及格——问题不是出在单个步骤上,而是出在能否把所有步骤串联起来、不犯任何错误地完成整个流程上。

Gemini的情况类似:音频任务里程碑成功率0.786,但整体任务成功率只有0.500。这种"里程碑和任务之间的一致性缺口"在所有模型上都普遍存在,尤其在复杂编辑类任务中最为明显。

这个发现揭示了当前AI智能体的一个根本性弱点:它们能够完成单个操作步骤,但无法可靠地在几十步、几百步的长序列操作中保持始终如一的准确性。任何一步出错,后面的操作可能就全部乱套了。研究团队还统计了各模型未能完成任务的比例——Claude未完成31.7%的任务,Gemini未完成32.8%,EvoCUA未完成48.4%,Qwen未完成51.6%,UI-TARS未完成55.9%。

七、失败案例的剖析——AI到底在哪里犯难

研究团队不满足于只记录成功率数字,他们还仔细分析了AI在操作过程中留下的轨迹,找出了四种典型的失败模式。

第一种失败叫做"组件误认"。专业视频软件里有大量图标紧密排列在一起,很多图标既小又没有文字说明,全靠形状来区分。研究团队发现,AI对那些常见的、有文字标注的按钮还算熟悉,但一旦遇到专业领域特有的工具图标——比如After Effects工具栏上的"Roto Brush"(旋转笔刷)图标——就很容易认错,点到了旁边的另一个工具上。论文中有一个具体例子:AI在尝试选择一个工具时,认为目标是"从左边数第13个图标",但实际操作时点到了错误的位置,根本没有激活需要的工具。

第二种失败叫做"空间定位不准"。视频时间轴就像一把精细的尺子,上面密布着时间刻度。要在时间轴上精确的某一秒切断视频,对人来说是轻车熟路,但AI经常会点歪——差了几个像素,结果切断的位置和预期相差了半秒甚至更多。这种误差在普通网页操作中不成问题,但在视频剪辑中,半秒的误差可能就意味着整个节奏完全对不上。

第三种失败叫做"缺乏全局感知"。有个生动的案例:AI在执行一个"把视频片段拖到时间轴"的任务时,因为当前视图只显示了时间轴的一小部分,AI没有先放大视图查看全貌,就直接开始拖动。结果它以为时间轴上还有空位,实际上那段视频已经存在了,最终把同一段视频重复拖了进去,造成内容重复的错误。这就像一个人在整理书架时,眼睛只盯着眼前一格,没有先看看旁边是否已经放了书。

第四种失败叫做"视觉反馈盲区引发的死循环"。很多操作在执行后,屏幕上不会立刻出现明显的变化——比如按下了某个快捷键,效果要等几步之后才会体现出来。这种情况下,AI因为看不到明显的"成功信号",会误以为操作没有执行成功,于是反复执行同样的操作,陷入一个无休止的循环,把几十步的操作时间全部浪费在反复点击同一个地方上,直到达到操作步数上限。

八、不同软件之间的差距——软件越复杂AI越挣扎

研究团队还分软件统计了AI的表现,这张数据表同样很有说服力。可灵(Keling)这款AI视频生成工具的任务成功率最高,Claude和Gemini都达到了0.815到0.852。ComfyUI(一款节点式AI图像工作流工具)其次,Claude达到0.667。这两款工具的共同特点是:界面相对规整,操作以点击和输入文字为主,视觉结构清晰。

随着软件复杂度上升,成绩就开始下滑。DaVinci Resolve(专业调色剪辑软件)的任务成功率在0.45到0.75之间,Premiere Pro在0.396到0.642之间,Photoshop在0.424到0.576之间,After Effects最低,Claude达到0.577,而Qwen和UI-TARS只有0.269。

After Effects是所有软件中难度最高的,它的平均任务步数是14.81步,但每步操作的复杂度远超其他软件,很多操作需要同时按住多个键配合鼠标拖拽,还需要对软件内部的层级结构有深入理解。这再一次印证了研究团队的判断:专业创意软件的核心挑战不在于操作数量,而在于操作的精度、协调性和对专业知识的依赖。

九、为什么这件事很重要——超越数字背后的意义

读到这里,你可能会想:测AI能不能用Premiere Pro,跟我有什么关系?关系其实相当直接。

研究团队在论文中提出了"氛围剪辑"(Vibe Cutting)这个概念,描述的是这样一个未来场景:用户提出创作需求(比如"帮我做一个3分钟的恐龙大战哥斯拉视频"),AI生成工具自动生成所需的视频素材,然后AI智能体自动进入专业剪辑软件,完成所有的后期制作工作,最终交付一个可以直接发布的视频。整个过程,用户几乎不需要动手。

这个愿景如果实现,意味着普通人也能制作出专业级别的视频内容,视频创作的门槛将大幅降低。这不只是对个人创作者的利好,对广告制作、影视工业、教育内容、商业营销来说都是颠覆性的改变。

然而,CutVerse的测试结果清晰地告诉我们:这一天还没有到来。当前最强的AI智能体,在专业视频软件中的表现就像一个刚入行的实习生——处理简单的、有明确步骤的工作还行,但一旦面对需要专业判断、精细操作、长时间专注的复杂任务,失误率就急剧攀升。

从研究的角度来看,CutVerse的价值不仅在于揭示了这个差距的存在,更在于精确定位了差距在哪里:不是AI不够"聪明",而是AI在精确空间定位、长序列操作可靠性、复杂界面识别和跨模态协调上存在系统性的短板。这些发现为未来改进AI智能体指明了方向。

---

归根结底,这项研究做了一件非常务实的事:它不是在预测"AI未来将如何改变世界",而是在测量"AI现在到底能做什么、还不能做什么"。36%的整体成功率,听起来可能有点低,但放在这样一个从未被系统性测试过的专业领域里,它既是一个诚实的评估基准,也是一个明确的奋斗目标。

对于普通的视频创作者来说,短期内还不用担心AI会把你的工作全部替代——至少在那些需要精细操作和专业判断的部分,人类的经验和眼光依然是不可替代的。但如果你是一个有兴趣深入了解这个领域的研究者或工程师,CutVerse提供了一个极有价值的测试平台和改进路线图。

这项研究的完整内容可以通过预印本编号arXiv:2605.19484获取,代码和数据集也已在GitHub上开源,地址是github.com/CUC-MIPG/CutVerse,感兴趣的读者可以直接查阅。

---

**Q&A**

Q1:CutVerse测试平台包含哪些专业软件?

A:CutVerse涵盖了7款专业软件,分别是Adobe Premiere Pro、Adobe After Effects、Adobe Photoshop、DaVinci Resolve、即梦(JianYing)、可灵(Keling)和ComfyUI。测试任务分为九大类别,包括软件启动、时间轴编辑、音频处理、效果调整、遮罩追踪等,共186个人工验证任务。

Q2:AI智能体在视频后期制作任务上失败的主要原因是什么?

A:研究发现了四个主要失败原因:一是认错专业工具图标(尤其是没有文字标注的图标);二是在时间轴上的操作位置不够精准,差几个像素就会导致剪辑点偏移;三是缺乏对整个工作区的全局感知,只盯着局部操作而忽略整体状态;四是当操作执行后屏幕没有明显变化时,AI会误以为操作失败,反复执行同一个动作陷入死循环。

Q3:CutVerse测试中哪款AI模型表现最好,成功率是多少?

A:在186个任务的整体测试中,Claude-Opus-4.6表现最佳,整体任务成功率为68.3%,Gemini-3-flash紧随其后达到67.2%。但需要注意的是,这个成绩在复杂的核心编辑任务上会大幅下滑,例如在遮罩追踪类任务中,Claude的成功率只有28.6%,Gemini也只有38.1%。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-