微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

中国传媒大学等机构联手开发：当AI"剪辑师"遇上专业视频软件，结果让人大跌眼镜

人工智能GUI智能体视频后期制作

中国传媒大学等机构联手开发：当AI"剪辑师"遇上专业视频软件，结果让人大跌眼镜

作者：科技行者

2026-05-28 12:33

分享至：

CutVerse是一个专门测试AI智能体在专业视频剪辑软件中操作能力的基准平台，涵盖7款专业软件186个任务，当前最强AI模型整体成功率仅36%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-28 12:33 • 科技行者

这项由中国传媒大学媒体信息与内容生产研究组（MIPG）联合新加坡国立大学、USEIT AI共同完成的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.19484。感兴趣的读者可通过该编号查找完整论文。

你有没有想过，用AI生成几段视频素材之后，下一步要做什么？生成视频这件事，AI已经越来越厉害了——用Keling、即梦这样的工具，输入一段文字描述，几秒钟就能生成一段视频片段。但"生成片段"和"做出一部完整的视频"之间，还隔着一座大山：你得把这些素材导入专业软件，剪辑、调色、加特效、对齐音频，然后才能导出成品。这个过程对普通人来说费时费力，对AI来说同样是个巨大的挑战。

正是为了测试AI是否真的能胜任这项工作，研究团队构建了一个叫做 **CutVerse** 的测试平台。这个平台专门用来考验AI智能体（也就是能够自主操作电脑的AI程序）在真实专业视频编辑软件中的实际表现。测试结果说实话有些令人哭笑不得——即便是当今最强的AI模型，在复杂的视频后期制作任务上，成功率也只有36%左右。这意味着，让AI独立完成一个专业视频项目，目前还远远没有到"随叫随用"的程度。

研究团队还借此提出了一个新的创作范式，他们称之为"氛围剪辑"（Vibe Cutting）：AI生成工具负责提供原始素材，AI智能体负责在专业软件里完成后续的所有编辑工作，整个流程从创意到成片，尽可能减少人工干预。这是一个很有吸引力的愿景，但从测试数据来看，通往这个愿景的路还很长。

一、为什么要测AI剪视频——一个被忽视的巨大挑战

在讨论CutVerse之前，有必要先搞清楚"AI智能体操作电脑"这件事的背景。研究领域有一类专门的AI，不是用来生成图片或回答问题的，而是能够像人一样盯着电脑屏幕、移动鼠标、点击按钮、输入键盘，从而完成各种电脑操作任务。这类AI被称为"计算机使用智能体"（Computer Use Agent，简称CUA）。

近年来，这类AI在一些常规任务上表现得相当不错，比如在网页上搜索信息、填写表格、整理文件夹。就好像一个刚参加工作的新员工，处理日常行政工作没什么大问题。但当你把他推进一个专业的视频剪辑间，面对Adobe Premiere Pro那密密麻麻的界面，要求他完成一个包含调色、音频对齐、特效叠加的完整项目时，情况就完全不同了。

专业视频软件的界面密度极高，光是After Effects的工具栏，就密密麻麻排着几十个没有文字标注的图标。操作流程非常长，一个简单的"给视频加一个转场效果"，可能需要先找到效果面板、搜索对应效果、把它拖到时间轴的精确位置、双击打开参数设置、调整数值——任何一步出错，整个操作就失败了。此外，这些操作还涉及多个软件之间的协作，比如先在ComfyUI里生成素材，再在Premiere里剪辑，再在DaVinci Resolve里调色，最后导出。这种跨软件的工作流程，对AI来说是一个全新的、极其困难的挑战。

现有的AI测试平台几乎没有覆盖这个领域。大多数平台测试的是简单的网页操作或基础的文件管理，没有专门针对专业创意软件的系统性评测。CutVerse的出现，就是为了填补这个空白。

二、CutVerse是怎么搭建的——一套精心设计的考题库

研究团队构建CutVerse的过程，有点像大学教授设计一门专业课的期末考试——既要覆盖所有重要知识点，又要有足够的区分度，还要保证考题真实反映实际工作中的需求。

整个过程从招募专业人员开始。研究团队请来了10位在视频后期制作和AI创作工具上都有丰富经验的专业创作者。这些人不是普通的兼职标注员，而是真正的行业从业者，他们的工作就是在Premiere Pro、After Effects这些软件里摸爬滚打。

这10位专业人员总共设计并录制了186个任务，涵盖7款专业软件：Adobe Premiere Pro、Adobe After Effects、Adobe Photoshop、DaVinci Resolve、即梦（JianYing）、可灵（Keling）和ComfyUI。这186个任务并不是随机堆砌的，而是按照真实的视频制作流程精心分类，分成了九大类别。

这九大类别从简单到复杂依次是：软件启动与初始设置（最基础的操作，比如打开软件、新建项目）、预览与验证（检查操作是否正确）、生成式工作流（在AI生成工具中使用提示词）、资产导入与管理（把素材文件导入软件）、导出与交付（把成品导出）、时间轴编辑与排列（在时间轴上剪辑视频片段）、音频与节拍编辑（处理背景音乐、音效对齐）、效果与视觉调整（添加特效、色彩校正）、遮罩与追踪（在视频中对特定区域进行精细控制）。

每一个任务，专业人员在录制操作视频时，同时记录下每一次鼠标点击和键盘按键的精确坐标和时间。这些原始录像和操作日志随后被送进研究团队开发的一套"解析器"（Parser）进行处理。这个解析器就像一个细心的速记员，能把长达几分钟的操作录像，精确地分解成一步一步有意义的操作序列，每一步都标注着"这一步之前屏幕是什么状态"和"这一步之后屏幕发生了什么变化"。

更重要的是，解析器还会把每个完整任务拆分成若干个"里程碑"（Milestone）。好比爬一座山，最终目标是到达山顶，但沿途有几个必须经过的检查站——通过了1号营地、2号营地，才能到达顶峰。每个里程碑都有配套的视觉问答题：在这个阶段，屏幕上应该出现什么？AI必须真正完成这个操作，而不仅仅是"声称"自己完成了。

这套设计非常巧妙，因为它解决了一个评估AI的核心难题：如何判断AI是真的做对了，还是只是在说"我已经完成了"？通过逐一核对每个里程碑的视觉状态，测试系统能精准定位AI在哪一步卡住了。

三、测试环境的搭建——让AI真的去"动手"

光有考题还不够，还需要一个真实的考场。研究团队搭建了基于Windows虚拟机的测试环境，每个任务开始时，虚拟机都会从一个预先保存的精确状态（称为"检查点"）启动，确保每次测试的起始条件完全一样，就像每次考试前把试卷整整齐齐摆在桌上，一道题都不多一道题都不少。

AI智能体在这个虚拟机里的操作方式，和真人完全相同：它能看到屏幕截图，然后决定下一步要点击哪里、要按哪个键。它无法使用任何"作弊"手段——比如直接调用软件的后台接口、读取隐藏的文件数据——只能凭借"看屏幕"来操作，就像一个蒙着眼睛只能靠触摸来工作的人……不对，更准确地说，是只能靠眼睛但没有手的人——它能看见，然后发出指令，让虚拟的鼠标和键盘执行动作。

在评估方面，研究团队采用了"VLM作为裁判"的方式。当AI完成一个任务后，系统会用GPT-5.4和Claude-4.6-Opus两个强大的语言模型来逐一检查每个里程碑是否真的达成了——通过对比截图和预设的问答题来判断。为了验证这个自动评判系统的可靠性，研究团队还专门做了人工对照研究：让专业人员和自动系统分别评判300个操作轨迹，结果两者的吻合率高达98.3%到99%。换句话说，这套自动评判系统几乎和专业人员的判断一样准确。

四、数据背后的故事——这186个任务到底有多难

在正式汇报测试结果之前，先来感受一下这套题目的难度。整个数据集的录制时间超过2.43小时，包含3484个独立的操作动作，平均每分钟发生23.8次操作。每个任务平均需要18.73步操作才能完成，而最复杂的任务甚至需要239步。

作为对比，常见的网页操作类AI测试平台，任务平均只需要几步到十几步。18.73步的平均值已经远超这些平台，而239步的极端案例则相当于让AI自动完成一个需要人类操作者盯着屏幕专注工作将近4分钟的复杂项目。

再来看操作类型的分布，这个细节很能说明问题。在所有3484个操作中，鼠标在时间轴上的操作占了总操作量的46.07%，而对图层和轨道的控制操作占了25.32%。这两类加起来超过70%的操作，都是对着那些像河流一样横跨屏幕的"时间轴"进行的。时间轴操作和网页上点击按钮完全不同——没有明确的边界，没有标准的标签，需要精确到像素级别的拖拽和定位。对AI来说，这不是"找到写着'确认'的按钮然后点击"，而是"找到时间轴上第3.2秒的位置，然后在那里精确地剪断视频"。

九大类任务中，复杂度各有不同。效果与视觉调整任务和遮罩追踪任务被标记为"极限难度"，前者平均需要20.27步操作、耗时52.81秒，后者平均需要25.40步、耗时更是高达72.98秒。相比之下，软件启动任务只需平均7.56步、31.18秒，难度标记为"低"。这种差异清晰地勾勒出一张专业视频制作技能的难度地图。

五、成绩单出来了——AI们的表现令人五味杂陈

研究团队选取了5款代表性的AI模型参加测试，涵盖了目前业界最强的选手。其中有两款商业闭源模型：Anthropic公司的Claude-Opus-4.6和Google DeepMind的Gemini-3-flash；还有三款开源模型：阿里巴巴的Qwen3-32B、字节跳动旗下的UI-TARS-1.5-7B，以及美团的EvoCUA-32B。这5款模型代表了目前AI智能体领域的顶尖水平。

测试在统一的Windows 11 Pro虚拟机环境下进行，每次测试开始时系统状态完全相同。AI模型在每一步操作时，能看到当前屏幕截图和最近5次操作的历史记录，但不会得到"下一步应该做什么"的提示——它必须自己判断。

整体成绩来看，Claude-Opus-4.6表现最好，整体任务成功率为68.3%；Gemini-3-flash紧随其后，达到67.2%。开源模型中EvoCUA-32B表现最佳，成功率51.6%；Qwen3-32B为48.4%；UI-TARS-1.5-7B最低，仅有44.1%。

然而，这些数字需要放在具体背景下才有意义。当研究人员把任务按类型分开来看时，画面就变得更加有趣——或者说更加残酷了。

在"程序性操作"类任务（包括软件启动、导出交付、资产管理、预览验证）上，所有模型表现都相当出色。以生成式工作流任务为例，5款模型全部获得了满分1.000，就是说每次测试全部成功。导出与交付任务中，Claude成功率达到1.000，其他模型也都在0.917左右。这些任务的共同特点是操作步骤相对固定、有明确的视觉反馈。

但当测试切换到"核心媒体编辑"类任务时，情况急转直下。遮罩与追踪任务中，UI-TARS的成功率跌至0.095——几乎等于十次里只有不到一次成功。就连表现最好的Gemini在这类任务上也只有0.381，Claude只有0.286。效果与视觉调整任务中，Qwen的成功率只有0.207，意味着五次里只有约一次能成功。音频与节拍编辑任务中，Claude和Qwen的成功率都只有0.333。

这个落差惊人。就像一个能够熟练操作电梯、自动门的机器人，一旦要求它拿起外科手术刀做精细操作，立刻就显得力不从心了。

六、里程碑与最终成功之间的鸿沟

CutVerse测试还揭示了一个非常有价值的发现，这个发现甚至比单纯的成功率数字更有洞察力。研究团队同时记录了"里程碑成功率"和"任务整体成功率"，而这两个数字之间存在显著的差距。

以音频与节拍编辑任务为例，Claude的里程碑成功率高达0.929，这意味着在这类任务的中间检查点上，Claude有92.9%的概率都能通过。但Claude在这类任务上的整体成功率只有0.333。这就好比一个学生在期中考、期末大作业上都拿了高分，但最终综合成绩却不及格——问题不是出在单个步骤上，而是出在能否把所有步骤串联起来、不犯任何错误地完成整个流程上。

Gemini的情况类似：音频任务里程碑成功率0.786，但整体任务成功率只有0.500。这种"里程碑和任务之间的一致性缺口"在所有模型上都普遍存在，尤其在复杂编辑类任务中最为明显。

这个发现揭示了当前AI智能体的一个根本性弱点：它们能够完成单个操作步骤，但无法可靠地在几十步、几百步的长序列操作中保持始终如一的准确性。任何一步出错，后面的操作可能就全部乱套了。研究团队还统计了各模型未能完成任务的比例——Claude未完成31.7%的任务，Gemini未完成32.8%，EvoCUA未完成48.4%，Qwen未完成51.6%，UI-TARS未完成55.9%。

七、失败案例的剖析——AI到底在哪里犯难

研究团队不满足于只记录成功率数字，他们还仔细分析了AI在操作过程中留下的轨迹，找出了四种典型的失败模式。

第一种失败叫做"组件误认"。专业视频软件里有大量图标紧密排列在一起，很多图标既小又没有文字说明，全靠形状来区分。研究团队发现，AI对那些常见的、有文字标注的按钮还算熟悉，但一旦遇到专业领域特有的工具图标——比如After Effects工具栏上的"Roto Brush"（旋转笔刷）图标——就很容易认错，点到了旁边的另一个工具上。论文中有一个具体例子：AI在尝试选择一个工具时，认为目标是"从左边数第13个图标"，但实际操作时点到了错误的位置，根本没有激活需要的工具。

第二种失败叫做"空间定位不准"。视频时间轴就像一把精细的尺子，上面密布着时间刻度。要在时间轴上精确的某一秒切断视频，对人来说是轻车熟路，但AI经常会点歪——差了几个像素，结果切断的位置和预期相差了半秒甚至更多。这种误差在普通网页操作中不成问题，但在视频剪辑中，半秒的误差可能就意味着整个节奏完全对不上。

第三种失败叫做"缺乏全局感知"。有个生动的案例：AI在执行一个"把视频片段拖到时间轴"的任务时，因为当前视图只显示了时间轴的一小部分，AI没有先放大视图查看全貌，就直接开始拖动。结果它以为时间轴上还有空位，实际上那段视频已经存在了，最终把同一段视频重复拖了进去，造成内容重复的错误。这就像一个人在整理书架时，眼睛只盯着眼前一格，没有先看看旁边是否已经放了书。

第四种失败叫做"视觉反馈盲区引发的死循环"。很多操作在执行后，屏幕上不会立刻出现明显的变化——比如按下了某个快捷键，效果要等几步之后才会体现出来。这种情况下，AI因为看不到明显的"成功信号"，会误以为操作没有执行成功，于是反复执行同样的操作，陷入一个无休止的循环，把几十步的操作时间全部浪费在反复点击同一个地方上，直到达到操作步数上限。

八、不同软件之间的差距——软件越复杂AI越挣扎

研究团队还分软件统计了AI的表现，这张数据表同样很有说服力。可灵（Keling）这款AI视频生成工具的任务成功率最高，Claude和Gemini都达到了0.815到0.852。ComfyUI（一款节点式AI图像工作流工具）其次，Claude达到0.667。这两款工具的共同特点是：界面相对规整，操作以点击和输入文字为主，视觉结构清晰。

随着软件复杂度上升，成绩就开始下滑。DaVinci Resolve（专业调色剪辑软件）的任务成功率在0.45到0.75之间，Premiere Pro在0.396到0.642之间，Photoshop在0.424到0.576之间，After Effects最低，Claude达到0.577，而Qwen和UI-TARS只有0.269。

After Effects是所有软件中难度最高的，它的平均任务步数是14.81步，但每步操作的复杂度远超其他软件，很多操作需要同时按住多个键配合鼠标拖拽，还需要对软件内部的层级结构有深入理解。这再一次印证了研究团队的判断：专业创意软件的核心挑战不在于操作数量，而在于操作的精度、协调性和对专业知识的依赖。

九、为什么这件事很重要——超越数字背后的意义

读到这里，你可能会想：测AI能不能用Premiere Pro，跟我有什么关系？关系其实相当直接。

研究团队在论文中提出了"氛围剪辑"（Vibe Cutting）这个概念，描述的是这样一个未来场景：用户提出创作需求（比如"帮我做一个3分钟的恐龙大战哥斯拉视频"），AI生成工具自动生成所需的视频素材，然后AI智能体自动进入专业剪辑软件，完成所有的后期制作工作，最终交付一个可以直接发布的视频。整个过程，用户几乎不需要动手。

这个愿景如果实现，意味着普通人也能制作出专业级别的视频内容，视频创作的门槛将大幅降低。这不只是对个人创作者的利好，对广告制作、影视工业、教育内容、商业营销来说都是颠覆性的改变。

然而，CutVerse的测试结果清晰地告诉我们：这一天还没有到来。当前最强的AI智能体，在专业视频软件中的表现就像一个刚入行的实习生——处理简单的、有明确步骤的工作还行，但一旦面对需要专业判断、精细操作、长时间专注的复杂任务，失误率就急剧攀升。

从研究的角度来看，CutVerse的价值不仅在于揭示了这个差距的存在，更在于精确定位了差距在哪里：不是AI不够"聪明"，而是AI在精确空间定位、长序列操作可靠性、复杂界面识别和跨模态协调上存在系统性的短板。这些发现为未来改进AI智能体指明了方向。

---

归根结底，这项研究做了一件非常务实的事：它不是在预测"AI未来将如何改变世界"，而是在测量"AI现在到底能做什么、还不能做什么"。36%的整体成功率，听起来可能有点低，但放在这样一个从未被系统性测试过的专业领域里，它既是一个诚实的评估基准，也是一个明确的奋斗目标。

对于普通的视频创作者来说，短期内还不用担心AI会把你的工作全部替代——至少在那些需要精细操作和专业判断的部分，人类的经验和眼光依然是不可替代的。但如果你是一个有兴趣深入了解这个领域的研究者或工程师，CutVerse提供了一个极有价值的测试平台和改进路线图。

这项研究的完整内容可以通过预印本编号arXiv:2605.19484获取，代码和数据集也已在GitHub上开源，地址是github.com/CUC-MIPG/CutVerse，感兴趣的读者可以直接查阅。

---

**Q&A**

Q1：CutVerse测试平台包含哪些专业软件？

A：CutVerse涵盖了7款专业软件，分别是Adobe Premiere Pro、Adobe After Effects、Adobe Photoshop、DaVinci Resolve、即梦（JianYing）、可灵（Keling）和ComfyUI。测试任务分为九大类别，包括软件启动、时间轴编辑、音频处理、效果调整、遮罩追踪等，共186个人工验证任务。

Q2：AI智能体在视频后期制作任务上失败的主要原因是什么？

A：研究发现了四个主要失败原因：一是认错专业工具图标（尤其是没有文字标注的图标）；二是在时间轴上的操作位置不够精准，差几个像素就会导致剪辑点偏移；三是缺乏对整个工作区的全局感知，只盯着局部操作而忽略整体状态；四是当操作执行后屏幕没有明显变化时，AI会误以为操作失败，反复执行同一个动作陷入死循环。

Q3：CutVerse测试中哪款AI模型表现最好，成功率是多少？

A：在186个任务的整体测试中，Claude-Opus-4.6表现最佳，整体任务成功率为68.3%，Gemini-3-flash紧随其后达到67.2%。但需要注意的是，这个成绩在复杂的核心编辑任务上会大幅下滑，例如在遮罩追踪类任务中，Claude的成功率只有28.6%，Gemini也只有38.1%。

人工智能GUI智能体视频后期制作

分享至