微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

复旦大学、港大、阿里巴巴等联合出手：他们造了一把"尺子"，专门测量AI拍电影的水平有多高

人工智能视频生成多模态评测基准

复旦大学、港大、阿里巴巴等联合出手：他们造了一把"尺子"，专门测量AI拍电影的水平有多高

作者：科技行者

2026-05-26 13:33

分享至：

MSAVBench是首个专门针对多镜头音视频生成的综合评测基准，由复旦大学、香港大学、阿里巴巴等机构联合提出，涵盖286个提示词、20个评估指标和19个主流AI系统的系统性测评。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-26 13:33 • 科技行者

这项由复旦大学、香港大学、阿里巴巴通义实验室、浙江大学和北京大学联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.20183。对于任何想深入了解这项工作的读者，均可通过该编号在arXiv平台查阅完整论文。

一个拍电影的AI正在长大

电影院里，灯光熄灭，一个故事在银幕上徐徐展开。先是远景，一座陌生城市的全貌，伴随着城市的喧嚣声；接着镜头推进，特写某个人物的表情，背景音乐随之改变；再切换，演员开口说话，嘴唇的动作与声音严丝合缝。这短短几十秒，凝结了专业导演、摄影师、音响师数年的功夫。

如今，AI正在尝试做这件事。不是生成一张图，也不是拍一段五秒的短视频，而是直接生成一部有完整叙事、有多个镜头、有同步音效和对话的"小电影"。这类技术被研究者称为"多镜头音视频生成"（Multi-Shot Audio-Video，简称MSAV）。OpenAI的Sora 2、阿里巴巴的Wan 2.7、字节跳动的Seedance 2.0，都已经在朝这个方向迈进。

然而问题来了：当AI声称自己能"拍电影"，我们怎么知道它拍得好不好？过去用来评价单张图片或几秒短视频的标准，根本不够用。你无法用"画面清不清晰"来判断一部有故事情节的多镜头短片是否成功。研究团队打了个比喻：这就像用量脚的尺子去测一个人的身高，工具本身没有错，只是用错了地方。

正是为了填补这个空缺，这支来自多所顶尖高校和工业界的研究团队，耗费大量精力，打造了一套专门的评测体系，名叫MSAVBench。它是目前第一个专门针对多镜头音视频生成的综合性评测基准，就像一位经验丰富的电影评委，有一套完整的评分标准，能从多个维度、多个层次，系统地给AI导演打分。

一、为什么现有的"尺子"全都不够用

在MSAVBench出现之前，研究界其实已经有了不少评测工具。但这些工具就像一个个只能测量特定部位的专用量具——有的只能测身高，有的只能测体重，没有一个能把人从头到脚量个透彻。

早期的评测基准，比如VBench、EvalCrafter和Video-Bench，主要聚焦在单个镜头的视频生成上，而且普遍不评估音频。换句话说，它们只关心AI有没有"画"好一张动图，根本不管声音对不对、故事通不通。后来出现了一些多镜头视频评测工具，比如ViStoryBench和MSVBench，开始关注跨镜头的叙事连贯性，但它们几乎完全无视了音频，就好像评价一部电影只看画面，把声音全部静音。另一方面，AVGen-Bench等工具虽然同时评估了音视频，但它们主要处理的是单镜头或简单场景，无法应对一部有十几个镜头、不同角色轮流说话、背景音乐贯穿始终的复杂短片。

这两个硬伤，一个是"评得不全"，另一个是"评得不准"。

"评得不全"意味着现有工具忽视了很多关键能力。没有工具能同时评估：视频的叙事逻辑、画面与声音的同步精度、镜头语言的专业性（比如特写、远景、俯拍、推镜等）、以及根据参考图像或音频生成相应内容的能力。更没有工具能处理涉及虚构场景、反常识内容（比如"一片会微笑的吐司面包"）或十几个连续镜头的复杂任务。

"评得不准"则是一个更隐蔽的问题。由于生成视频的镜头切换时机往往不规律，自动拆分镜头的工具经常会切错地方，一旦切错，后续所有的评分都会跟着跑偏——就像你在给一段乐谱打分，结果谱子翻乱了，每个音符都在错误的位置。此外，对于一些需要主观判断的维度（比如叙事是否连贯、布局是否合理），直接让AI模型给出一个分数，不仅不稳定，还容易出现"一本正经地乱说"的情况。

MSAVBench的诞生，正是为了同时解决这两个问题。

二、这套"评分系统"究竟长什么样

MSAVBench首先需要一套测试题库——也就是一系列精心设计的提示词（prompts），告诉AI"你去拍这样一部短片"。设计这套题库，研究团队下了相当大的功夫。

整套题库最终包含286道题（即286个提示词），共对应2198个独立镜头。每道题都是一个完整的短片创作指令，详细描述了视频的整体风格、每个镜头的场景、摄影手法、音频要求，以及人物对话内容。平均每道题要求AI生成7.7个镜头，最多的题目要求生成15个连续镜头——这已经是一个相当复杂的叙事结构了。

题库的设计围绕四个核心维度展开。第一个维度是视频内容，涵盖8大类型，从动作场面、叙事短片、教程演示、演唱表演，到多人对话、科学实验、广告创意、自然风光，几乎涵盖了日常能想到的所有视频形式。同时，题目还要求AI展现不同的视觉风格，包括写实照片风格、动漫风格、水彩手绘风格、像素艺术、赛博朋克风格和复古胶片风格。第二个维度是音频内容，包括语音对话、演唱、乐器演奏、环境音效、自然环境音，乃至几种音效混合出现的复杂情况。此外，题目还覆盖了7种情绪（快乐、恐惧、愤怒、惊讶、悲伤、中性、敬畏）和6种语言（中文、英文、日语、韩语、西班牙语、法语）。第三个维度是专业的镜头语言，包括特写、远景、极端特写等5种景别，俯拍、仰拍、侧拍等5种拍摄角度，推拉、横移、跟踪、手持晃动等4种运镜方式，以及硬切、溶解、匹配剪辑、淡入淡出等4种转场类型。第四个维度是参考素材，为96道题提供了参考图片或音频——比如提供一张角色照片，要求AI在视频中保持这个角色的外貌特征，或者提供一段声音样本，要求AI在视频中使用这个声音的音色。

题库的另一个特色是专门设计了"难题"。一部分题目要求AI生成涉及反常识内容的场景，比如"一片会微笑的吐司"或者"冰冻的热带沙漠"——这类场景在真实世界中不存在，AI必须严格按照文字描述来生成，而不能偷懒套用它在训练数据中见过的常见场景。另外，题目中有超过三分之一要求画面里同时出现多个主体，其中10%以上要求同时出现5个或更多主体——这对AI的构图和叙事能力都是极大的考验。

为了保证题库的质量，研究团队采用了四个步骤。第一步，六位领域专家共同设计了八大类、144个细分子类的内容分类体系，并整理了大量可供组合的主体、场景和视觉风格清单。第二步，使用GPT-5.4随机抽取"主题+主体+场景+风格"的组合，生成初始提示词，再通过一个专门的"提示词增强模型"将这些初始版本改写成详细的、包含完整镜头语言的专业脚本。第三步，六位专家对生成的2200份脚本逐一审核，筛除重复雷同、逻辑不通或措辞模糊的案例，最终保留286份高质量题目，保留率仅有13%，可见筛选之严格。第四步，从公开数据集中收集了1000张角色图像和配对音频，以及200张背景图片，经过AI辅助分类和专家人工筛选，最终选出68张角色图片、65段配对音频和32张场景图片作为参考素材。

三、如何评判一部"AI短片"的好坏

有了测试题库，还需要一套评分标准。MSAVBench的评分体系分为四个层次，共20个评估指标，覆盖了从全局故事到单个镜头内部的各个层面。

最顶层是全局层面的评估，关注的是整部短片作为一个整体表现如何。这里有五个指标。叙事连贯性考察的是整个故事有没有逻辑，事件的顺序是否合理，前因后果是否说得通。唇语同步性则像一个专业声优导演，逐帧检查视频里人物说话时嘴唇的动作是否与声音完全匹配。声源归属性考察的是当画面里有多个人，音频里有不同说话声时，哪个声音来自哪个人是否对应准确。音视频同步性关注的是声音事件与对应视觉事件在时间上是否对齐，比如钢琴键按下的瞬间与琴声响起之间有没有延迟。视觉质量则综合评估画面的整体细腻程度和忠实于提示词的程度。

第二层是跨镜头层面的评估，关注的是不同镜头之间的一致性和连贯性。跨镜头布局一致性检查的是当镜头切换时，主要人物的位置、朝向、比例是否保持合理；视觉一致性则进一步细分为五个子指标，分别考察角色外貌、背景环境、视觉风格、光线照明和色调色彩在不同镜头之间是否前后一致；音乐一致性关注背景音乐的曲调、节奏是否贯穿全片保持稳定；说话人音色一致性则验证同一个角色在不同镜头里说话时，声音的音色是否始终如一。

第三层是单个镜头内部的评估，关注的是每个独立镜头自身的质量。镜头内布局文本对齐度检查的是镜头画面里的空间布局是否符合提示词的具体描述，比如提示词说"主角用左手握着电话"，镜头里是不是真的用了左手；摄影参数符合度评估的是景别、拍摄角度、运镜方式是否按照提示词的要求执行；音频质量评估音频的声学品质；文本渲染准确性专门针对画面中需要出现文字的场景，检查文字是否被正确渲染；词错误率则将视频中的语音内容转录成文字，与提示词中要求说的台词对比，看有多少字说错了或说漏了。

第四层是参考素材层面的评估，关注的是AI有没有忠实地再现用户提供的参考内容。角色保真度衡量生成视频中的角色外貌是否与参考图片中的人物保持高度一致；声音保真度则衡量生成语音的音色是否与参考音频中的声音相符。

这20个指标最终被整合成11个评分维度，再取平均值，并乘以一个"完成率系数"——如果提示词要求10个镜头但AI只生成了7个，那么整体得分会按比例打折，以惩罚那些偷工减料的生成结果。

四、让评分更聪明：三种不同的打分方式

收集了20个指标之后，如何准确地计算每个指标的分数，是另一个棘手的工程问题。MSAVBench为不同类型的指标设计了三种不同的打分策略，就像一个餐厅评审团，对厨师的刀工、口味和摆盘分别采用不同的评判方式。

第一种策略是使用专门的专家模型。对于那些定义清晰、有现成工具可以精确测量的指标，直接调用专业工具计算。音视频同步性使用Synchformer模型来测量音频和视频之间的时间偏差；唇语同步性依次使用LR-ASD（主动说话人检测）、SortFormer（说话人分类）和StableSyncNet（唇语同步评估）三个工具串联完成；音乐一致性使用Demucs先把音乐从混合音频中分离出来，再用MuQ计算音乐嵌入向量相似度，并用All-in-one工具分析节拍对齐情况；语音识别则根据语言选择FireRedASR2或Whisper-large-v3来完成。这种方式速度快、结果稳定，适合有明确量化标准的指标。

第二种策略是实例专属的评分细则。对于叙事连贯性、视觉质量、光线一致性、色调一致性和摄影参数符合度这些需要主观判断的指标，研究团队没有简单地让AI模型"你觉得好不好就打个分"，而是为每道题专门设计了一组选择题——也就是"评分细则"。AI模型需要回答这些预先设定好的问题，每道题都只有几个固定的答案选项，最终分数由回答正确的比例决定。这就像给厨师打分时，不是问评委"你觉得菜好吃吗请打1到10分"，而是问他一系列具体问题："咸淡是否适中？食材是否新鲜？烹饪是否熟透？"这种方式更稳定，受提问方式的影响更小，也更难被AI的"胡言乱语"所干扰。

第三种策略是工具辅助的智能评分。对于跨镜头布局一致性和镜头内布局文本对齐度这两个复杂指标，AI模型不仅需要理解画面，还需要具体知道画面里有哪些物体、它们在哪里、人物的手势姿态是什么。为此，评分系统会自动调用物体检测工具（Grounding DINO）和姿态估计工具（BlazePose）来提取客观证据，再把这些证据交给AI模型做最终判断。这就像评委在打分之前，先让专业技术人员用设备扫描了菜品的成分构成，然后再根据这份客观报告来综合判断。

五、评分之前先把镜头切对——智能自我纠错机制

在正式评分之前，还有一个至关重要的预处理步骤：把生成的完整视频自动切分成独立的镜头片段。这个步骤听起来简单，实际上却是整个评测系统的"地基"——地基如果不稳，上面建再高的楼也会倒。

AI生成的视频里，镜头切换的时机往往不够清晰，有时候两个镜头之间的过渡非常平滑，工具很难判断到底在哪一帧发生了切换。研究团队发现，如果只是简单地使用TransNet V2这个标准工具切分镜头，切错的情况相当常见，一旦切错，后续所有需要按镜头计算的指标都会产生系统性偏差。

为了解决这个问题，研究团队引入了一个"智能自检流程"。首先，TransNet V2给出初始的切分结果；然后，一个大型视觉语言模型（使用的是Qwen3.5）逐一检查每个切分点，判断这些切分是否合理——是不是切多了？是不是切漏了？如果发现问题，它会自动调用工具来合并相邻片段或者在合适的位置再切一刀。整个自检过程最多进行两轮。如果两轮之后切分出来的镜头数量仍然与提示词要求的不一致，系统会进行最后一步补救：让AI模型重新比对每个切分片段与提示词中对应镜头的描述，丢弃那些明显不匹配的片段，确保用于评分的每个片段都有对应的参考依据。这就像一位严谨的剪辑师，在把影片送去评审之前，会反复检查每一个剪切点，确保画面的衔接符合剧本的安排。

六、这把"尺子"量得准吗？和真人评分的对比

研究团队自然需要验证这套评分体系是否靠谱。他们招募了两组人类专家：第一组30人，负责对16个视频生成系统的整体质量进行两两比较，每人评估40对视频，合计完成1200次配对评判；第二组10人，专门针对叙事连贯性、跨镜头布局一致性和镜头内布局文本对齐度这三个最复杂的指标进行精细评判，每个指标完成360次配对评判。

最终，MSAVBench的整体评分排名与人类专家的评分排名之间，斯皮尔曼等级相关系数达到了0.915。这个数字越接近1.0，说明自动评分与人类判断越一致，0.915已经是相当高的水准，意味着这套自动评分工具的整体排名与人类的直觉判断高度吻合。

在三个最复杂的指标上，新方法相比直接让AI给分的旧方法，提升幅度尤为显著。在叙事连贯性上，直接让Qwen3.5评分的相关系数只有0.600，而采用实例专属评分细则之后，提升到了0.850，提高了整整0.250；在跨镜头布局一致性上，从0.429提升到0.767，提高了0.338；在镜头内布局文本对齐度上，从0.405提升到0.786，提高了0.381。这三个数字清楚地说明，简单地让AI"随口打分"是多么不可靠，而经过精心设计的评分细则和工具辅助评估，能大幅提升结果的可信度。

研究团队还测试了用规模更小的Qwen2.5-VL-32B-Instruct替代Qwen3.5作为评分模型时，结果会不会大幅下滑。答案是基本稳定——比如叙事连贯性的相关系数只从0.850小幅降至0.820，而在布局类指标上也仍然远超直接打分的方式。这说明MSAVBench的评测框架本身设计合理，并不过度依赖某一个特定的AI模型，具有良好的通用性。

七、19个AI系统同台竞技，谁赢了，谁输在哪里

研究团队用MSAVBench对19个当前最先进的系统进行了全面测评，包括商业闭源系统和开源系统两大阵营。

在商业闭源系统中，测试了Seedance 2.0、Wan 2.7、Kling V3、HappyHorse和Sora 2五个系统，以及Wan R2V和HappyHorse R2V两个支持参考图像的版本。在开源系统中，测试了多种不同的组合方案：有将单镜头音视频模型按镜头逐个生成再拼接的方案（如JavisDiT++、JavisGPT、MoVA和LTX-2.3）；有先生成长视频再配音的方案（如LongLive配HunyuanFoley、Helios配HunyuanFoley）；有先用多镜头视频模型生成画面再配音的方案（如ShotStream配HunyuanFoley）；还有先生成单镜头视频、配音后再拼接的方案（如Wan 2.2配HunyuanFoley）；以及支持参考图像的DreamID-Omni。

测试结果揭示了四个清晰的规律。

第一个规律是闭源系统与开源系统之间仍然存在显著差距，但有一类开源方案展现出了很强的竞争力。商业系统（以Seedance 2.0为代表）整体领先，但开源方案中，将"先用图像生成关键帧，再以图像为条件生成音视频"的模块化流水线（即所谓的TI2AV模式，以LTX-2.3为代表）表现出了接近商业系统的水平。这个发现很有启发性：在没有大量专有训练数据和算力的情况下，将复杂任务拆解成子任务、用现成工具组合完成，是一条可行的开源突围路径。

第二个规律是所有系统在"导演级精细控制"上都还差得远。无论是闭源还是开源，在跨镜头布局一致性和镜头内布局文本对齐度这两个指标上，得分普遍偏低，开源系统尤为明显。这意味着，当提示词说"主角用左手推了一枚硬币"时，AI经常搞错手的方向，或者干脆没有产生正确的手部动作。在摄影参数符合度上，开源系统也大幅落后于商业系统，说明大多数开源模型目前更像一台"自动随意拍摄的摄像机"，而不是一位能执行专业分镜表的摄影师。

第三个规律是精细的音视频联合同步，对所有系统来说都仍然是一道难题。即便是顶级的商业系统，在唇语同步、声源归属、音视频同步等指标上的表现也并不理想。让音频中每一个音节的发出时刻与对应人物的嘴型变化精确吻合，并且在不同镜头、不同场景下始终保持一致，这对当前所有AI系统来说都是一个尚未解决的挑战。

第四个规律是"先拍视频，再事后配音"的流水线模式，在复杂的多镜头场景中效果很差。多个开源方案采用了先生成无声视频、再用单独的配音模型添加声音的策略。测试结果显示，这类方案在词错误率上明显偏高，唇语同步也很糟糕。根本原因在于：配音模型在事后给视频配音时，无法感知视频中每个镜头切换的语义含义，也无法精确地把音频锚定到对应的视觉事件上。这就像事后给一部默片硬配对白，演员嘴型和台词难以对上是意料之中的结果。这个发现表明，要真正解决多镜头音视频生成问题，需要在模型架构上同时处理视觉和音频，而不是把两者作为两个独立问题串行解决。

八、越难的任务，差距越大

研究团队还专门分析了在不同难度场景下各系统的表现变化，结果进一步揭示了当前系统的短板所在。

当要求生成的镜头数量从1-4个增加到11-15个时，所有系统的得分都有所下降——但下降幅度差别悬殊。商业系统Kling V3的得分只下降了3.5%，而开源系统LongLive配HunyuanFoley的得分暴跌了24.5%，Wan 2.2配HunyuanFoley也下降了11.7%。这说明，维持长时间叙事的一致性，是开源流水线方案目前最薄弱的环节之一。

在"真实场景"与"非真实场景"的对比上，所有系统在处理反常识的非真实内容时得分都会下降。商业系统Seedance 2.0在非真实内容上的得分比真实内容低2.3%，而开源系统JavisDiT++则下降了4.6%。这反映出一个普遍现象：AI系统倾向于生成它在训练数据中频繁见过的内容，当提示词要求它生成现实中不存在的场景时，它往往会"滑落"回熟悉的模式，而不是严格遵从指令。

在参考素材保真度的测试上，结果展示了一个有趣的不对称：开源系统DreamID-Omni在视觉外貌保真度（角色的长相是否与参考图片一致）上与商业系统的差距相当大，但在声音保真度（声音音色是否与参考音频一致）上，DreamID-Omni的表现（0.535）已经相当接近HappyHorse R2V（0.545）。这意味着，在"声音克隆"这件事上，开源技术已经相对成熟；而"外貌保真"在多镜头联合生成的场景下，仍然是更难突破的技术壁垒。

在定性的失败案例分析中，研究团队整理出了五类典型错误。第一类是文字渲染错误，即便是最顶级的商业系统Seedance 2.0，在需要在画面里显示特定文字时，也经常出现拼写错误或显示不相关的文字。第二类是反常识主体错误，模型生成的内容与提示词的要求不符，比如本应生成"一片会微笑的吐司"，结果生成的却是一个完全不同的物体。第三类是音视频同步失败，包括乐器的弦还没拨动声音就响了，以及配音与说话人性别明显不匹配。第四类是布局控制失败，在要求"用左手做某个动作"的场景中，系统经常用错手，有时甚至会生成三只手的奇怪画面。第五类是主体数量错误，当提示词要求"一支四人乐队"时，系统生成的人数往往不是四个。

说到底，这是一把真正有用的尺子

归根结底，MSAVBench做的事情就是：在AI"导演"们越来越雄心勃勃地宣称自己能拍电影的时候，提供了一套系统、严谨、多维度的评价标准，让我们能够真正分辨谁是言过其实，谁又是货真价实。

这套评测体系的意义不仅在于给现有系统打分，更在于明确指出了当前技术的瓶颈在哪里：音视频的精细同步还远未达到专业水准，长镜头叙事的一致性仍然是开源系统的软肋，"视频+后期配音"的拼凑模式无法真正解决多模态联合生成的核心问题，而统一的音视频联合生成架构才是未来的方向。

对于普通用户而言，这项研究意味着一个重要的参照系正在建立：以后当各家公司发布新的AI视频生成工具并声称效果惊人时，我们至少有了一套相对客观的标准来验证这些声明。而对于开源社区来说，研究团队的发现也带来了切实可行的指引：通过图像先验+音视频联合生成的模块化流水线，开源方案已经展示了缩短与商业系统差距的可能性。

这项工作提出的一个值得深思的问题是：当AI能够稳定地生成技术上无懈可击的多镜头音视频时，"好的视频"的标准是否会随之改变？评判AI创作物好坏的最终权力，是否应当始终留在有审美体验的人类手中？研究团队承诺将发布完整的评测数据和代码，有兴趣深入探索的读者可以通过arXiv:2605.20183找到完整论文和后续更新。

Q&A

Q1：MSAVBench评测体系包含哪些评估维度？

A：MSAVBench包含四个层次共20个评估指标。全局层面评估叙事连贯性、唇语同步、声源归属、音视频同步和视觉质量；跨镜头层面评估布局一致性、五类视觉一致性、音乐一致性和说话人音色一致性；单个镜头层面评估布局文本对齐、摄影参数符合度、音频质量、文字渲染准确性和词错误率；参考素材层面评估角色保真度和声音保真度。这20个指标最终整合为11个评分维度，并乘以镜头完成率系数得出总分。

Q2：为什么"先拍视频再配音"的方式在多镜头场景中效果很差？

A：因为后期配音模型在给已生成的视频添加声音时，无法感知视频中每个镜头切换的语义含义，也无法将音频精确锚定到对应的视觉事件上。这就像给默片硬配对白，演员嘴型和台词很难对上。测试结果显示，采用这种流水线的开源系统在词错误率和唇语同步指标上明显偏高，说明要真正解决多镜头音视频生成问题，需要在模型架构上同时处理视觉和音频，而不是将两者串行独立处理。

Q3：MSAVBench的自动评分与人类评分的一致性如何？

A：MSAVBench的整体评分排名与人类专家判断之间的斯皮尔曼等级相关系数达到0.915，说明两者高度吻合。在最复杂的三个指标上，采用实例专属评分细则和工具辅助评估的新方法，相比直接让AI打分的旧方法，相关系数分别提升了0.250、0.338和0.381，分别达到0.850、0.767和0.786，大幅提升了评估可靠性。

人工智能视频生成多模态评测基准

分享至