在人工智能快速发展的今天,多模态大语言模型(MLLMs)已经广泛应用于视频问答领域。然而,一项由中国科学院大学高等交叉科学学院宋婷宇、新加坡国立大学胡桐妍、浙江大学甘国和耶鲁大学赵一伦共同完成的最新研究指出,现有的评估方法主要关注自然视频,忽视了合成视频,特别是人工智能生成内容(AIGC)视频。这项研究发表于2025年5月29日的arXiv预印本平台(arXiv:2505.23693v1),为我们提供了一个全新的基准测试——VF-EVAL,用于评估多模态大语言模型对AIGC视频的理解和反馈能力。
想象一下,当你使用AI工具生成一段视频时,这个视频可能存在各种问题:画面可能模糊不清,角色动作可能不连贯,或者视频内容与你的创作意图不符。如果有一个AI助手能够指出这些问题并提供改进建议,那将大大提高视频创作的效率和质量。这正是VF-EVAL想要解决的问题。
研究团队开发的VF-EVAL基准测试引入了四项任务,全面评估多模态大语言模型对AIGC视频的理解能力:一是连贯性验证,检测AIGC视频与其生成提示之间的不匹配,并提供更合适的视频生成提示;二是错误感知,识别视频中是否存在错误;三是错误类型检测,识别AIGC视频中可能出现的具体错误类型;四是推理评估,展示对AIGC视频的细粒度推理能力。
研究团队对13个前沿多模态大语言模型进行了评估,结果表明,即使是表现最好的模型GPT-4.1,也难以在所有任务上保持一致的良好表现。这凸显了VF-EVAL基准测试的挑战性。此外,为了探索VF-EVAL在改进视频生成方面的实际应用,研究团队还进行了一项名为REPROMPT的实验,证明让多模态大语言模型更紧密地与人类反馈对齐可以有效提升视频生成质量。
一、研究背景:为什么我们需要评估AI对生成视频的反馈能力?
多模态大语言模型就像是既懂文字又懂图像的超级助手,它们能够处理和整合视觉和文本领域的信息。想象一下,这些模型就像是既能阅读菜谱又能看懂成品照片的厨师,可以告诉你烹饪过程中哪里出了问题。近年来,这些模型不仅应用于自然语言处理、图像描述和视频分析等领域,还越来越多地被用于视频生成领域。
在视频生成领域,这些多模态大语言模型扮演着双重角色:一方面,它们可以评估生成视频的质量;另一方面,它们还可以通过提供反馈来帮助改进视频创作过程。就像一位经验丰富的电影制作人,他不仅能评价一部电影的好坏,还能指出具体哪些镜头需要改进,从而帮助导演提升作品质量。
然而,AIGC视频为视觉理解带来了新的挑战。与自然拍摄的视频相比,AIGC视频具有独特的特点:它们可能包含合成质感、动态光效,以及算法生成的角色,这些特征与传统视频内容有显著差异。想象一下,评价一部用手机拍摄的家庭视频和评价一部使用电脑特效制作的科幻电影是完全不同的体验。这些独特的特征增加了多模态大语言模型准确解释的难度,从而降低了它们反馈的可靠性和有效性。
现有关于多模态大语言模型对AIGC视频提供反馈(即质量评估)的研究存在一些局限性。在视频质量评估中,多模态大语言模型通常被要求提供隐含分数,这可能不够精确,无法捕捉视频质量的全部细微差别。就像用一个1到10的分数来评价一部电影,而不解释为什么给出这个分数一样,信息量是有限的。虽然一些研究专注于生成自然语言反馈来评估视频质量,但当应用于AIGC视频时,这种反馈可能缺乏精确性,尤其是考虑到AIGC视频的特性与传统自然视频有显著差异。
为了弥补这一差距,研究团队提出了名为VF-EVAL的新基准测试,旨在评估多模态大语言模型为AIGC视频生成可靠反馈的能力。这个基准测试专注于评估关键方面,如与预期结果的一致性、反馈质量和常识推理。这就像是一个全面的考试,测试AI助手是否能像专业电影评论家一样,不仅能看出视频中的问题,还能提供具体的改进建议。
二、VF-EVAL基准测试:如何全面评估多模态大语言模型?
VF-EVAL基准测试包含四项任务,旨在系统地测量多模态大语言模型的反馈生成能力。这些任务就像是为AI设计的一系列考试题,每一题都测试不同的能力。
首先是"连贯性验证"任务。想象你用一段文字描述让AI生成了一段视频,但结果与你的预期不符。这项任务就是测试AI能否发现这种不匹配,并提供更好的描述来生成更符合你预期的视频。例如,如果你要求生成"一名足球运动员用力踢球,使球比轻踢时飞得更远"的视频,但AI生成的视频中出现了两个足球,且足球运动员并没有将球踢出去,那么AI助手应该能识别出这种不匹配,并建议更好的提示词,比如"一名足球运动员用力踢一个足球"。
第二项任务是"错误感知"。这项任务要求AI能够在一组包含自然视频和AIGC视频的视频中识别出错误。就像是让AI扮演质检员,检查视频中是否存在任何明显的问题。例如,AI应该能够回答"这个视频中的粉红色小猪玩具是否存在变形问题?"这样的问题。
第三项任务是"错误类型检测"。这比第二项任务更进一步,要求AI不仅能发现错误,还能具体指出是什么类型的错误。就像是医生不仅能判断病人是否生病,还能准确诊断出具体疾病一样。例如,AI应该能够在看到一个吸管的视频后,回答"吸管外观有什么异常?"这样的问题,并从多个选项中选出正确答案,如"吸管上部缺失"、"上下部分颜色不同"、"吸管比普通吸管短"或"吸管弯曲角度异常"。
第四项任务是"推理评估"。这项任务测试AI在AIGC视频上的细粒度推理能力。研究团队还在推理评估中纳入了六项推理任务:空间推理、时间推理、动作推理、对象推理、计数问题和信息摘要。例如,空间推理要求AI理解视频中物体的位置关系,如"请指出宇航员从月球跳下后走到哪里";时间推理要求AI理解事件发生的先后顺序,如"请描述杯子中咖啡的变化";动作推理要求AI理解角色的行为,如"根据视频内容,请回答冰块状物体在视频中如何移动";对象推理要求AI识别物体的属性,如"请识别孩子坐在什么物体上";计数问题要求AI数清楚视频中的物体数量,如"鱼有多少只眼睛";信息摘要则要求AI总结视频的主题或推断其可能的背景,如"这个视频场景最有可能出现在什么类型的电影中"。
这四项任务构成了一个全面的评估体系,使研究人员能够从多个角度测试多模态大语言模型对AIGC视频的理解能力。就像是一次全面的驾驶考试,不仅测试基本驾驶技能,还测试复杂路况处理、紧急情况应对和交通规则理解等多方面能力。
三、数据集构建:如何创建一个有挑战性的测试基准?
为了确保VF-EVAL数据集的高质量,研究团队遵循了严格的收集指南。首先,他们注重广泛的场景覆盖。为了实现这一点,研究团队使用大语言模型(GPT-4o)生成了1000个提示词,并通过这些提示词生成视频。这些提示词经过人类专家验证,涵盖了各种日常场景,从自然风景到人物活动,从动物行为到抽象概念。此外,他们还从现有数据集中收集其他视频,进一步丰富了数据的多样性。
其次,研究团队注重知识密集型题目的设计。他们精心设计了多选题和开放式问题的选项,融入了常识和物理知识(如力学、光学、材料学等)。这就像是在考试中设计需要综合运用多学科知识的复杂题目,要求AI模型不仅依靠其视觉分析能力,还需要利用其专业知识和分析技能来解决相关问题。
第三,研究团队重视推理能力的测试。对于多选题,他们使用多模态大语言模型(GPT-4o)创建干扰性选项,随后由人类审核者验证并与准确答案结合。对于开放式问题,他们评估多模态大语言模型在空间、时间、动作、对象推理,以及计数和信息摘要方面的能力,使用AIGC视频作为测试材料。
这些收集指南确保了VF-EVAL数据集不仅数量丰富,还具有高质量和多样性,能够全面评估多模态大语言模型在AIGC视频上的理解能力。
具体来说,数据集构建过程涉及视频收集和问答标注两个主要方面。在视频收集方面,研究团队汇编了大量AIGC视频,确保视频内容和场景的多样性。他们使用了各种视频生成模型,包括专有模型(如Pika、Kling、Pixeldance和Gen-3)和开源模型(如T2V-turbo-v2)。此外,他们还从现有数据集中收集AIGC视频,特别是来自Lavie和OpenSora的视频。
在问答标注方面,研究团队为多选题、是非题和开放式问题设计了不同的标注流程。对于多选题,他们首先让人类标注者识别视频中的错误,然后使用多模态大语言模型生成干扰选项。这些干扰选项经人类标注者审核后,与原始问答对结合,构成最终的多选题。对于是非题,他们主要使用大语言模型(GPT-4o)将多选题转换为是非题,所有问题的正确答案均为"是",这样设计是为了调查多模态大语言模型是否倾向于将视频视为正常。对于开放式问题,针对连贯性验证任务,标注者需要提供视频与提示之间的不匹配,以及他们认为能生成更好视频的修改提示;针对推理评估任务,人类标注者构建了涵盖多种推理类别的问题。
最终,VF-EVAL数据集包含了9,740个问答对,其中包括1,826个是非题、5,932个多选题和1,982个开放式问题。与现有工作相比,VF-EVAL提供了更长的视频,平均长度为8.98秒,最长达12秒。为了保证数据质量,研究团队还引入了人工验证过程,每个视频都由一个独立的审核者进行审核。初始标注后,研究团队选择了3名具有最高标注者间一致性得分的标注者检查所有问答对。经过这一验证,2,395个问答对被修正,这一修订百分比较低,表明VF-EVAL的整体质量较高。
四、实验评估:前沿多模态大语言模型在VF-EVAL上的表现如何?
研究团队在VF-EVAL上评估了13个前沿多模态大语言模型,包括七类开源模型:InternVL3、LLava-NeXT、LLaVA-NeXT-Video、Llama-3.2-Vision、VideoLlaMA3、Phi-3.5-Vision、Qwen2.5-VL和Mistral-Small-3.1,以及两类专有模型:GPT-4.1、GPT-4.1-mini和Gemini-Flash2.0。对于不支持原生视频处理的模型,研究团队根据模型的上下文窗口大小提供尽可能多的图像帧作为视觉输入。他们使用思维链(Chain-of-Thought)技术来提示这些模型,以获取更详细的推理过程。
实验结果揭示了几个关键发现。首先,数据集质量得到了验证。如图3所示,当没有视觉数据输入时,模型性能显著下降,特别是在连贯性验证和推理评估任务上。研究团队承认错误感知和错误类型检测任务中可能存在一些偏差,问题中可能包含正确答案的明显线索。然而,在错误感知任务上,模型表现甚至比随机猜测还差,这表明多模态大语言模型倾向于将视频视为正常。此外,如表3所示,表现最好的模型GPT-4.1在各子任务中的表现仍远低于人类水平。这凸显了数据集的重要性,因为它帮助揭示了多模态大语言模型性能中的这些差距。考虑到这些差距,直接使用多模态大语言模型在视频质量评估任务或任何其他任务中的反馈可能会导致不准确的结果。
其次,从总体性能来看,规模法则适用于这种情况。此外,最佳专有模型与最佳开源模型之间存在较大的性能差距。这表明开源模型通过微调方法有可能达到与专有模型相当的性能。然而,目前多模态大语言模型在相应任务上的表现相对不佳。应该结合其他方法,如计算机视觉技术,作为辅助工具来改进反馈生成。
第三,不同任务和模型之间的性能差异显著。研究团队总结了以下发现:(1)在错误感知任务中,多模态大语言模型在"质量"方面的表现优于"常识和物理"方面。从分析来看,这是因为多模态大语言模型缺乏视频质量评估知识。错误感知任务的"质量"方面表现较好可能是因为大语言模型无法检测到"常识和物理"方面的微妙违规。(2)在错误类型检测任务中,多模态大语言模型的表现低于预期。由于当前的多模态大语言模型与人类偏好对齐,它们可能仍然无法区分AIGC视频中的道德违规。这凸显了多模态大语言模型在有效利用视觉输入和充分考虑视频中描绘的道德方面的局限性。
第四,多模态大语言模型在AIGC视频上面临特殊挑战。多模态大语言模型缺乏视频生成知识。在连贯性验证任务中,尽管它们大部分能够识别提示与视频之间的不匹配,但它们并不总是能生成更好的视频生成提示。它们提供的提示通常只是原始提示的简单扩展。此外,如表3所示,多模态大语言模型在涉及AIGC视频的推理任务上可能容易失败。由于AIGC视频中的模糊、突然出现和消失等问题,多模态大语言模型通常难以捕捉所有细节。此外,视频中的异常结构和突然变化可能与多模态大语言模型的常识知识相矛盾,导致在连贯性验证和推理评估任务上的表现更差。
进一步分析多模态大语言模型的推理能力,研究团队将推理评估任务分为六种细粒度推理能力。如图4所示,GPT模型和InternVL3-38B展示出更强的能力,特别是在"信息摘要"和"对象推理"等任务上。这可能归因于它们整合了更多知识。相比之下,模型在"空间推理"和"时间推理"等任务上表现相对较差,这凸显了这些模型在实现各种视频理解任务上的竞争性能时面临的挑战。
五、错误分析:多模态大语言模型在哪些方面表现不佳?
为了全面评估多模态大语言模型的局限性,研究团队进行了详细的案例研究和错误分析。他们将错误分为四类:
第一类是"视频创作误解"。这种错误在连贯性验证任务中最为明显。当被要求改进提示时,多模态大语言模型通常会紧密遵循初始提示并给出扩展,突显出它们在视频创作理解上的不足。例如,当要求模型分析视频与原始文本"暴露在空气中的切水果会变干并形成皱纹纹理"之间的不匹配,并提出更好的提示时,模型可能会简单地回答"视频有效地展示了切水果的过程和它们暴露在空气中时纹理的变化",并建议新提示为"创建一个视频,展示切柑橘类水果并观察它们暴露在空气中时如何变干并形成皱纹纹理"。然而,实际上视频中存在的问题是"视频展示了切的动作,而'切'在视频中并不需要展示",一个更好的提示应该是"新鲜切开的苹果上有皱纹纹理"。
第二类是"过度依赖文本线索"。这个问题在错误感知和错误类型检测任务中很普遍,当多模态大语言模型面对需要识别违反物理规律的选项的多选题时,会遇到困难。面对同样违反物理规律的干扰选项,多模态大语言模型无法区分,只能随机选择。例如,当被问到"识别视频中的质量问题,包括低分辨率、模糊或图像失真",并给出选项"A.前景中的草时断时续地消失。B.树影不一致地闪烁。C.太阳亮度不规则地脉动。D.向日葵的中心在扭曲"时,模型可能会选择A,而正确答案是D。这表明模型未能根据视频内容分析选择,而是严重依赖问题中的文本信息,导致随机选择。
第三类是"忽略关键细节"。这个问题在所有四项任务中都很明显。多模态大语言模型经常忽略关键元素(如模糊、风向、相机抖动)。例如,当被问到"给定视频,请识别视频中是否存在任何质量问题。质量问题包括但不限于:低分辨率、模糊、图像失真、相机问题或美学问题"时,模型可能会回答"否。分析视频后,没有明显的质量问题,如低分辨率、模糊、图像失真、相机问题或美学问题。视频中的物体表现良好,没有明显的不一致或异常。总之,视频质量看起来不错,可以准确评估"。然而,实际上视频中存在的问题是"手和杯子之间的尺寸比例不正确,人手存在扭曲"。
第四类是"过度依赖常识知识"。这通常发生在推理评估任务中。例如,在图1中,当被问到"桌球台上有多少个球?"时,一些多模态大语言模型可能会错误地回答"只有一个球",这是基于常识假设,而不是视频中实际显示的内容。另一个例子是,当被问到"为什么气球在视频中上升后会掉下来?"时,模型可能会回答"气球在视频中上升后掉下来是因为它失去了浮力。这可能是因为几个原因:气球内的氦气泄漏,气球被刺破或损坏,或天气条件改变。气球依靠浮力原理,较轻的氦气使气球抵抗重力上升。如果氦气泄漏或气球不再完整,气球将失去浮力并降至地面"。然而,实际上视频中的问题是"气球可能由于在空中与鸟碰撞而掉落,导致潜在泄漏,但它落地后不应变成一个球"。这表明模型未能根据视频内容分析,而是严重依赖其常识和物理知识,导致无法提供令人满意的答案。
这些错误分析揭示了多模态大语言模型在处理AIGC视频时面临的挑战,并指出了未来改进的方向。
六、REPROMPT实验:多模态大语言模型的反馈如何改进视频生成?
为了评估多模态大语言模型反馈在提高视频生成方面的有效性,研究团队进行了一项名为REPROMPT的实验,检验人机闭环反馈是否能导致更好的结果。如前所述,标注者根据相应视频的内容修改大语言模型生成的提示。这些修改后的提示随后被用于重新生成视频——这个过程被称为REPROMPT。研究团队评估了新生成的视频与原始视频相比是否展示更高的质量。
这项实验在300个视频的数据集上进行。人类评判员被要求在成对比较中评估重新生成视频的质量,与原始视频相比。对于每对视频,评判员评估四个方面:主体一致性、背景一致性、美学吸引力和整体图像质量。
表4显示了这些方面的重新生成视频的胜率。总体上,研究团队发现从人类修改提示生成的视频始终优于原始视频。值得注意的是,在主体一致性和美学吸引力方面的改进最为明显,胜率分别达到56.7%和57.6%。然而,在视觉质量和背景一致性方面的增益更为温和,胜率分别为50.7%和53.3%,这可能反映了底层视频生成模型的固有局限性。
这些结果表明,多模态大语言模型在提高视频生成方面具有很大潜力,特别是如果它们能够更紧密地与人类偏好对齐。当作为反馈提供者或评论者使用时,多模态大语言模型可以推动生成质量的显著改进。这一观点得到了最近研究的进一步支持,这些研究表明,将多模态大语言模型反馈整合到更复杂的生成管道中可以导致视频质量的显著提升。
七、研究局限性和未来方向:还有哪些问题待解决?
研究团队指出了该研究的三个局限性,每一个都为未来的改进提供了机会。
首先,研究仅考虑了文本到视频模型,而从图像生成的视频可能表现出其他类型的错误案例,这些在本研究中没有被涉及。就像是研究了用食谱做菜的问题,但没有研究用已有菜品改良的问题一样,这是一个有待探索的方向。
其次,重新提示管道的设计相对简单,因为它只包含来自人类的文本反馈。没有包含错误案例的具体位置,这限制了反馈的粒度。这就像是告诉厨师"这道菜太咸了",而不是具体指出"汤底太咸",前者的指导意义相对有限。
第三,跨模态视频没有包含在数据集中。由于一些视频生成模型也提供音频信息,这一遗漏可能忽视了多模态交互产生的更复杂场景。这就像是只研究了默片电影,而没有研究有声电影中声画结合可能带来的新问题。
尽管存在这些局限性,这项研究为理解和提升多模态大语言模型在AIGC视频上的表现提供了宝贵的见解。
八、结论:多模态大语言模型在AIGC视频反馈方面的挑战与机遇
研究团队的实验揭示,前沿多模态大语言模型在涉及AIGC视频的VF-EVAL任务上面临重大挑战。这种表现不佳主要归因于AIGC视频的独特特性。
AIGC视频经常表现出时间不一致性,如动作的突然变化或帧之间不自然的连续性,以及违反常识的物体行为。这些挑战,加上视觉和文本输入之间的语义模糊和不一致,使多模态大语言模型难以为视频质量评估生成反馈。然而,从重新提示管道中可以观察到,如果多模态大语言模型能够更好地与视频生成中的人类偏好对齐,它们的反馈将变得更有价值和可信。此外,实验表明,整合其他方法,如计算机视觉技术和上下文学习,可以进一步提高反馈精度。
总的来说,VF-EVAL基准测试为评估多模态大语言模型在AIGC视频理解和反馈生成方面的能力提供了一个全面的框架。随着这些模型继续发展,它们在提高AIGC视频生成质量方面的潜力是巨大的,有望在未来带来更高质量、更连贯的AI生成视频。
如果你对这项研究感兴趣,可以访问GitHub上的数据和代码:songtingyu/VF-Eval(数据)和SighingSnow/VF-Eval(代码)。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。