这项由耶鲁大学的赵一伦、谢路静、张浩维等研究团队领导的研究发表于2025年1月,研究成果已在arXiv平台发布(arXiv:2501.12380v1),有兴趣深入了解的读者可以通过项目主页mmvu-benchmark.github.io访问完整资料。
想象一下,如果我们要测试一个学霸朋友是否真的掌握了各个学科的知识,我们会怎么做?可能会拿出化学实验视频问他反应过程,或者播放医学手术视频考察他的诊断能力。现在,耶鲁大学的研究团队就是用这种方式来"考试"人工智能的。
他们创建了一个叫MMVU的测试系统,就像是专门为AI设计的"高考"。这个测试不同于普通的选择题,而是让AI观看各种专业领域的视频,然后回答需要真正理解和推理的问题。这就好比让一个医学生观看真实的手术视频来判断病毒类型,或者让工程系学生通过观看机械运转视频来识别算法原理。
这项研究之所以重要,是因为目前的AI虽然在文字和图片理解方面表现不错,但在观看专业视频并进行深度推理方面还存在很大挑战。研究团队想要搞清楚,当前最先进的AI模型在面对需要专业知识的视频理解任务时,到底表现如何,距离人类专家还有多大差距。
研究团队测试了32个目前最先进的AI模型,包括大家熟知的GPT-4o、Claude等,结果发现即使是表现最好的模型,在这个专业视频理解测试中的表现也远低于人类专家。这个发现对于AI的未来发展具有重要意义,特别是在医疗、工程、科学研究等需要高度专业知识的领域。
一、搭建AI的"专业技能考场"
MMVU就像是为AI量身定制的专业能力测试场。研究团队精心设计了这个测试系统,包含了3000道由人类专家亲自出题的问题,覆盖了科学、医疗保健、人文社科和工程四大领域的27个具体学科。
这个测试的设计理念就像是真实的专业考试。当我们想测试一个化学专业学生的能力时,不会只问他化学方程式,而是会让他观看实际的化学反应过程,然后询问反应机理、产物预测等需要深度理解的问题。MMVU正是采用了这种思路,让AI观看真实的专业领域视频,然后回答需要专业知识和推理能力的问题。
研究团队为了确保测试的质量,采用了严格的"课本指导"方式来出题。专家们首先从各学科的权威教科书中选取核心概念,然后寻找能够展现这些概念的视频,最后设计出相应的问题。这就好比老师在准备期末考试时,会根据教学大纲的重点内容来设计试题,确保考试能够全面考查学生的掌握情况。
每道题目都配有详细的解答过程和相关的专业知识背景。这不仅仅是为了给出标准答案,更重要的是为研究人员提供了分析AI模型错误原因的依据。当一个AI模型答错题时,研究人员可以通过这些详细信息分析到底是视觉理解出了问题,还是专业知识不足,或者是推理逻辑有误。
测试中的视频都来自于具有创意共用许可证的YouTube内容,这确保了使用的合法性。研究团队还特意排除了那些包含大量文字或语音解释的视频,因为他们想测试的是AI对视觉信息的理解能力,而不是文字阅读能力。这就好比在测试学生的观察能力时,我们会选择那些需要仔细观看才能理解的实验视频,而不是那些有详细旁白解释的教学视频。
二、人类专家的"手把手"出题过程
为了确保测试题目的质量和专业性,研究团队采用了一种非常严格的专家参与模式。他们招募了67位来自各个专业领域的专家,包括研究生、博士生和资深研究者,这些人就像是各个学科的"金牌教师"。
整个出题过程就像是精心设计一道道"压轴题"。专家们首先需要深入研读各自领域的权威教科书,找出那些最适合通过视频展现的核心概念。比如在化学领域,专家会选择那些有明显视觉变化的化学反应,如沉淀的形成、颜色的改变等;在工程领域,则会选择机械运转、算法演示等动态过程。
找到合适的概念后,专家们需要在YouTube上搜寻相关的教学视频或演示视频。这个过程就像是在浩如烟海的资料中寻找最佳的教学素材。不过,他们有一个重要的限制条件:只能使用具有创意共用许可证的视频,这确保了研究的合法性和可复制性。
接下来是最关键的出题环节。专家们需要为每个视频设计2-3道题目,这些题目不能是简单的事实性问答,而必须要求观看者具备相关的专业知识并进行深度思考。举个例子,对于一个显示化学反应的视频,题目不会问"视频中发生了什么",而是会问"假设有2.24升气体在标准状态下完全参与反应,会产生多少克沉淀物",这就需要观察者不仅要看懂视频中的反应过程,还要运用化学计算知识。
每道题目完成后,专家还需要提供详细的解答过程和相关的专业知识背景。这就像是老师不仅要给出标准答案,还要解释每一个推理步骤,甚至要列出相关的知识点和参考资料。这些信息对于后续分析AI模型的表现至关重要。
为了保证质量,每个题目在正式纳入测试集之前,还要经过另一位专家的审核。审核者需要确认题目确实需要观看视频才能回答,不能仅凭文字或常识就能解决。如果发现问题,题目会被返回给原作者修改,甚至可能被完全排除。
三、给AI模型来一场"专业能力大比拼"
研究团队将32个目前最先进的AI模型都拉来参加了这场"专业视频理解大考"。这些模型来自17个不同的机构,包括大家熟知的OpenAI、Google、Anthropic等科技巨头,也有一些开源模型。就像是邀请了各个学校的尖子生来参加竞赛一样。
这场测试采用了两种不同的答题方式。第一种叫做"思维链推理",就是让AI模型像人类学生一样,先解释自己的思考过程,然后给出最终答案。第二种是"直接回答",要求模型立即给出答案,不需要展示推理过程。这就好比考试时有些题目要求"写出解题步骤",有些题目只需要填写最终结果。
测试结果让人既惊讶又深思。表现最好的是OpenAI的o1模型,准确率达到了80%,这已经接近人类专家在开卷考试中的表现了。不过,这个成绩是在一个较小的样本上测得的,因为o1模型的多模态版本当时还没有完全开放。紧随其后的是Google的Gemini 2.0 Flash Thinking模型,准确率约为69.3%。
大多数其他模型的表现都相对较差。比如广受关注的GPT-4o,准确率只有66.7%,远低于人类专家在开卷考试中86.8%的准确率。这个差距相当明显,说明当前的AI模型在专业视频理解方面还有很大的提升空间。
特别值得注意的是,那些能够进行长时间"思考"的模型表现更好。o1和Gemini 2.0 Flash Thinking都属于这种类型,它们在回答问题时会经历更长时间的推理过程,就像人类专家会仔细思考后再回答问题一样。这提示我们,让AI有更多时间"思考"可能是提高其专业推理能力的重要方向。
开源模型的表现虽然整体不如商业模型,但也有一些亮点。Qwen2-VL-72B和DeepSeek-VL2等模型的表现已经超过了人类在闭卷考试中的水平,这对开源AI的发展来说是个积极信号。
四、AI犯错的"五宗罪"
为了深入了解AI模型在专业视频理解中的问题,研究团队进行了详细的错误分析。他们发现AI模型主要在五个方面容易出错,这些错误类型就像是学生考试中常见的失分点。
第一类错误是"视觉感知错误",占所有错误的18%。这就好比学生看走了眼,把题目中的关键信息看错了。比如在一个演示二叉树遍历算法的视频中,AI模型明明看到的是深度优先搜索的过程,却错误地识别成了广度优先搜索,完全颠倒了遍历顺序。还有一个有趣的例子是,在一个电磁学实验视频中,AI模型把逐渐变透明的设备外壳误认为是水,导致对整个实验过程的理解完全错误。
第二类是"视觉感知中的专业知识误用",占20%。这类错误更加复杂,AI模型虽然能看到视频中的内容,但缺乏相应的专业知识来正确解释所看到的现象。例如,在一个计算机算法演示视频中,AI模型看到了屏幕上不断变化的数字,但错误地将这些数组索引当作了要排序的数值,从而得出了错误的算法类型判断。
第三类是"推理中的专业知识误用",这是最常见的错误类型,占27%。在这种情况下,AI模型能够正确理解视频内容,但在运用专业知识进行推理时出现了偏差。一个典型例子是在生物学视频分析中,模型虽然正确观察到了物种分布的变化,但错误地将其归因于物种迁移,而实际上应该是大陆漂移导致的地理隔离。
第四类错误是"过度依赖文字信息",占20%。这就像是学生只看题目文字,完全忽略了配图或实验现象。一些AI模型在回答问题时,主要基于问题中的文字描述进行推理,而忽视了视频中的关键信息。比如在一个医学案例中,视频清楚地展示了水代谢异常的过程,但AI模型却基于问题中提到的细胞功能,选择了与钠钾泵相关的答案,完全偏离了视频的核心内容。
第五类是"逻辑推理错误",占6%。这类错误表现为AI模型在推理过程中出现自相矛盾或逻辑不一致的情况。例如,在一个机械工程问题中,AI模型在分析过程中既承认了弹性势能和动能之间可以相互转换,也承认了重力势能和动能之间的转换关系,但在最终结论中却否认了重力势能向弹性势能的转换可能性,这显然是逻辑上的矛盾。
最后还有9%的错误归类为"其他类型",包括拒绝回答、输出超长或重复等技术性问题。
这些错误分析为AI模型的改进指明了方向。显然,当前的AI模型需要在专业知识的整合运用、复杂视觉场景的理解,以及逻辑一致性等方面进行重点改进。
五、人类专家的表现标杆
为了给AI模型的表现提供一个对比标准,研究团队还测试了人类专家在相同任务上的表现。他们邀请了5位专业人士,包括生物学、麻醉学和东亚文学等领域的研究生,以及部分论文作者,来回答随机抽取的120道题目。
测试分为三个阶段,就像是模拟不同难度等级的考试环境。第一阶段是"闭卷考试",参与者只能依靠自己的知识储备,在3.5小时内完成答题,不允许查阅任何外部资料。结果人类专家的平均准确率是49.7%,这个成绩虽然不算很高,但考虑到题目的跨学科性质和专业难度,这个结果是可以理解的。毕竟,让一个生物学专家去回答工程学问题,或者让文学专家解答医学问题,确实具有挑战性。
第二阶段是"开卷考试",参与者可以使用互联网、教科书等外部资源来辅助答题,时间限制为4小时。这种情况下,人类专家的平均准确率大幅提升到86.8%。这个结果反映了专业知识的重要性,也说明当人类能够查阅相关资料时,他们的表现会显著改善。这种提升幅度也从侧面证明了MMVU测试题目的专业性和挑战性。
第三阶段是"标准答案指导下的修正",参与者可以参考标准答案中提供的专业知识和在线资源来修正自己的答案。在这种"开卷+有提示"的情况下,人类专家的准确率达到了95.3%。这个结果表明,当获得适当的知识支持时,人类专家基本能够正确理解和分析这些专业视频内容。
这三个阶段的结果为AI模型的表现提供了重要的参考标准。目前表现最好的o1模型达到80%的准确率,已经非常接近人类专家在开卷考试中的表现,这是一个相当令人印象深刻的成绩。但大多数其他AI模型的表现还远低于人类专家的开卷考试水平,说明在专业视频理解方面还有很大的提升空间。
这个对比也揭示了一个有趣的现象:人类专家在有外部知识支持的情况下表现显著提升,这提示我们未来的AI系统可能也需要更好地整合外部知识库和实时信息检索能力。
六、测试结果的深层含义
MMVU测试的结果揭示了当前AI技术发展中的一些重要趋势和挑战。首先,系统级思维能力的重要性得到了明确体现。那些能够进行长时间推理的模型,如o1和Gemini 2.0 Flash Thinking,在测试中表现明显优于其他模型。这就好比在解决复杂问题时,那些愿意花时间仔细思考、多角度分析的学生往往能取得更好的成绩。
链式思维推理也显示出了明显的优势。当AI模型被要求先展示推理过程再给出答案时,它们的准确率普遍高于直接给答案的方式。这个发现其实符合人类学习和思维的规律:当我们把思考过程说出来或写出来时,往往能发现自己推理中的错误,从而得到更准确的结果。
开源模型的进步也值得关注。虽然整体表现还不如商业模型,但一些开源模型如Qwen2-VL-72B和DeepSeek-VL2已经达到了相当不错的水平,甚至在某些方面超过了人类的闭卷考试表现。这表明开源AI社区的技术发展速度很快,未来可能会在某些应用领域与商业模型形成竞争。
测试还揭示了当前AI模型在专业领域应用中的局限性。即使是表现最好的模型,在面对需要深度专业知识的视频理解任务时,仍然与人类专家存在明显差距。这提醒我们,在医疗诊断、工程设计、科学研究等关键领域,AI系统还需要更多的改进才能真正胜任专业工作。
从错误分析中我们可以看到,当前AI模型的问题不仅仅是技术层面的,更涉及到知识整合、逻辑推理和上下文理解等深层认知能力。这些发现为未来的AI研究指明了方向:需要更加注重多模态信息的综合处理、专业知识的有效整合,以及推理能力的提升。
说到底,MMVU不仅仅是一个测试工具,更像是一面镜子,映照出当前AI技术在专业应用领域的真实水平。它告诉我们,虽然AI在很多方面已经非常先进,但在需要深度专业知识和复杂推理的任务中,仍然有很长的路要走。这个发现对于那些期望在近期内看到AI完全替代专业人士的预期来说,提供了一个更加现实的参考。
同时,这项研究也为AI技术的未来发展提供了一个清晰的路线图。随着模型能力的不断提升,特别是在系统级思维和专业知识整合方面的改进,我们有理由相信未来的AI系统将能够在更多专业领域发挥重要作用。MMVU作为一个持续的评估标准,将帮助我们追踪这一进步过程,并为相关技术的发展提供重要指导。
Q&A
Q1:MMVU是什么?它与普通的AI测试有什么不同?
A:MMVU是耶鲁大学开发的专门测试AI模型专业视频理解能力的评估系统。与普通AI测试不同,MMVU要求AI观看真实的专业领域视频(如化学实验、医学手术、工程演示等),然后回答需要专业知识和推理能力的问题,就像让AI参加各个专业的"高考"一样。
Q2:目前最先进的AI模型在MMVU测试中表现如何?
A:表现最好的是OpenAI的o1模型,准确率达到80%,接近人类专家开卷考试的水平。其他模型如GPT-4o的准确率为66.7%,远低于人类专家86.8%的开卷考试成绩。这说明当前AI在专业视频理解方面还有很大提升空间。
Q3:AI模型在专业视频理解中主要犯哪些错误?
A:研究发现AI主要犯五类错误:视觉感知错误(18%,如看错关键信息)、视觉感知中的专业知识误用(20%)、推理中的专业知识误用(27%,最常见)、过度依赖文字信息而忽视视频内容(20%),以及逻辑推理错误(6%)。这些错误揭示了AI在专业知识整合和复杂推理方面的不足。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。