说到人工智能看视频,你可能觉得这是个很神奇的能力——机器竟然能像人一样理解视频内容,回答各种问题。但你知道吗?就像人有时会看错东西一样,AI在看视频时也会出现"幻觉",明明视频里是一只猫,它却坚持说是一只狗。
这项由中国科学院大学洪成高、曲佳树、唐靖怡等研究人员组成的团队完成的研究,发表于2025年3月25日的arXiv预印本平台(论文编号:arXiv:2503.19622v1),首次系统性地揭示了大型多模态模型在视频理解中的"幻觉"问题。有兴趣深入了解的读者可以通过https://github.com/Hongcheng-Gao/HAVEN访问完整的研究数据和代码。
这个问题远比想象中复杂。当AI模型处理静态图片时,它们已经会出现各种错误理解,比如把不存在的物体说成存在,或者张冠李戴地描述图片内容。但视频比图片复杂得多——它不仅包含空间信息,还有时间维度,物体会移动,场景会变化,故事会发展。这就像让一个人不仅要看懂一幅画,还要理解一部电影的剧情发展,难度显然大大增加。
研究团队发现,现有的研究主要关注AI在图片理解中的问题,但对视频理解中的"幻觉"现象研究很少。这就好比我们知道一个人看照片可能会看错,但不知道他看电影时会犯什么样的错误。为了填补这个空白,研究团队构建了一个名为HAVEN的全新评估体系,专门用来检测AI模型在视频理解中的各种错误。
更重要的是,他们不仅发现了问题,还提出了解决方案。受到最新思维模型如OpenAI o1的启发,研究团队开发了一种"视频思维模型",通过让AI进行更深层的推理来减少这些幻觉现象。结果显示,这种方法将模型的准确率提升了7.65%,同时将偏差降低了4.5%。
一、当AI遇到视频:比看图片复杂千万倍的挑战
要理解AI看视频时为什么会出错,我们先得明白视频和图片的根本区别。如果说理解一张图片就像看一幅静态的油画,那么理解视频就像要读懂一本动态的连环画册,每一页都在讲述故事的不同片段,而且这些片段之间还有复杂的因果关系。
当AI模型看一张图片时,它需要识别图片中的物体、理解物体之间的关系、推断场景的背景信息。但当它面对视频时,除了这些基础任务,还需要追踪物体在时间轴上的运动轨迹、理解动作的先后顺序、把握场景的变化节奏,甚至推断视频背后的故事逻辑。这就像让一个人不仅要认识舞台上的每个演员,还要理解整出戏的剧情发展。
研究团队通过对16个不同的大型多模态模型进行测试,发现了一个有趣的现象:即使是表现最好的模型,在处理视频时也会出现各种意想不到的错误。比如,一个模型可能正确识别出视频中有一只猫,但却错误地认为这只猫在做一个它根本没有做的动作。
这些错误并不是随机出现的,而是有规律可循的。研究团队发现,AI模型在处理视频时的错误主要表现在三个方面:对物体的误解、对场景的误判,以及对事件的错误理解。这就像一个人看电影时,可能会认错主角(物体错误),搞错故事发生的地点(场景错误),或者误解剧情的发展(事件错误)。
更让人意外的是,视频的长度也会影响AI的表现。研究发现,当视频太短时,AI获得的信息不够充分,容易产生误解。但当视频太长时,AI又可能被过多的信息所干扰,反而表现更差。这就像让人看电影,如果只看几秒钟的片段,很难理解完整剧情;但如果电影太长,人的注意力也会分散,可能错过重要细节。
二、解剖AI的"视频幻觉":三大根源和九种表现
要治疗疾病,首先得准确诊断病因。研究团队像医生诊断病人一样,仔细分析了AI在视频理解中出现幻觉的根本原因,发现主要有三大根源。
第一大根源是"知识冲突"。这就像一个人带着固有偏见去看新事物一样。AI模型在训练过程中学到了大量的常识知识,比如"狗通常是四条腿的动物"、"汽车通常在路上行驶"等等。但当视频中出现与这些常识不符的内容时,模型就可能固执地按照既有知识来理解,而忽视视频中的真实情况。比如,如果视频中出现一只用两条腿走路的狗,模型可能会因为与常识冲突而产生困惑。
第二大根源是"语境冲突"。有时候,视频内容与问题本身存在矛盾,或者问题的设计就有问题。这就像有人指着一张苹果的图片问你"这个橙子是什么颜色的"一样让人困惑。在这种情况下,合理的回答应该是"我不知道"或"问题有误",但AI模型往往会强行给出一个答案,导致产生幻觉。
第三大根源是"能力缺陷"。这是最容易理解的一种情况——AI模型本身的能力还不够强,特别是在数学计算和精确计数方面。比如,当需要数视频中有几个人或几辆车时,模型经常会数错。这就像让一个视力不好的人在远处数星星,出错是很自然的事情。
基于这三大根源,研究团队进一步发现AI的视频幻觉主要表现在九个方面。在物体理解方面,AI可能会看错物体是否存在、搞混物体之间的关系,或者误判物体的属性。在场景理解方面,AI可能会搞错视频的拍摄地点、弄混季节时间,或者误解整体环境。在事件理解方面,AI可能会看错动作的执行者、搞混事件的先后顺序,或者完全误解故事的发展。
为了系统性地研究这些问题,研究团队构建了一个包含6497个问题的大型测试数据集。这些问题就像是专门设计的"陷阱",用来检验AI模型是否会在特定情况下产生幻觉。数据集中的视频来源丰富,包括日常活动、体育运动等各种场景,时长从几秒到几分钟不等。
三、大规模实验揭示的惊人发现:AI看视频的七大规律
研究团队对16个不同的AI模型进行了全面测试,这些模型的参数规模从30亿到340亿不等,就像是测试了从小学生到博士生不同"智力水平"的AI。测试结果揭示了许多令人意外的规律。
首先是关于模型大小的发现。就像我们直觉上认为的那样,更大的模型通常表现更好,出现幻觉的频率更低。但这种关系并不是简单的线性关系。研究发现,当模型规模从70亿参数增加到130亿参数时,性能提升最为显著,但继续增大到340亿参数时,提升就变得相对缓慢了。这就像学习一样,从小学到中学阶段进步最快,但到了高等教育阶段,每一步提升都需要更多的努力。
关于视频长度的发现更加有趣。研究团队发现了一个类似倒U形的关系曲线:当视频太短(少于5秒)时,AI因为信息不足而容易出错;当视频长度适中(5-20秒)时,AI表现最好;但当视频过长(超过30秒)时,AI的表现反而开始下降。这就像让人记住一个电话号码,太短的号码容易记混,太长的号码又超出了记忆容量,只有适中长度的号码最容易准确记住。
在视频帧数的处理上,研究发现了另一个有趣的规律。AI模型通常会从视频中抽取一定数量的关键帧来进行分析,就像看电影时只看几张剧照来理解剧情一样。测试发现,当抽取的帧数太少时,AI缺乏足够的信息;但当帧数过多时,AI又可能被冗余信息所干扰。最佳的帧数通常在8-16帧之间,这个范围正好平衡了信息完整性和处理效率。
问题复杂度也显著影响AI的表现。研究团队发现,简单的是非题(比如"视频中有没有猫?")相对容易回答,AI的准确率较高。但涉及复杂推理的开放性问题(比如"这个人为什么这样做?")就困难得多,AI经常会给出不着边际的答案。这就像考试一样,选择题比作文题更容易得分。
最令人惊讶的发现是关于"链式思维推理"的效果。当研究团队让AI模型在回答问题前先进行step-by-step的分析思考时,所有测试的模型都显示出了明显的性能提升。这就像让学生在回答问题前先列出解题步骤一样,虽然过程更复杂,但结果更准确。这个发现为后续的解决方案提供了重要启发。
在不同类型的错误中,研究发现"语境冲突"类型的错误最难处理。当视频内容与问题存在逻辑矛盾时,AI很难像人类一样说出"这个问题有问题",而是会强行给出一个答案。这反映了当前AI模型在元认知能力(对自己知识边界的认知)方面还存在显著不足。
四、突破性解决方案:让AI学会"思考"再回答
面对AI视频理解中的幻觉问题,研究团队没有停留在发现问题的层面,而是提出了一个创新的解决方案。他们的核心思路很简单:既然让AI进行step-by-step思考能提升性能,那么能否训练出一个专门擅长"思考"的AI模型呢?
这个想法的灵感来自于最近备受关注的OpenAI o1模型。o1模型的一个重要特点是会在给出最终答案前进行详细的内部推理,就像一个学生在考试时会先在草稿纸上列出解题步骤,然后再写出最终答案。研究团队决定将这种"思维模式"引入到视频理解任务中。
他们的解决方案分为两个步骤,就像训练一个学生首先学会思考方法,然后学会避免常见错误。
第一步叫做"监督推理微调"。由于现有的思维模型主要处理文本或单张图片,无法直接处理视频,研究团队设计了一个巧妙的方法。他们使用现有的图像思维模型对静态图片进行详细的推理分析,然后将这些图片复制成静态视频,配合原有的推理过程创建训练数据。这就像让一个擅长分析照片的专家来训练一个视频分析新手,虽然视频是静态的,但推理的思路和方法是可以迁移的。
通过这种方法,他们生成了大约5000个包含详细推理过程的训练样本。每个样本都包含一个视频、一个问题,以及一个详细的step-by-step分析过程。AI模型通过学习这些样本,逐渐掌握了在回答视频问题前进行系统性思考的能力。
第二步叫做"基于思维的直接偏好优化"。即使AI学会了思考,它的思考过程中仍然可能包含错误信息或幻觉内容。这就像一个学生虽然学会了解题步骤,但在具体计算中仍可能出错。为了解决这个问题,研究团队开发了一种精细化的纠错方法。
他们让训练好的模型对测试问题进行详细推理,然后人工检查推理过程中的每一个步骤,发现并标记出包含幻觉或错误的部分。接着,他们手动修正这些错误,创建出"正确版本"的推理过程。这样,对于同一个问题,他们就有了两个版本:一个包含错误的原始版本,一个经过修正的正确版本。
关键的创新在于,他们没有简单地告诉AI"这个答案是错的,那个答案是对的",而是在推理过程的每个细节层面进行精细化反馈。比如,如果AI在推理过程中说"视频中的猫是黑色的",而实际上猫是白色的,系统就会对这个具体的错误给予更强的负面反馈。这种方法就像一个细心的老师不仅会指出学生的最终答案错了,还会具体指出错在哪个计算步骤上。
五、实验验证:思维训练带来的显著提升
为了验证这个解决方案的效果,研究团队选择了LLaVA-NeXT-Video-DPO-7B模型作为基础,对其进行了思维能力训练。实验结果令人振奋。
经过训练的"思维版本"模型在幻觉评估中的准确率达到了52.90%,比原始模型的45.25%提升了7.65个百分点。更重要的是,在一致性评估中,新模型的偏差得分降低到了41.02%,比原始模型的45.52%降低了4.5个百分点。这意味着训练后的模型不仅更准确,而且更稳定可靠。
这种提升在各个细分领域都有体现。在物体识别方面,新模型的准确率从51.48%提升到58.28%。在场景理解方面,从62.24%提升到69.97%。在事件理解方面,从48.27%提升到53.37%。可以说,思维训练带来了全方位的性能提升。
特别值得注意的是,经过训练的模型在处理复杂推理问题时表现尤其出色。研究团队展示了两个典型案例。在第一个案例中,当被问及"谁在视频中使用捕鼠器"时,原始模型可能会给出简短而模糊的答案,而思维模型会详细分析视频中的每个元素:首先识别出视频中有一只猫和一个捕鼠器,然后观察猫的行为,最后基于这些观察得出结论。整个推理过程清晰透明,就像一个人在向你解释他的思考过程。
在第二个案例中,面对"男孩用什么来实现飞行"的问题,思维模型会先分析视频的背景(哈利波特电影场景),然后逐一评估各个选项的可能性,最终得出正确答案。这种详细的推理过程不仅提高了准确率,还增强了答案的可解释性。
六、深层洞察:AI视频理解的未来方向
通过这项研究,团队不仅解决了当前的问题,还为未来的发展方向提供了重要洞察。
首先,研究证实了"慢思考"对于复杂AI任务的重要性。就像人类在面对复杂问题时需要仔细思考一样,AI模型也可以通过引入显式的推理过程来提升性能。这与当前AI发展的一个重要趋势相吻合——从追求更快的反应速度转向追求更深层的理解能力。
其次,研究揭示了多模态AI系统中存在的一个普遍问题:不同模态信息之间的协调困难。视频包含了视觉、时间、空间等多个维度的信息,如何让AI模型有效整合这些信息仍然是一个挑战。研究团队的方法提供了一种可能的解决思路,但显然还有很大的改进空间。
研究还发现,当前的AI模型在元认知能力方面还相当薄弱。当面对超出自己能力范围的问题时,AI很难像人类一样承认"我不知道",而是倾向于给出一个听起来合理但实际错误的答案。这个问题不仅存在于视频理解中,在AI的其他应用领域也普遍存在。
从技术发展的角度来看,这项研究也指出了几个重要的发展方向。一是需要开发更好的视频表示方法,能够更有效地捕捉时空信息。二是需要改进AI模型的推理架构,使其能够进行更复杂的多步推理。三是需要建立更好的评估体系,能够更准确地衡量AI模型的真实能力和局限性。
七、现实影响:从实验室到日常生活的转化
这项研究的意义不仅限于学术层面,它对我们日常生活中接触到的AI应用也有重要影响。
在视频内容审核方面,社交媒体平台每天需要处理数十亿个视频,依靠AI进行自动审核。但如果AI会产生幻觉,可能会错误地删除正常内容或者放过违规内容。通过改进AI的视频理解能力,可以让内容审核更加准确公正。
在智能监控系统中,AI需要准确识别监控视频中的异常行为。如果AI产生幻觉,可能会误报正常行为为异常,或者错过真正的安全威胁。提升AI的视频理解准确性直接关系到公共安全。
在教育领域,越来越多的在线教育平台开始使用AI来分析学生的学习视频,评估学习效果。如果AI对视频内容的理解存在偏差,可能会给出错误的学习建议,影响教育质量。
在医疗领域,AI辅助诊断系统需要分析医学影像视频,如超声检查、内镜检查等。AI的幻觉问题在这里可能导致误诊,直接关系到患者的健康和生命安全。
研究团队开发的思维训练方法为解决这些现实问题提供了新的思路。通过让AI进行更细致的推理,可以显著提升其在各种应用场景中的可靠性和准确性。
八、技术细节:从理论到实践的完整链条
虽然前面用比较通俗的语言介绍了研究的主要内容,但这项研究在技术实现上也有许多值得关注的创新点。
在数据构建方面,研究团队设计了一个三维分类体系来系统性地覆盖各种可能的幻觉情况。他们不是随机收集测试样本,而是根据理论分析有针对性地设计测试场景。这就像设计一套全面的体检项目,确保能够发现各种可能的健康问题。
在评估方法上,研究团队没有简单地依赖人工评估,而是开发了一套基于GPT-4o-mini的自动评估系统。这个系统能够理解AI模型的复杂推理过程,判断最终答案的正确性。同时,为了确保评估的公正性,他们还设计了特殊的问题变体来检测AI模型的一致性。
在训练方法上,研究团队巧妙地结合了监督学习和强化学习的优势。监督学习部分让模型学会了基本的推理模式,而强化学习部分则通过精细化的反馈帮助模型减少幻觉内容。这种组合式的训练方法比单纯使用其中一种方法效果更好。
特别值得一提的是,研究团队在实验设计上考虑了许多实际应用中的因素。比如,他们测试了不同长度视频对模型性能的影响,不同采样帧数的效果,以及不同类型问题的难度差异。这些细致的分析为实际部署这类系统提供了重要的参考依据。
研究团队还建立了一个开放的代码和数据平台,让其他研究者可以复现他们的实验结果,并在此基础上进行进一步的改进。这种开放共享的精神对于整个AI研究社区的发展具有重要意义。
总的来说,这项研究展现了从问题发现、理论分析、方法设计、实验验证到开放共享的完整研究链条,为相关领域的后续研究奠定了坚实的基础。相信随着更多研究者的参与和改进,AI的视频理解能力将会得到持续提升,最终让我们在日常生活中享受到更可靠、更智能的AI服务。
Q&A
Q1:什么是AI的"视频幻觉"?这和人看错东西有什么区别? A:AI的"视频幻觉"是指AI模型在分析视频时给出看似合理但实际错误的答案,比如说视频中有狗实际上是猫。与人看错东西不同,AI的错误更加系统性和可预测,主要源于训练数据的局限性和模型架构的不足,而人的错误多是由于注意力分散或视觉错觉。
Q2:这种"思维训练"方法能完全解决AI看视频出错的问题吗? A:目前还不能完全解决,但已经带来了显著改善。研究显示准确率提升了7.65%,偏差降低了4.5%。这就像让学生学会了解题步骤,虽然不能保证100%正确,但明显比之前更可靠。完全解决这个问题还需要在数据质量、模型架构等多个方面继续改进。
Q3:普通人现在能体验到这种改进后的AI视频理解技术吗? A:目前这项研究还处于学术阶段,普通用户暂时无法直接体验。但研究团队已经开源了代码和数据(https://github.com/Hongcheng-Gao/HAVEN),相信不久的将来会有科技公司将这些技术集成到实际产品中,比如视频搜索、内容审核、智能监控等应用中。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。