近日,由浙江大学、阿里巴巴达摩院和湖畔实验室联合研究团队发表了一项突破性研究,探讨了多模态大语言模型(MLLMs)在第一人称场景中对物体的认知能力。这篇题为《EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?》的论文于2025年6月5日在arXiv上发表(arXiv:2506.05287v1),由袁宇乾、党荣浩、李龙、李文通、焦典等学者共同完成。研究团队开发了一个名为EOC-Bench的创新基准测试,用于评估模型在动态第一人称场景中对物体的理解能力。
我们的日常生活中,当我们戴上AR眼镜或使用机器人助手时,这些智能系统需要理解我们所看到的物体。想象一下,你正在厨房准备晚餐,你的智能助手需要识别出哪个是刀,哪个是砧板,它们现在的状态如何,以及刚才你把胡萝卜放在了哪里。这种情境下的物体认知与普通的图像识别有很大不同,因为物体会不断移动、被遮挡,甚至状态会发生变化。
现有的评估基准主要关注静态场景探索,强调物体的外观和空间属性,但忽略了用户交互引起的动态变化。EOC-Bench正是为解决这一问题而生,它从三个时间维度评估模型对物体的认知能力:过去、现在和未来。
过去维度考察模型是否记得物体之前的状态、位置和关系。就像你问朋友:"记得我刚才把眼镜放在哪里了吗?"或"这个水杯是什么时候被清洗的?"这类问题测试模型的记忆能力。现在维度则关注当前场景中物体的状态和关系识别,比如"这个物体是什么?""它的功能是什么?"未来维度则考察模型预测物体变化的能力,例如"如果我移开这个支撑物,盘子会怎么样?"这对避免潜在危险至关重要。
研究团队创新性地使用了混合格式标注框架,包括四种问题类型:是非题、单选题、多选题和开放式问题。特别是对于时间感知的开放式问题,他们设计了一种多尺度时间准确性指标,可以在不同的误差容忍度下评估模型的时间感知能力。此外,为了解决动态场景中物体指代的问题,研究者引入了视觉提示方法(点、框、掩码),确保模型能准确理解问题涉及的是哪个物体。
最终的EOC-Bench包含3,277个问答对,涵盖11个细粒度评估维度和3种视觉物体引用类型。研究团队对市场上主流的专有模型(如GPT-4o)、开源模型(如Qwen2.5-VL)以及物体级别的模型进行了全面评估,发现即使是最先进的模型在物体级时间感知方面也存在明显不足,特别是在绝对时间感知方面,显著落后于人类水平。
这项研究为多模态大语言模型在第一人称场景中理解物体提供了重要基准,也为未来智能系统在AR眼镜、机器人等领域的应用奠定了基础。接下来,让我们深入了解EOC-Bench的设计理念、评估方法和研究发现。
一、为什么我们需要新的基准测试?
想象一下你正在厨房准备一道复杂的菜肴。你的手上沾满面粉,但需要查看下一步的烹饪步骤。你对智能眼镜说:"那个胡萝卜切好了吗?"或者"我几分钟前把牛奶放在哪里了?"这种第一人称视角下的物体认知能力对未来的智能助手至关重要。
现有的基准测试存在哪些不足呢?就像一个只会识别静止物体的助手,它能告诉你"这是一把刀",但无法回答"这把刀刚才被用来切什么了?"或"如果我把刀放在这个不稳定的表面上会怎样?"市场上的测试如ScanQA、SQA3D主要关注封闭词汇的静态场景理解,而更新的OpenEQA、VSI-Bench和ECBench虽然支持开放词汇,但仍主要集中于静态场景探索,如家庭参观,很少评估动态交互环境中的物体认知能力。
EOC-Bench的创新之处在于,它专注于评估模型在动态第一人称场景中对物体的全方位认知能力。这就像从"认识物体"升级到"理解物体的过去、现在和未来"。研究团队从四个公开数据集(EPIC-KITCHENS、Ego4D、Charades-ego和MECCANO)和自录视频中精心挑选了656个真实场景视频,涵盖厨房、起居室、餐厅等多种环境。
在这些动态场景中,物体展现出三个关键特性:
1. 瞬时可见性:由于频繁的遮挡和视角变化,物体的状态和位置会动态变化。就像你转身拿盐时,锅里的食物继续在烹饪。
2. 视觉模糊性:相似外观的物品在空间上靠近,很容易混淆。想象一下厨房台面上摆着几个相似的碗和杯子。
3. 时间依赖性:当前状态依赖于历史交互并影响未来结果。例如,刚从冰箱拿出的牛奶温度会随时间变化。
这些特性使得第一人称场景下的物体认知变得极具挑战性,需要模型能够维持持续的视觉定位,同时处理空间和时间细节。EOC-Bench正是为系统评估这种能力而设计的。
二、EOC-Bench如何构建?
想象EOC-Bench是一个精心设计的考试系统,用来测试智能助手在第一人称视角下"看懂"物体的能力。这个考试不仅测试"你看到了什么",还会问"之前发生了什么"和"接下来会怎样"。
首先,研究团队设计了一个系统性的能力分类法,将第一人称场景下的物体认知能力分为三个时间维度:
过去维度关注模型对物体历史状态的记忆能力,包括: - 物体状态回顾:评估模型监测物体属性变化的能力,如颜色、形状、大小、姿态、温度和运动。 - 物体位置回顾:测量历史定位准确性,从宏观层面(房间尺度)到微观层面(精确位置)。 - 物体关系演变:考察物体关系变化,包括空间关系、运动状态动态和时间序列关系。 - 绝对时间感知:评估通过两个方面的绝对时间认知精度,包括指定特定时间点和理解时间持续时间。
现在维度测试模型理解当前场景的能力: - 即时状态识别:评估模型识别物体当前状态的能力,包括材料、形状、功能状态、表面条件等。 - 物体关系:分析物体之间的动态关系,包括空间、功能或比较关系。 - 目的和功能推断:要求根据物体的外部特征、材料、配置和场景推断其潜在用途。 - 异常感知:测量模型检测异常或不协调视觉输入的能力,特别是在不寻常的组合场景中。
未来维度考察模型的预测能力: - 轨迹和运动预测:预测物体基于当前运动和位置的未来路径或动态运动变化。 - 状态变化预测:预测物体由于持续动作或环境波动而发生的未来状态变化。 - 动态关系预测:预见物体间关系的潜在变化,帮助预防即将发生的碰撞或其他交互。
为确保评估的全面性,研究团队开发了一个混合格式的人工标注框架。这就像设计一套考试题目,包括是非题、单选题、多选题和开放式问题。对于开放式问题,特别是涉及时间感知的问题,他们创新地设计了一个多尺度时间准确性指标(MSTA)。
具体来说,假设有一个问题:"物体A多久前被清洗了?"标准答案是10秒,一个模型回答8秒,另一个回答25秒,我们如何判断哪个更准确?传统方法可能简单比较绝对误差,但这忽略了时间尺度的影响。研究团队分析了人类对不同时间尺度的误差容忍度,设计了{1%、10%、20%、30%}四个相对误差阈值。这就像说,对于10秒的时间,1%的阈值意味着允许0.1秒的误差,而30%的阈值允许3秒的误差。模型的最终得分是在这四个阈值下的平均表现。
另一个重要创新是视觉物体引用方法。在动态场景中,文本描述如"最左边的碗"或"那个勺子"往往难以准确指代物体。当物体在洗涤过程中重新排列,或厨房中有多个相似的勺子时,这些描述失去了明确性。为解决这个问题,研究团队引入了视觉引用提示,包括点、框和掩码,它们提供了持久、明确的物体引用,同时保留了理解物体所需的空间时间上下文。
最终的EOC-Bench包含3,277个问答对,涵盖11个细粒度评估维度和3种视觉物体引用类型。数据集包含广泛的物体类别,从厨房用具到电子设备,涵盖各种使用场景。视频长度从几秒到六分钟不等,确保了测试的多样性和全面性。
三、主流模型表现如何?
研究团队对市场上的主流多模态大语言模型进行了全面评估,包括专有模型(GPT-4o、GPT-4o-mini和Gemini-2.0-flash),开源模型(Qwen2.5-VL、InternVL2.5、VideoLLaMA2&3等)以及专注于物体理解的模型(VideoRefer、ViP-LLaVA等)。测试采用零样本推理方式,使用模型的默认设置进行评估。
人类在EOC-Bench上的平均准确率达到了惊人的94.63%,展示了人类在物体理解和时间感知方面的卓越能力。相比之下,即使是顶尖的专有模型GPT-4o也只达到了61.83%的准确率,与人类水平存在显著差距。
GPT-4o在各个子任务中表现相对均衡,但在过去维度的任务,特别是绝对时间感知(34.46%)和物体关系演变(46.56%)方面,即使提供了每帧的时间戳,模型的表现也不尽如人意。这表明模型在感知和记忆时间变化方面存在明显局限。
顶级开源模型如InternVL2.5-78B与闭源模型相比存在明显差距,比GPT-4o低9.5%。其他在现有基准测试上表现良好的视频大语言模型,如Qwen2.5-VL、VideoLLaMA3和NVILA,在我们的任务上表现欠佳,特别是在物体关系演变和绝对时间感知方面。许多这些模型在记忆回忆能力上存在显著限制。
物体级别的多模态模型,如最近的VideoRefer,表现优于许多竞争模型,突显了物体级别表示学习的有效性。然而,它们在处理复杂操作场景中的密集相似物体时,以及在动态时间变化的绝对时间感知任务中仍面临挑战。
研究团队还进行了不同问题类型的分析,发现许多模型在回答多选题方面面临挑战,得分低于随机猜测。这个问题在参数较少(7B或更少)的小型模型中尤为明显。研究者推测,这些小型模型可能在训练过程中过度拟合了简单的单选题,影响了它们处理多选项问题的能力。
此外,时间敏感度分析表明,许多模型(21个中的9个)在感知过去时间方面的表现低于随机猜测水平。即使是最强大的开源模型也只比随机机会高出13.1%,这凸显了当前大多数模型缺乏但对体感AI至关重要的能力。
随着模型规模的增加,它们处理未来导向问题的能力显著提升。例如,Qwen2.5-VL和VideoLLaMA3的不同参数版本在这些任务上展示了明显的性能提升。这表明较大的模型更善于处理需要前瞻性思维和预测推理的问题。
相比之下,过去导向的问题对模型构成了更大的挑战。虽然较小的模型可能在未来导向问题上挣扎,但较大的模型在处理过去导向问题时往往表现不佳。这种准确回忆和处理过去信息的困难是当前多模态大语言模型中的普遍问题,表明这是改进设计和训练的重要方向。
研究团队还评估了多帧输入对模型性能的提升。顶级专有模型GPT-4o和Gemini-2.0-flash在从单帧输入转向32帧输入时获得了显著性能提升,分别提高了24.6%和20.1%。这种改进在过去导向任务中尤为显著,分别提高了49.2%和60.2%。这些发现凸显了多帧推理在EOC-Bench中的关键作用,特别是对于记忆回忆任务。能够访问先前帧的信息可以显著增强当前和未来的理解。
四、错误分析揭示了什么问题?
为了深入了解模型的困难所在,研究团队对表现最佳的GPT-4o进行了全面的错误分析,检查了选择题和开放式问题的表现。
对于选择题,研究者随机抽样了300个错误案例,覆盖各个任务类别,并将错误分为四类:
1. 感知错误:这类错误与当前帧的感知问题有关,包括来自先前帧的干扰、对细节的不足关注、计数错误和帧内干扰。
2. 记忆错误:这类错误反映了对先前帧信息的错误观察或回忆,包括当前帧的干扰和缺失观察,表明32个采样帧可能不足以回答与记忆相关的问题。
3. 关系推理错误:这类错误涉及感知或推断物体之间简单关系的困难。
4. 知识错误:这类错误包括推理、常识和计算方面的问题。
在过去类别中,记忆错误占主导地位,占错误的93%。这些主要是由于对历史帧的处理不足(73%)和当前帧的干扰(17%)所致。剩余10%是缺失观察错误,这突显了固定帧采样策略的内在限制。这些发现指向GPT-4o在时间上下文建模方面的显著弱点,特别是在有效保留和使用跨帧信息以理解视频方面的困难。
在现在类别中,感知错误占61%,其次是知识错误(22%)和记忆错误(7%)。值得注意的是,帧内干扰构成了感知错误的显著部分,揭示了模型在区域级视觉感知方面的局限性及其对幻觉伪影的敏感性。这些观察表明空间感知仍然是一个持续挑战。
在未来类别中,约59%的错误与知识相关,表明推理能力和常识理解方面的局限性。
对于开放式问题,特别是与时间感知准确性相关的问题,研究者进行了基于密度的分析,比较了地面真相时间戳与模型生成响应之间的偏差。人类响应的分布表现出显著的峰值,随后是快速衰减,表明大多数人类答案实现了最小的误差比率,只有零星的较高不准确性。相比之下,五个表现最佳的模型(GPT-4o、LLaVA-Video-72B、VideoLLaMA3-7B、Qwen2.5-VL-72B和NVILA-8B)表现出更平坦的分布,更广泛的扩散。这种模式表明,这些模型在时间感知方面表现出更大的变异性,频繁产生特定情况下的更大错误。
这种差异突显了当前多模态大语言模型与人类水平时间感知之间的显著差距,暗示一些模型预测可能依赖于随机估计而非精确的时间理解。研究者还分析了模型在不同时间阈值(0.01、0.1、0.2和0.3)下的准确性,进一步证实了这一差距。
五、EOC-Bench的价值与展望
EOC-Bench为理解和改进多模态大语言模型在第一人称场景中的物体认知能力提供了一个重要工具。它系统地评估了模型在三个时间维度(过去、现在和未来)下识别、回忆和预测物体的能力,揭示了当前模型在时间感知和物体级理解方面的重要差距。
这些发现对开发更强大的体感认知系统具有重要意义。例如,在增强现实眼镜和机器人应用中,系统需要持续跟踪和理解物体的状态和位置变化,以便提供及时、相关的帮助。理解"咖啡杯在哪里"、"面包是什么时候烤好的"以及"如果我现在移动这个盘子会发生什么"这类问题对于创建真正有用的智能助手至关重要。
未来的研究方向可能包括:
1. 改进模型的时间感知能力,特别是绝对时间感知,这是当前模型表现最差的领域之一。
2. 增强多帧处理能力,使模型能更有效地利用视频中的时间信息。
3. 开发更专注于物体级理解的模型架构,可能结合更高效的视觉提示方法。
4. 扩展评估范围,包括更长视频中的长期记忆能力测试。
尽管EOC-Bench主要关注物体认知,但其设计原则和评估方法可以扩展到更广泛的体感理解任务,如行为识别、意图理解和场景变化预测。
总之,EOC-Bench不仅是一个评估工具,更是推动多模态大语言模型向更全面、更实用的体感认知方向发展的催化剂。随着这些模型能力的提升,我们可以期待看到更智能、更有用的体感AI系统在我们的日常生活中发挥作用。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。