微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 中科大团队打造MINED:让AI真正理解"今夕是何年"的多模态时间感知基准测试

中科大团队打造MINED:让AI真正理解"今夕是何年"的多模态时间感知基准测试

2026-01-12 09:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-01-12 09:34 科技行者

这项由中国科学技术大学、山东大学、慕尼黑大学等多所知名院校联合完成的研究发表于2025年10月的arXiv预印本平台,论文编号为2510.19457v1。研究团队由来自中科大的蒋凯林、王先昊等,山东大学的杜云涛等,以及慕尼黑大学的马云普等十多位研究人员组成,他们共同开发了一个名为MINED的全新基准测试,专门用来评估大型多模态模型对时间敏感知识的理解能力。

要理解这项研究的重要性,我们可以从一个简单的例子开始。当你问一个AI助手"照片中这个人现在在哪家公司工作"时,你期望得到的是最新的信息,而不是过时的答案。但现实情况是,大多数AI模型就像是拿着过期报纸的人,它们可能告诉你某位足球明星还在三年前的俱乐部踢球,即使这位球星早已转会到了新球队。这就是时间敏感知识理解的核心问题。

目前的大型多模态模型虽然在图像识别和文本理解方面表现出色,但它们对时间的感知却存在严重缺陷。就好比一个博学的人,他能认出照片中的每个名人,也能流畅地回答各种问题,但当涉及到"这个人现在的职位是什么"或"这家公司目前的CEO是谁"这类需要时间感知的问题时,他的回答往往不够准确。这种问题在实际应用中会造成信息误导,影响用户决策。

研究团队发现,现有的评估基准主要集中在静态知识测试上,缺乏对时间维度的全面考察。为了填补这一空白,他们开发了MINED基准测试,这个名字代表"多模态时间敏感知识的探索和更新"。这套测试系统就像是为AI模型设计的"时间感知能力考试",通过六个不同维度来全面评估模型的时间理解能力。

一、六维度时间感知能力全面体检

MINED基准测试的设计思路可以比作给AI模型进行一次全面的"时间感知体检"。这次体检包含六个不同的检查项目,每个项目都针对AI模型时间理解能力的特定方面。

第一个检查项目是"认知能力测试",这就像测试一个人的记忆力。研究团队设计了三种不同难度的问题来考验模型。最简单的是"时间无关问题",比如问"图片中的这个人目前在哪家俱乐部踢球",这类问题使用"目前"或"现在"这样的词汇,但不给出具体时间点。中等难度的是"时间区间感知问题",会给出一个时间范围,比如"2023年到2024年期间,这位球员在哪家俱乐部"。最难的是"时间戳感知问题",要求模型回答特定日期的情况,比如"2024年1月1日,这位球员在哪家俱乐部"。

第二个检查项目测试的是"时间错位感知能力"。这个测试特别巧妙,研究人员会故意提供一些时间上不匹配的信息,看AI是否能识别出问题。比如,他们会在问题中提到某位CEO在2020年的职位,但同时提供这位CEO在2023年工作情况的背景信息。这就像给一个人看一份写着"李明在2020年担任ABC公司CEO"的报告,然后问"李明在2023年在哪家公司工作",看这个人是否会被过时信息误导。

第三个检查项目考查的是"可信度判断能力",测试AI模型是否能识别出无法回答的问题。研究人员会问一些在指定时间点根本无法回答的问题,比如询问某家公司在成立之前的CEO是谁,或者询问未来某年的领导人。这种测试就像问"1800年的苹果公司CEO是谁"这样明显不合理的问题,看AI是否能够识别并拒绝回答。

第四个检查项目评估"隐含时间概念理解能力"。在日常交流中,人们经常使用隐含的时间表达,比如"当奥巴马担任总统期间"或"在第二次世界大战时"。这个测试要求AI模型能够理解这些隐含的时间概念,并据此回答相关问题。

第五个检查项目是"时间推理能力测试",包含两个子项目。一个是排序任务,要求模型对两个历史事件进行时间先后排序。另一个是计算任务,给出一个时间点和时间间隔,要求模型计算出另一个相关事件的时间。这就像让AI解答"如果某位CEO在1977年上任,那么36年后谁接替了他的职位"这样的问题。

最后一个检查项目测试"时间错误纠正能力",也就是AI的"自我纠错"能力。研究人员会先让AI回答一个问题,然后明确告诉它答案是错误的,看它是否能够纠正自己的错误。

二、海量真实数据构建测试题库

为了构建这套全面的测试系统,研究团队采用了一种类似"众包"的方法来收集数据。他们从维基百科这个全球最大的知识库中精心筛选和整理信息,确保测试数据的真实性和时效性。

整个数据收集过程可以比作编写一本"时间敏感知识百科全书"。研究人员专门雇用了两位专业标注员,就像编辑团队一样,负责从维基百科中提取和验证时间敏感的知识条目。他们重点关注六个领域:国家领导人、体育明星、公司高管、大学校长、组织负责人和赛事冠军。

每个知识条目都被结构化为一个四元组,包含主体(比如"梅西")、类别(比如"足球运动员")、属性(比如"效力俱乐部")和属性值列表(比如不同时期效力的俱乐部名单)。这种结构就像给每个人物或实体建立了一份详细的"时间履历表"。

特别值得注意的是,研究团队设定了一个明确的"知识截止日期"——2025年6月23日,这意味着所有测试问题的标准答案都以这个日期为准。这种做法确保了测试的公平性和一致性,就像统一考试的标准答案一样。

最终,MINED包含了2104个时间敏感知识样本和4208个测试问题,涵盖450张独特图片。为了减少不同问题表述可能带来的影响,研究团队为每个知识点设计了四种不同的问题表达方式,然后取平均分作为最终评估结果。这种"多角度验证"的方法大大提高了测试结果的可靠性。

三、当前AI模型的时间感知能力现状

研究团队使用MINED对15个主流的大型多模态模型进行了全面测试,结果揭示了当前AI技术在时间感知方面的真实水平。这些测试结果就像是给AI模型们进行了一次"时间感知能力大比拼"。

在这场比拼中,谷歌的Gemini-2.5-Pro模型表现最为出色,平均得分达到63.07分,相当于在百分制考试中获得了及格成绩。这个结果看似不错,但要知道,即使是表现最好的模型,在某些测试项目上的得分仍然不到30分。这就好比一个学生在不同科目上的表现参差不齐,有些科目勉强及格,有些科目则明显不及格。

相比之下,大多数开源模型的表现令人担忧。比如LLaVA-v1.5模型的平均得分只有15.85分,Qwen-VL模型也仅有25.67分。这些分数就像是参加考试的学生大部分都没有及格,说明当前的AI技术在时间感知方面还有很大的提升空间。

特别有趣的是,研究人员发现了几个值得关注的现象。首先,当问题包含具体时间戳时,AI模型的表现会明显改善。这就像给学生一个明确的时间参考点,他们能够更准确地回答问题。比如,问"这位球员在2024年1月1日效力哪家俱乐部"比问"这位球员目前效力哪家俱乐部"能得到更准确的答案。

其次,AI模型很容易被错误的时间信息误导。当研究人员故意提供时间上不匹配的背景信息时,模型的准确率会大幅下降。这种现象类似于人在接收到相互矛盾的信息时容易产生困惑,但AI模型这种困惑程度比人类更严重。

第三,几乎所有模型都能够正确识别明显不合理的时间问题,比如询问某公司成立前的CEO。但令人意外的是,它们更善于拒绝回答关于未来的问题,而不是关于过去的无法确定的问题。这可能是因为未来的不确定性更加明显,AI模型更容易识别。

第四,所有模型在理解隐含时间概念方面都表现糟糕。即使是最好的Gemini-2.5-Pro模型,在这一项测试中的得分也不到20%。这说明AI模型很难理解"当某某担任总统期间"这样的隐含时间表达。

第五,在时间推理任务中出现了一个有趣的现象:一些较小的开源模型在简单的排序任务上表现优于大型闭源模型,但在复杂的计算任务上则远不如大型模型。这可能是因为大型模型在处理简单任务时存在"过度思考"的问题,反而影响了准确性。

四、不同知识领域的表现差异

研究结果显示,AI模型在处理不同类型的时间敏感知识时表现存在显著差异,这种差异就像学生在不同学科上的偏科现象。

在组织机构类知识方面,AI模型表现相对较好。这类知识包括公司CEO、大学校长等职位信息。模型在这方面的良好表现可能源于这类信息在训练数据中的丰富覆盖,因为企业和教育机构的领导层变动通常会受到广泛关注和报道。

国家领导人相关的知识也是AI模型相对擅长的领域。这并不令人意外,因为政治人物和政府官员的任职信息通常具有高度的公开性和权威性,在各种媒体和官方文档中都有详细记录。

相比之下,AI模型在体育领域的表现最为糟糕,特别是在运动员转会和赛事冠军方面。这种现象可能有几个原因:体育信息变化频繁,运动员转会、教练更替等事件发生得很快;体育新闻虽然关注度高,但相比政治和商业新闻,其在AI训练数据中的比重可能较小;体育信息的表述方式更加多样化和口语化,增加了AI理解的难度。

这种领域差异反映了一个重要问题:AI模型的知识并非均匀分布,而是呈现出明显的"偏科"特征。这就像一个学生可能在历史和政治方面表现优秀,但在体育知识方面相对薄弱。

五、模型规模与时间感知能力的关系

研究团队还探讨了模型规模与时间感知能力之间的关系,发现了一些既符合预期又出人意料的现象。

总体而言,更大的模型在大多数时间感知任务上确实表现更好,这符合"规模效应"的一般规律。就像更有经验的专家通常能处理更复杂的问题一样,参数更多的AI模型通常具有更强的知识存储和推理能力。

然而,这个规律也有例外。在简单的排序任务中,一些较小的模型反而表现更好。比如,在判断两个历史事件先后顺序的任务中,MiniCPM-V2.6和InternVL2.5等中等规模模型的表现优于GPT-4.1和其他大型模型。这种现象可能是因为大型模型在处理简单任务时存在"思维过度复杂化"的问题,就像让一个博士生去做小学数学题,反而可能因为想得太复杂而出错。

研究人员还发现,即使使用相同的基础架构,采用不同底层语言模型的多模态系统也会表现出不同的能力。这说明多模态模型的时间感知能力不仅取决于模型规模,还与底层语言模型的质量密切相关。

六、时间信息分布的深层分析

为了更深入地理解AI模型的时间感知问题,研究团队对模型输出进行了详细分析,结果揭示了一些有趣的模式。

当要求AI模型回答"当前"或"目前"的问题时,研究人员将模型的答案分为三类:最新答案(包含最新的正确信息)、过时答案(包含过时但曾经正确的信息)和无关答案(完全错误或无关的信息)。

分析结果显示,开源模型不仅产生的最新答案较少,还会产生大量完全无关的答案。这就像一个信息不够准确的人,不仅容易提供过时信息,还可能提供完全错误的信息。相比之下,闭源模型虽然也会产生过时答案,但无关答案的比例相对较少。

通过对模型内部知识的时间分布进行分析,研究人员发现闭源模型的知识覆盖范围更广,能够涵盖更长的历史时期。而开源模型的知识主要集中在较近的时间段,对于较远历史时期的信息掌握不足。这种差异就像一个人的记忆,有些人能够记住很久以前的事情,而有些人只能记住最近发生的事情。

七、知识编辑技术的应用探索

面对AI模型在时间感知方面的不足,研究团队还探索了使用知识编辑技术来改善模型性能的可能性。知识编辑技术就像给AI模型"补课",通过特定的方法更新模型中的过时信息。

研究人员选择了两个表现较差的开源模型——LLaVA-v1.5和Qwen-VL作为实验对象,使用多种知识编辑方法对它们进行"升级改造"。这些方法可以分为两大类:一类是修改模型参数的方法,另一类是保持模型参数不变、通过外部记忆或检索来提供正确信息的方法。

在单次编辑实验中,结果令人鼓舞。FT-LLM方法表现最佳,能够将模型在各个测试项目上的得分大幅提升。比如,原本得分只有6.96的LLaVA-v1.5模型,在使用FT-LLM方法编辑后,在时间无关任务上的得分跃升至97.99。这种提升幅度就像一个考试不及格的学生经过针对性辅导后变成了优等生。

然而,当进行终身学习实验(即连续编辑多个知识点)时,情况变得复杂。大多数方法都出现了性能衰减,这种现象被称为"灾难性遗忘"。就像一个人在学习新知识时可能会忘记之前学过的内容一样,AI模型在更新新信息时也可能丢失原有的知识。

只有SERAC方法在终身学习场景下保持了相对稳定的性能,这是因为它采用了基于记忆的架构,能够将编辑后的知识显式存储起来,避免了灾难性遗忘问题。

八、技术创新与方法突破

MINED基准测试的技术创新主要体现在其全面性和系统性上。与以往的时间推理测试不同,MINED不仅考察AI模型对时间概念的理解,更重要的是评估它们对时间敏感知识的掌握和应用能力。

研究团队创新性地设计了"提示一致性"评估方法。由于同一个知识点可以用不同的语言表述,为了避免表述方式对评估结果的影响,研究人员为每个测试点设计了四种不同的问题形式,然后取平均分作为最终评估结果。这种方法就像让学生用不同方式回答同一个问题,确保评估的公平性和准确性。

在评估标准方面,研究团队采用了严格的"完全匹配"标准,只有当AI模型的输出与标准答案完全一致时才算正确。这种严格的标准虽然可能低估了模型的能力,但确保了评估的客观性和一致性。

为了保证测试的时效性,研究团队还设计了自动化的数据更新流程。他们利用现有的维基百科数据,通过自动化脚本定期提取和更新相关信息,确保测试数据始终反映最新的真实情况。这种设计使得MINED不是一个静态的测试集,而是一个能够持续演进的动态评估平台。

九、研究局限与未来方向

尽管MINED在评估AI模型时间感知能力方面取得了重要进展,但这项研究也存在一些局限性。

首先,目前的测试主要集中在六个特定领域,虽然这些领域具有代表性,但可能无法完全覆盖所有类型的时间敏感知识。未来可以考虑扩展到更多领域,如科技发展、医学进展等。

其次,当前的评估主要基于事实性知识,对于需要复杂时间推理的任务覆盖还不够充分。比如,评估AI模型是否能理解"如果某个历史事件没有发生,现在的情况会如何"这样的反事实推理能力。

第三,现有的知识编辑方法虽然在单次编辑中表现良好,但在终身学习场景下仍面临挑战。如何设计更好的知识更新机制,使AI模型能够持续、稳定地学习新的时间敏感知识,仍是一个开放性问题。

研究团队指出,未来的工作方向包括:开发更强大的时间推理算法,提高AI模型对隐含时间概念的理解能力;设计更好的知识更新机制,解决终身学习中的灾难性遗忘问题;扩展评估范围,涵盖更多类型的时间敏感任务;研究多模态信息融合在时间感知中的作用机制。

这项研究不仅为当前AI技术的发展水平提供了客观评估,也为未来的技术改进指明了方向。正如研究团队在论文中所言,时间感知能力是AI系统走向真正智能的重要标志,MINED基准测试为这一目标的实现提供了重要的评估工具和研究基础。

说到底,这项研究揭示了一个重要事实:当前的AI模型虽然在很多任务上表现出色,但在时间感知这个看似简单的能力上仍有很大不足。这就像一个博学的人可能会在"今天是星期几"这样简单的问题上犯错一样。MINED的出现为我们提供了一个标准化的"考试系统",让我们能够客观地评估和改进AI的时间感知能力。

随着AI技术的不断发展,我们有理由相信,未来的AI系统将能够更好地理解和处理时间相关的信息,真正成为我们生活中可靠的智能助手。而MINED基准测试将在这个过程中发挥重要的指导和评估作用,推动AI技术向更加智能、可靠的方向发展。

Q&A

Q1:MINED基准测试是什么?

A:MINED是由中科大等多所高校联合开发的AI时间感知能力评估系统,专门测试大型多模态AI模型对时间敏感知识的理解能力。它包含六个维度的测试,涵盖2104个时间敏感知识样本和4208个测试问题,就像给AI进行"时间感知能力体检"。

Q2:目前的AI模型在时间感知方面表现如何?

A:研究显示表现并不理想。即使是最好的Gemini-2.5-Pro模型平均得分也只有63.07分,大多数开源模型得分都在30分以下。AI模型容易被过时信息误导,在理解隐含时间概念方面尤其困难,在体育领域的时间感知能力最弱。

Q3:知识编辑技术能解决AI的时间感知问题吗?

A:部分可以。在单次编辑中,知识编辑技术能将模型表现大幅提升,比如将6.96分提升到97.99分。但在连续学习多个知识点时,大多数方法会出现"灾难性遗忘"问题,只有基于记忆的SERAC方法能保持相对稳定的性能。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-