微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI的"记忆"开始褪色：法国Kyutai研究院发现了让大模型"与时俱进"的关键秘诀

大语言模型时间感知顺序预训练

当AI的"记忆"开始褪色：法国Kyutai研究院发现了让大模型"与时俱进"的关键秘诀

作者：科技行者

2026-06-02 09:03

分享至：

法国Kyutai研究院发现，大模型训练数据按时间顺序排列而非随机打乱，可显著提升AI对近期知识的掌握，同时不影响通用语言能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-02 09:03 • 科技行者

这项由法国人工智能研究机构Kyutai主导完成的研究，发表于2026年第43届国际机器学习大会（ICML），收录于PMLR第306卷。论文编号为arXiv:2605.22769，感兴趣的读者可以通过这个编号检索到完整原文。

**AI为什么总是"活在过去"？**

每隔一段时间，你可能都会碰到这样的场景：你去问某个AI助手一个关于最近发生的事情的问题，它要么给你一个过时的答案，要么干脆说"我不知道这件事"。这并不是因为AI偷懒，而是因为它的"记忆"在某个时间点之后就被冻结了。就像一个朋友出了几年国，回来之后对国内发生的一切一无所知——不是他笨，只是他当时不在场。

这个问题在AI领域被称为"知识截止日期"问题，是所有大型语言模型（也就是我们常说的大模型，比如ChatGPT背后的那种AI）都面临的根本性困境。更让人费解的是，即便是那些理论上"应该知道"某件事的模型——因为那件事发生在它的训练数据截止日期之前——有时候也会答得一塌糊涂。这就好比你明明在考试前复习过这道题，但考试时还是没想起来答案，让人抓狂。

Kyutai的研究团队决定认真追查这背后的原因。他们提出了一个在整个大模型研究界此前几乎没人认真探讨过的问题：**训练数据的排列顺序，会不会影响AI究竟"记住了哪个时代的知识"？**

这个问题听起来简单，却意外地戳到了整个行业长期忽视的盲区。

**AI的"死记硬背"是怎么运作的？**

在深入研究之前，有必要先理解大模型是怎么"学知识"的。简单来说，训练一个大模型就像是让一个人在海量的书籍、网页、文章里疯狂阅读。阅读的内容越多，这个人知道的东西就越多，说话也就越像个博学的人。

但这里有个关键细节：这些书和网页是按什么顺序给这个"读书人"看的？

在目前业界的标准做法里，答案是：**完全随机打乱顺序**。2018年的新闻和2024年的新闻会被混在一起，像一副洗了又洗的扑克牌，AI在阅读时根本感知不到时间的流逝。这就好比让一个人学习历史，把所有年代的教科书全部撕碎，然后随机抽页来读——他最终会知道很多历史事件，但完全没有时间轴上的感知。

Kyutai的研究者们猜测，这种随机打乱的训练方式，可能正是导致AI"时间感知模糊"的根本原因。他们的想法是：如果换一种方式，**按照时间顺序给AI阅读材料**，让它先读2018年的内容，再读2019年的，以此类推，AI会不会因此获得更清晰的时间感知，对近期知识的掌握也更好？

为了验证这个想法，他们动用了相当规模的计算资源——128块高端GPU芯片——训练出了一个拥有60亿参数的大型语言模型（简单理解就是一个规模很大的AI）。他们把这套研究体系命名为"Kairos"，这个词来自古希腊语，意思正是"时间"。

**一场有严格对照的实验**

这项研究最严谨的地方在于，研究团队设计了一个有严格对照的实验。他们使用的原始数据来自互联网档案库"Common Crawl"，这是一个持续多年爬取互联网内容的公开数据集，涵盖了从2018年到2025年的大量网页文本。

原始数据在使用之前经过了细致的清洗处理。团队首先把所有内容从网页代码中提取出纯文字，剔除太短或太长的文档，然后用语言识别工具只保留24种欧洲语言的内容。接着，他们用一种叫"布隆过滤器"的技术去掉重复的段落，再用专门训练的质量评分模型把低质量内容过滤掉——给不同类型的内容分配不同的权重，比如书籍类内容权重最高，科学人文类内容权重较低。最终留下的是2.5万亿个文字单位（专业叫法是"token"）的高质量语料。

这份相同的数据，被分成了完全不同的两份"课程"交给两个模型学习。**第一个模型**采用传统做法，把2020年到2024年间的所有数据打乱顺序，随机喂给它，形成一个不分时间先后的"知识大杂烩"——这是对照组，研究者称之为"随机模型"（Shuffle）。

**第二个模型**则接受了一套严格按时间顺序排列的课程。它先学习2018年的数据，然后是2019年，再是2020年……一直学到2025年，完整经历了7年的知识积累过程——这就是研究的核心实验对象，研究者称之为"顺序模型"（Sequential）。

两个模型在其他所有方面——架构设计、参数量、学习率、批量大小等等——完全保持一致。这样一来，最终两个模型之间的任何差异，几乎可以100%归因于训练数据的排列顺序不同。研究团队还在顺序模型每学完一年的数据后都保存一个中间版本，这样就有了从2018年到2025年共8个"时间切片"版本，方便后续细致分析。

**专门为"时间感知"打造的考试题库**

要比较两个模型谁对时间感知更敏锐，就需要一套专门针对这一能力设计的考题。现成的评测工具不太够用，于是Kyutai的团队自己动手，从零开始构建了一套名为**KairosQA**的问答数据集，最终涵盖了超过7000道与时间紧密绑定的问题。

这套题目的数据来源是Wikidata——一个包含1.2亿多个条目的知识库，每条记录都带有时间标注。研究者们从中筛选出那些"答案会随时间变化"的事实关系，比如"某支球队的主教练是谁"、"某个奖项的获得者是谁"、"某个国家的领导人是谁"。关键的筛选条件是：**这些答案在2018年到2025年之间至少改变过两次以上**，这样才能真正测出模型对不同时间节点的感知精度。

为了让题目更具代表性，研究者还引入了一个"知名度权重"机制，优先选择那些在维基百科上浏览量较高的主题——因为越知名的事物，出现在训练数据里的频率就越高，这样测出来的结果才能反映模型真正的时间感知能力，而不是因为模型压根就没接触过这个冷僻话题而答错。

题目的生成方式也颇为精心。研究者首先为每种关系类型手工设计了一个问题模板，比如"谁是[球队名称]在[年份]的主教练？"，然后再用GPT-4o mini这个现成的AI工具来对每道具体题目进行多样化改写，让问题的表述方式有所变化，避免模型死记模板格式。答案的干扰选项则来自相邻年份的真实答案——比如问2024年的主教练，干扰项就是同一支球队在2022年和2023年的主教练，这让题目极具迷惑性，只有真正知道"某年"答案的模型才能答对。

整套数据库最终包含7167个"主体-关系"对，覆盖从2014年到2025年的多个时间节点，涉及体育、政治、商业、文化等多个领域。

**考试的两种方式：选择题和填空题**

KairosQA采用了两种互补的测试方式，分别捕捉模型能力的不同侧面。

第一种叫"完形填空评估"，其实就是让模型在给定几个候选答案的情况下选出最可能的那个。具体操作是把问题和每个候选答案拼在一起，看看模型给哪个候选答案分配了最高的概率分数。这种方式对于那些还没有完全学会"考多选题格式"的中途版本模型非常友好，因为即使模型不知道该如何规范地输出"选A"或"选B"，它内在的知识倾向仍然可以被捕捉到。

第二种叫"生成式评估"，更接近现实使用场景——直接给模型提问，让它自由输出答案，然后用F1分数（一种综合考量准确率和召回率的指标，可以理解为"答案重叠度打分"）来衡量它的表现。这种方式更难，因为模型必须真的"知道"那个时间点的答案，而不是从几个选项里蒙一个。

除了KairosQA，研究团队还用一个现成的时间感知评测集TAQA（由华盛顿大学的研究者创建，包含9000道从维基百科表格提取的时间相关问题）来做补充测试，时间范围覆盖2000年到2023年。

**常规能力：两个模型其实差不多**

在正式讨论时间感知能力之前，研究者必须先回答一个关键问题：**顺序训练会不会把模型其他方面的能力搞坏？**

毕竟，如果顺序模型在时间感知上进步了，但在日常语言理解、常识问答等基本任务上退步了，那这种方法就得不偿失。

研究者使用了一套叫做OLMES的综合评测基准来测量两个模型的通用语言能力，这套基准涵盖了MMLU（大规模多任务语言理解）等多项标准测试，覆盖数学、科学、历史等各种知识领域。

结果令人安心：**在训练完全结束时，顺序模型和随机模型的通用能力几乎完全相当**，最终分数相差无几。这说明"按时间顺序学习"并不会让AI变笨，它只是改变了AI学东西的路径，而不是最终能达到的天花板。

不过，两个模型的"学习曲线"确实有所不同。随机模型因为一开始就能同时接触到2020年到2024年所有阶段的数据，学习效率更高，在训练中段就已经领先顺序模型相当大的差距。顺序模型起步时只能接触2018年和2019年这两年的旧数据，质量相对较低，所以早期进展慢了许多。但随着时间推移，顺序模型稳定追赶，在训练进行到后三分之一阶段，它完成了追赶，最终的OLMES分数和随机模型相当，甚至略有超出。

研究者进一步用实验证明了这个"早期落后"的原因：他们把2021年的顺序模型中途插入2024年的高质量数据进行短暂微调，结果发现OLMES分数立刻提升了1.5个百分点（从71.7%提升到73.2%）。这证明早期的落后主要是因为旧数据质量较低，而不是顺序训练本身有什么天然缺陷。

**时间感知的测试结果：差距惊人**

通用能力相当，那时间感知能力呢？这才是整个研究的核心对决场。

当研究者用KairosQA测试两组模型时，结果相当戏剧性。**随机模型展现出了一种奇特的"时间错觉"**：它在回答2015年前后的历史问题时表现最好，在回答2020年前后的问题时还算不错，但对于2023年、2024年这些本应在它训练数据范围之内的近期问题，它的表现急速下滑，甚至接近随机乱猜的水平——那种退步的幅度就像一个人突然忘了去年发生的事情，却还记得十年前的旧闻。

这个现象揭示了随机训练模式下一个深层的系统性问题：互联网上关于过去事件的文字记录，往往比关于当下事件的记录要多得多。一件发生在2015年的大事，在2016年、2018年、2020年还会不断被回顾和引用；而一件发生在2024年的事，只有2024年那一批网页在讲它。这样一来，AI在学习时会不断重复强化历史知识，而近期知识只被"路过式地看了一眼"，自然而然留下更浅的印象。随机模型的"时间感知偏差"，本质上是数据分布不均衡的一种必然结果。

与之形成鲜明对比的是，**顺序模型的8个中间版本展示出了完全不同的知识分布规律**。每个"年份版本"的顺序模型，都在自己的训练截止年份附近表现最好，往后的年份成绩急速下滑（因为还没学到那些内容），往前的年份成绩也有所下滑（因为已经开始"忘记"更早的内容，专注于近期学习）。这种现象被研究者称为"近期偏好"（recency bias），意味着顺序模型成功建立了对时间的感知——它知道"最近"和"很久以前"的区别。

从量化数据来看，随机模型在KairosQA上评测2020-2021年问题和2023-2024年问题时的分数差距高达11%到39%不等（不同模型差异较大）。而顺序模型不仅在近期知识上大幅领先随机模型，还在与体量更大的开源模型竞争时表现出色——它的近期知识能力（2023年以后的内容）甚至超过了参数量是它两三倍的某些大型模型。

**与主流开源大模型的横向比较**

Kyutai的研究者并没有停留于内部对照，他们还把顺序模型和当前业界主流的几个开源基础大模型放在一起做了横向评测，包括Meta公司的Llama 3.1（80亿参数，训练截止2023年12月）、谷歌的Gemma3系列（40亿和120亿参数，训练截止2024年8月）、阿里巴巴的Qwen3系列（40亿、80亿和140亿参数，发布于2025年4月），以及艾伦人工智能研究院的OLMo3（70亿参数，发布于2025年10月）。

横向评测的结果相当有说服力。**所有这些主流开源模型都表现出了与随机模型类似的"时间衰退"特征**：它们对近期事件的掌握明显弱于对较早事件的掌握，而且这种趋势跟模型的参数规模关系不大——更大的模型只是在整体分数曲线上"垂直平移"了一下，时间感知的衰退模式依然存在。换句话说，把模型做得更大，并不能从根本上解决"时间感知"问题。

唯独Kyutai的顺序模型展示出了一个截然相反的趋势：随着时间推进，它的表现不降反升，在2023年和2024年的题目上反超了所有其他模型，包括那些参数量远超它的庞然大物。从具体的相对增益数字来看，顺序模型从2020-2021年到2023-2024年的F1分数提升了16%；而其他主流模型在同样的时间跨度内，下降幅度从11%到39%不等。

**顺序训练的代价：旧知识会逐渐消退**

当然，顺序训练并非没有代价。研究者在报告中诚实地指出了这种方法最明显的局限：**随着模型越来越专注于近期知识，它对较早时期知识的掌握会有所减弱**。

从实验数据来看，2025年版本的顺序模型（也就是完整训练完的最终版本）在回答2015年之前的问题时，表现反而不如那些"更年轻"的中途版本（比如2020年版或2021年版），尽管后者接触的训练数据总量少得多。这种现象叫做"遗忘"——在学习新知识的过程中，旧知识的印象被逐渐覆盖。

研究者尝试了两种方法来解决这个遗忘问题，但结果都不尽理想，反而揭示了这个问题的顽固性。

第一种方法叫"模型融合"（Model Soup）：研究者把8个不同年份的顺序模型权重按照不同比例混合，希望得到一个"融会贯通"的版本，既记得2015年的知识，又熟悉2024年的知识。实验结果令人沮丧——融合后的模型表现像是各个版本能力的平均值，而非各个版本最优能力的集合体。无论是均匀混合、线性加权还是指数加权，融合都会导致近期知识能力下降，同时对历史知识的召回也没有明显改善。

第二种方法叫"回放训练"（Replay Cool-down）：在最后一轮训练步骤中，把一半的新数据换成经过精心筛选的2020年历史数据，希望通过"温故知新"来拉回历史知识。这种方法在选择题测试中确实有些效果，但在生成式测试中基本没有改善，而且会导致2021年到2025年近期知识的表现有所下降。也就是说，无论怎么调整回放比例，都是在新旧知识之间的"零和博弈"中挣扎——提升了这边，就损失了那边。

这个发现说明，要真正解决顺序训练中的遗忘问题，可能需要全新的模型架构和训练机制，而不仅仅是调整数据配方。

**KairosQA自身的质量有多可靠？**

对于一套评测工具本身，研究者也做了严格的自我检验，确保它不是个"虚假考卷"。

其中一个潜在担忧是：在完形填空测试中，如果干扰选项太过明显，模型可能只需要排除法就能答对，而不需要真的知道正确答案。研究者通过增加选项数量来验证这一点——把4个选项依次增加到8个、10个、12个，观察模型的准确率变化。

结果表明，即使在只有2个选项的情况下，顺序模型也只能答对约58%的题目，远非"轻松拿满分"；随着选项增加到12个，准确率下降到约22%，但仍然显著高于随机猜测的基准线（约8%）。这说明干扰选项确实有效，模型必须真正掌握特定时间点的知识才能答对，而不是靠简单排除。更重要的是，准确率在选项数超过8个之后趋于稳定，不再随选项增加而大幅下降，这表明模型内部确实建立了对时间事实的稳定认知，而不是在靠运气猜测。

研究者还分析了知名度对答题准确率的影响。正如预期，越知名的主题（比如顶级体育联赛、重要政治人物），模型的答题准确率越高，F1分数可达0.4左右；而知名度较低的主题，准确率迅速下降到0.1到0.15之间。这种"头部效应"是一个客观局限——模型对那些在训练数据中频繁出现的热门话题掌握更好，对那些只零星出现过几次的冷门话题仍然力不从心。

**说到底，这项研究告诉了我们什么？**

归根结底，这项研究戳破了一个长期被行业默认的假设：大模型的训练数据只要量够大、质量够好，顺序无所谓。Kyutai的实验清楚地表明，**顺序不仅有所谓，而且可能是决定模型"时间感知"能力的最关键因素之一**。

现实世界里所有主流开源大模型的表现都证实了这一点——哪怕是刚刚发布的新模型，它们对近期知识的掌握都明显弱于对较早知识的掌握，而且这个问题无法仅靠增大模型规模来解决。用来自互联网档案的真实数据训练出来的顺序模型，是第一个展示出"反向时间曲线"——近期知识更好而非更差——的模型。

当然，顺序训练也有其无法回避的遗忘代价，这是目前这项研究尚未完全攻克的难题。研究者已经坦诚地说明了现有的几种尝试（模型融合、回放训练）均未能有效解决这个问题，这意味着"持续学习而不遗忘"仍是整个AI领域最棘手的挑战之一，需要未来在模型架构层面的根本性突破。

对普通用户来说，这项研究的长远意义在于：它开辟了一条让AI真正拥有清晰"时间轴"的新路径。一个对时间更敏感的AI，意味着你问它"今年的状况如何"时，它能真正理解"今年"是哪年，而不是把你带回几年前的旧时光。这对需要用AI处理时事新闻、市场动态、政策变化等实时信息的应用场景来说，意义相当重大。

Kyutai团队已经开源了他们训练出的所有年份版本的模型权重和KairosQA数据集，供研究社区免费使用。如果你对这个方向感兴趣，可以通过arXiv编号2605.22769查找完整论文，或者访问他们在GitHub上的开源项目kairos，亲自体验不同时间切片下的模型差异。

---

Q&A

Q1：大语言模型训练数据"打乱顺序"和"按时间顺序排列"有什么本质区别？

A：打乱顺序训练时，AI同时接触来自不同年份的内容，无法感知时间流逝，导致它对历史事件的印象反而比近期事件更深（因为旧事件被引用次数更多）。按时间顺序训练则让AI像人一样经历岁月推移，从2018年一路学到2025年，因此对近期知识的掌握更扎实、更准确，形成了清晰的"时间轴"感知。

Q2：KairosQA和普通AI评测题库有什么不同？

A：普通评测题库主要测试AI的通用知识和推理能力，不区分答案对应的时间点。KairosQA专门挑选那些"答案会随时间改变"的问题（比如球队主教练、奖项得主），把同一个问题放在不同年份来问，测量AI能否准确区分"2020年的答案"和"2024年的答案"，专门评估AI的时间感知精度，而非单纯考察它知不知道某件事。

Q3：顺序训练会让AI忘记历史知识吗，有办法解决吗？

A：确实存在这个问题。随着顺序模型学习越来越多的近期内容，它对早期知识的记忆会逐渐减弱。Kyutai团队尝试了两种解决方案：把不同年份的模型权重混合，以及在最后训练阶段加入旧数据"温习"。遗憾的是，这两种方法都只能在新旧知识之间做取舍，无法真正做到"既记旧又学新"，说明这一挑战需要未来在AI架构设计上做出根本性创新才能突破。

大语言模型时间感知顺序预训练

分享至