微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

谷歌与康奈尔大学联手：给AI大模型设计"睡眠机制"，让它学会像人脑一样巩固记忆

人工智能持续学习新型算法

谷歌与康奈尔大学联手：给AI大模型设计"睡眠机制"，让它学会像人脑一样巩固记忆

作者：科技行者

2026-06-08 17:33

分享至：

谷歌研究院与康奈尔大学联合提出"Sleep"框架，受人类睡眠启发，通过记忆巩固与做梦两阶段让AI大模型持续学习、抵抗遗忘并自我提升。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 17:33 • 科技行者

这项由谷歌研究院与康奈尔大学联合开展的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.03979，题为《Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories》。感兴趣的读者可通过该编号在arXiv平台上查阅完整论文。

**现在的AI，就像一个患了失忆症的天才**

你有没有注意到一件奇怪的事情？当你问ChatGPT一个问题，它能给你非常精彩的回答，但如果你问它去年刚发生的新闻，或者某个上个月才公布的科学发现，它往往一无所知——甚至还可能信心满满地给你一个过时的错误答案。这不是因为这些AI模型不够聪明，而是因为它们被"冻结"了。

一旦一个大型语言模型（简单理解为现在各种聊天AI背后的核心技术）完成了最初的训练，它的知识就停留在了那个时间点，就像一张被封存在琥珀里的快照。时间一天天过去，新的事件发生，新的知识涌现，但模型内部的"大脑"却一动不动。更糟糕的是，如果你试图强行更新它，教它学习新知识，它很可能会把之前学到的东西全部忘掉——这个现象在学术界被称为"灾难性遗忘"，就好比你拼命背单词的时候，脑子里原本牢记的数学公式全都消失了。

这就是谷歌研究院与康奈尔大学的研究团队试图解决的核心难题。他们的解决方案，受到了人类大脑一个最古老、最神秘的行为的启发——睡眠。

**一、人类为什么要睡觉？大脑的"夜间整理程序"**

在正式讲研究方案之前，有必要先聊聊人类的记忆是如何工作的，因为整个研究的逻辑都建立在这个基础之上。

神经科学家们发现，人类的记忆巩固分为两种截然不同的过程。第一种发生在清醒状态下，叫做"在线巩固"——当你白天学到一个新知识，大脑会立刻开始处理和稳定它，就像你在笔记本上记下一个临时的备忘。第二种更有意思，叫做"离线巩固"，它发生在你睡着之后。

睡眠并不是大脑的"关机"状态，恰恰相反，睡着的大脑其实异常忙碌。科学家已经发现，人类的睡眠分为两个关键阶段，它们轮流交替出现。第一个是慢波睡眠（NREM），在这个阶段，大脑会进行一种叫做"记忆巩固"的操作——它把白天学到的零散碎片化信息，从一个叫做海马体的临时存储区，慢慢迁移到大脑皮层这个更稳定、更长期的存储系统里。这个过程不是简单地"复制粘贴"，而更像是把杂乱的素材重新编辑、提炼，剔除无关的细节，保留最重要的模式和规律。第二个阶段是快速眼动睡眠（REM），这个时候大脑高度活跃，与清醒时几乎相同，是做梦的时候。REM睡眠负责把新信息与大脑里已有的知识网络编织在一起，探索新的关联，强化重要的神经连接。

研究团队由此得到了启发：如果AI模型也能拥有类似的"睡眠机制"，是不是就能解决知识冻结和灾难性遗忘这两大顽疾？

**二、今天的AI，像一个患了"顺行性失忆症"的人**

研究团队在论文中用了一个非常生动的比喻来描述现有AI的困境——顺行性失忆症。这是一种真实存在的神经疾病，患者无法形成新的长期记忆，但旧的记忆依然完好保存。最著名的案例是一位名叫H.M.的患者，他因手术失去了海马体，此后每天早上醒来都不记得昨天发生了什么，却清晰地记得二三十年前的往事。

现有的大型语言模型恰好有着类似的模式。这些模型的"记忆"基本上只有两种：一种是"当前对话的上下文"，也就是你和它在这次对话里说过的内容，一旦对话结束这些内容就消失了；另一种是被永久固化在模型参数里的"预训练知识"，就是它在训练完成时就确定下来、之后再也不会更新的知识库。前者就像短期记忆，后者就像长期记忆，但两者之间缺乏一座桥梁——没有机制能让短期的新知识流入长期的稳定存储中。

研究团队将这种架构进一步理论化，引入了一个叫做"连续记忆系统"（CMS）的概念框架。这个框架把模型内部的不同组件按照它们"更新频率"的高低排成一列：更新最频繁的部分（比如负责处理当前输入的注意力机制）就像短期记忆，更新最慢的部分（比如深层的全连接网络）就像长期记忆。在这个视角下，灾难性遗忘的根本原因就变得清晰了：当所有模块同步更新的时候，新知识会把旧知识挤掉，因为整个系统的容量是有限的。

**三、"Sleep"框架：给AI设计一个完整的睡眠程序**

研究团队提出的核心方案叫做"Sleep"框架，其思路正是模仿人脑的睡眠机制，为AI设计一套分阶段的离线处理流程。他们认为，一个真正能持续学习的AI，不应该被划分为"训练期"和"测试期"——这种划分本身就是人工的，与真实世界的学习不符。更合理的模型是：AI存在两种状态，一种是"清醒活跃"状态，负责接收和处理外部输入；另一种是"睡眠"状态，不接收新的外部信息，专注于内部知识的整理、巩固与自我提升。

整个Sleep框架由两个依次进行的阶段组成，对应着人类睡眠中的慢波睡眠和快速眼动睡眠。

第一个阶段叫做"记忆巩固"，对应慢波睡眠。这个阶段的核心任务是把存储在高频率（不稳定）模块中的知识，迁移并巩固到低频率（稳定）的模块里。为了实现这个目标，研究团队设计了两个相互配合的机制：参数扩展和知识播种。

关于参数扩展，可以这样理解：模型的"容量"是有限的，如果你不断往一个固定大小的盒子里塞东西，新来的东西就会把旧东西挤出去。大脑解决这个问题的方式是神经可塑性——在需要的时候，大脑会生长出新的神经连接，从而扩大存储空间。研究团队模仿这个机制，设计了一套"渐进式参数激活"方案：在每次睡眠周期到来时，系统会在更稳定的记忆模块里激活一批之前一直处于"休眠"状态的新参数（以轻量级的低秩矩阵形式存在，这是一种高效的参数扩展技术），专门用来存放即将迁移过来的新知识。这样一来，新知识有了专属的存储空间，不会干扰已有的旧知识。等到下一次睡眠周期，当这批知识已经成功迁移到更稳定的模块后，之前高频模块里临时存储这些知识的参数就会被"清空重置"，腾出空间迎接下一轮新知识——这个清空过程类似于人脑中的"突触修剪"，把用不上的冗余连接删掉以提升效率。

值得一提的是，论文中还指出一个有趣的实现细节：这些"休眠"参数其实一开始就存在于模型内部，只是被屏蔽了，不参与前向计算和反向传播。这与我们对人脑的理解高度吻合——人脑的总容量大致固定，并不会在成年后不断生长出全新的神经元，但大脑中神经元之间的连接可以在一生中不断形成、强化或修剪。

**四、知识播种：一场"小我"教会"大我"的奇特课程**

有了新的存储空间，下一个问题就是：怎么把知识从高频模块迁移到低频模块？研究团队为此设计了一套叫做"知识播种"（Knowledge Seeding）的方法，这是整个框架里技术上最精妙的部分。

知识播种本质上是一种"知识蒸馏"，但方向非常反常——通常情况下，知识蒸馏是让大模型去教小模型，就像有经验的老师把知识传授给年轻学生。但知识播种做的是完全相反的事：让小模型（高频率、参数较少的旧版模型）把知识蒸馏给大模型（加入了新参数之后容量更大的新版模型）。这就好比一个知识丰富但脑容量受限的旧版自己，把积累下来的精华传授给了一个刚刚获得更多脑细胞、潜力更大的新版自己。

这个过程面临两个挑战。第一，学生（新版大模型）比老师（旧版小模型）拥有更强的表达能力和潜力，如果只是让学生死记硬背老师说的话，就是对新增容量的浪费；第二，由于模型处于睡眠状态，没有外部数据可用，所有的学习材料必须靠自己生成。

为了解决这两个问题，研究团队借鉴了一个叫做"广义知识蒸馏"（GKD）的方法，并在此基础上加入了强化学习思路。具体流程是这样的：首先，用旧版小模型（老师）生成一批合成数据，相当于老师出了一套题目和答案。接着，新版大模型（学生）不仅要学习老师的答案，还要生成自己的答案，并与老师的答案进行对比，以此获得实时反馈。这个混合了老师数据和学生自产数据的训练方式，就像既让学生抄习题册又让他自己做练习，两者结合效果更好。

在这之上，研究团队还加了一个叫做"模仿学习"（Learning to Imitate）的环节，这是整个知识播种框架里的强化学习部分。具体做法是：从老师生成的数据中随机截取一段前缀，然后要求学生续写后半段，学生的奖励根据两个维度来打分——语义上是否与老师的原版一致（就像两段话说的是不是同一个意思），以及字面上的相似程度（用一种叫做"编辑距离"的指标来衡量，即需要改动多少个字才能让学生的答案变成老师的答案）。这个机制迫使学生不仅要理解老师的知识内容，还要学会像老师一样去表达和运用这些知识。整个知识播种的训练目标把上述的蒸馏部分和模仿学习部分加权结合，通过一个控制参数在两者之间灵活调节侧重点。在整个知识播种过程中，模型原有的参数全部冻结，只有新扩展的参数会被更新，这从根本上杜绝了旧知识被覆盖的风险。

**五、梦境：睡眠的第二阶段——让AI学会"做梦来强化自己"**

完成记忆巩固之后，Sleep框架进入第二阶段：做梦（Dreaming）。这对应人类睡眠中的REM快速眼动阶段。

如果说记忆巩固的任务是"稳定已有知识，防止遗忘"，那么做梦的任务就是"主动探索，进一步提升能力"。在这个阶段，模型不接收任何外部输入，完全依靠自己生成"梦境"——也就是人工合成的训练数据——然后用这些数据来训练自己，进行自我提升。

这个思路并不全新，AI领域已经有一些类似的"自我改进"方法，其中一个叫做SEAL的系统是研究团队直接参考的对象。但直接沿用SEAL存在三个问题：第一，SEAL每次自我编辑都需要完整的监督微调，计算代价很高，能生成的"梦"的数量有限；第二，在持续学习的场景下反复进行自我改进，可能会导致灾难性遗忘；第三，SEAL只会在模型已有的知识空间里采样，而做梦的一个重要功能恰恰是探索新颖的、超出常规思维的组合——毕竟，很多灵感就是在梦里产生的。

研究团队的做梦流程是这样设计的：给定一个具体任务（包括任务相关的背景信息和评估标准），模型先生成一批合成的"梦境"数据。为了引入多样性和新颖性，在采样过程中，模型内部的混合专家路由器（可以理解为模型内部的一个"分工调度员"）除了会选择与任务最相关的专家模块，还会额外随机激活一个不相关的专家模块，把看似风马牛不相及的知识也引入到梦境生成中，从而产生意想不到的新联系。

生成了一批梦境之后，并不是所有梦都有用。研究团队设计了一套基于梯度的筛选机制来判断哪些梦境最有潜力——直觉上理解，就是看"如果用这条梦境数据来训练自己，模型的参数会发生多大的变化"，变化越大说明这条数据信息量越丰富，越值得学习。系统选取变化最大的若干条梦境，再额外随机抽取几条以保持多样性，形成最终用于自我训练的数据集。对于每一条被选中的梦境，系统用高效的低秩适配技术（LoRA）对模型进行微调，然后测试微调后的模型在任务上的表现是否有所提升，以此作为奖励信号，通过强化学习来优化整个"产梦-筛梦-自学"的流程。

**六、实验结果：真的有效吗？**

研究团队在四类不同的任务上对Sleep框架进行了全面的实验验证。

在持续学习任务上，团队测试了一项叫做"类增量学习"的能力，简单说就是让模型按顺序学习不同的新类别，考验它能否同时记住旧类别又学会新类别。在CLINC、Banking和DBpedia三个标准数据集上，使用了Llama-3B和Llama3-8B作为底层模型，结果一致显示配备Sleep框架的Hope架构在准确率上显著优于传统的上下文学习方法、弹性权重巩固等既有技术。

在语言翻译的持续学习测试中，实验设计更具挑战性：让模型顺序学习满语和卡拉芒语两种在预训练中从未见过的语言，然后评估它对两者的翻译能力。普通的上下文学习方法在学习了第二种语言后，第一种语言的翻译成绩急剧下滑，几乎退回到原始状态。而配备了Sleep框架的版本随着巩固阶段数的增加（Hope-1、Hope-2、Hope-3），表现稳步提升，Hope-3几乎能在持续学习条件下恢复到单独学习每种语言时的成绩。作为对比，文中提到Cartridges和监督微调两种方法在这个任务上都出现了至少一种语言的灾难性遗忘，表现甚至弱于普通的上下文学习。

在超长文本理解方面，研究团队在BABILong这个极端测试集上进行了评估，该测试集要求模型处理最长达一千万个词符的超长文本——相当于几十本长篇小说的体量。GPT-4这样的大模型在文本超过二三十万词符之后性能就开始急剧下滑，到百万词符级别基本失效。带检索增强的Llama-8B也无法稳定处理超过几十万词符的情况。而在加入Sleep框架后，模型在一千万词符级别依然保持近乎完美的准确率，远超所有对比系统。

在长文本理解的细粒度评估中，实验通过改变巩固阶段的数量和最慢记忆模块的更新频率来考察框架各部分的贡献。结果表明，随着巩固阶段数量的增加，在三个不同的长文本理解基准上性能持续提升，说明睡眠机制确实在帮助模型将信息更好地抽象和压缩进更稳定的参数里。

在数学推理任务上，研究团队将Sleep框架与监督微调、GRPO强化学习方法进行了对比，在AIME-24、AIME-25和HMMT-25三个高难度数学竞赛测试集上，使用了Qwen3-1.7B和Qwen3-8B两种规模的模型。以Qwen3-8B为例，基础指令微调版本在AIME-24上得分73.8，监督微调提升到75.5，GRPO进一步提升到76.4，而Sleep框架则达到了79.2，领先优势相当明显。

在知识整合任务上，模型需要学习SQuAD阅读理解数据集里的新事实，然后在没有原文背景的情况下回答相关问题。单次学习一篇文章的场景下，Sleep框架（使用四层记忆系统的版本）达到48.9的准确率，而基础模型是31.9，SEAL是46.7。在持续学习200篇文章的场景下，Sleep框架达到46.2，SEAL是43.2，优势进一步扩大。

在少样本抽象推理任务上，以Llama-3.2-1B为底层，Sleep框架实现了80%的成功率，而普通上下文学习是0%，测试时训练是10%，SEAL是72.5%。

消融实验验证了每个组件的必要性：去掉模仿学习环节、去掉语义奖励、去掉参数扩展，都会造成不同程度的性能下降；而去掉做梦阶段的影响最为显著，知识整合准确率从48.9直接下降到35.7，说明做梦阶段是整个框架不可或缺的组成部分。

在计算效率方面，对比训练到相同性能水平所需的时间，监督微调需要4.3倍到4.8倍的实际计算时间才能追上Sleep框架的成绩，说明Sleep框架在达到同等性能的前提下反而更加高效。

**七、与现有技术的本质区别**

研究团队在论文中专门花了很大篇幅来阐述Sleep框架与最近涌现的"在策略自蒸馏"（OPSD）系列方法之间的本质区别，因为两者表面上都涉及"用自己训练自己"，但内核截然不同。

在策略自蒸馏的核心逻辑是：给同一个模型一个"有特权信息"的版本作为老师，给一个"普通信息"的版本作为学生，让学生模仿老师。这类方法在数学推理、代码生成、多语言对齐等具体任务上都取得了不错的效果，并且产生了大量后续研究。但这类方法有一个共同局限：老师和学生共享同一套参数，模型的总容量保持不变。

Sleep框架与之不同之处体现在四个维度。第一，Sleep的知识播种是一种"向上蒸馏"——容量更小的旧版模型作为老师，容量更大（经过扩展）的新版模型作为学生，这从根本上把灾难性遗忘重新定义为一个"容量不足"问题而非"采样分布"问题，并通过渐进式参数增长来解决它。第二，Sleep维护了一条由不同更新频率的记忆模块构成的连续谱，在每一对相邻频率的模块之间都进行知识巩固，而不是在一对固定的老师-学生之间进行一次蒸馏。第三，Sleep不仅有类似慢波睡眠的巩固阶段，还有类似REM睡眠的做梦阶段，后者通过梯度导向的数据选择和混合专家路由器的随机激活，主动探索新颖知识组合并抵抗迭代自我改进过程中的遗忘风险，而这正是近期多篇OPSD研究揭示的失效模式所在。第四，Sleep的知识播种在在策略蒸馏的基础上额外引入了基于强化学习的模仿学习目标，让更大的学生不仅继承老师的知识内容，还学会了老师运用知识的方式。

说到底，这项研究做的事情，是在回答一个听起来简单却极为深刻的问题：一个真正能持续学习的AI，应该是什么样的？研究团队的答案是：它应该像人一样，不仅在醒着的时候积极学习，还需要定期"睡一觉"，让大脑把白天接收的零散信息整理成稳固的长期知识，同时还要会"做梦"，在梦中将不同的记忆碎片重新组合，探索新的可能。

归根结底，当前的AI模型之所以会陷入知识过时和灾难性遗忘的两难困境，根本原因在于它们的架构从一开始就没有为持续学习做好设计。Sleep框架提供的不是一个小修小补的补丁，而是一套从架构层面重新定义AI学习周期的思路——将"清醒-睡眠"这个生物学意义上最基本的节律，转化为AI系统能够落地实现的工程机制。

当然，这项研究也有其局限性。论文中的实验主要基于几个具体的模型和基准数据集，Sleep框架在更大规模模型上的表现、在更广泛任务类型上的适用性，以及长期运行多个睡眠周期后参数规模不断膨胀带来的工程挑战，都还需要未来研究进一步探索。不过，从已有的实验结果来看，这个方向的价值是切实存在的。

如果你对这项研究的技术细节感兴趣，可以通过arXiv编号2606.03979找到完整论文，亲自体验一下那些更深入的数学公式和实验设定。

---

Q&A

Q1：大型语言模型的"灾难性遗忘"是什么意思？

A：灾难性遗忘是指AI模型在学习新知识的过程中，把之前已经学好的旧知识覆盖掉的现象。就像你强行背了一堆新单词，结果把原本熟练掌握的数学公式全忘了。这是目前让AI持续学习新知识面临的最大技术障碍之一，因为模型的参数容量有限，新内容进来就会把旧内容挤出去。

Q2：Sleep框架的"做梦"阶段具体是怎么让模型提升自己的？

A：Sleep框架的做梦阶段是让模型在不接收外部数据的情况下，完全靠自己生成合成训练数据（即"梦境"），再用这些数据训练自己。为了让梦境更有用，系统会通过梯度打分筛选出最有信息量的样本，同时随机激活不相关的知识模块来产生新颖组合。用这批精选梦境对模型进行微调后，以任务表现是否提升作为强化学习的奖励信号，循环优化整个"产梦-筛梦-自学"流程，实现无需人工干预的自我提升。

Q3：知识播种为什么要让小模型教大模型，而不是反过来？

A：这是Sleep框架最反直觉的设计之一。传统知识蒸馏是大模型教小模型，把知识压缩下去。但Sleep框架在记忆巩固阶段需要把已有知识迁移到新扩展的更大容量模块里，所以方向反过来了——原有的小版本模型作为老师，把它积累的知识"播种"给刚获得新参数、容量更大的版本。这样做的好处是新增的参数有了专属的学习目标，不会干扰旧参数里已有的知识，从根本上避免了灾难性遗忘。

人工智能持续学习新型算法

分享至