



这项由苹果公司的哈迪·普兰萨里(Hadi Pouransari)、大卫·格兰吉尔(David Grangier)等研究团队完成的突破性研究,发表于2025年10月的人工智能领域顶级期刊。有兴趣深入了解的读者可以通过论文编号arXiv:2510.02375v2查询完整论文。
当前的大型语言模型就像一个博学的图书管理员,为了回答各种问题,他们把整个图书馆的内容都背下来了。无论你问的是常识问题还是冷门知识,这个管理员都得把所有书籍内容装在脑子里。这样做的结果就是,这个管理员变得越来越"臃肿",需要消耗大量的计算资源和存储空间。
苹果公司的研究团队提出了一个颠覆性的想法:为什么不让这个图书管理员变得更聪明一些呢?他可以只记住最常用的基础知识和推理能力,而把那些冷门的专业知识分门别类地存放在不同的"专用书架"上。当有人询问特定领域的问题时,他只需要快速找到对应的书架,取出相关资料就行了。
这种新方法被称为"分层记忆预训练"。研究团队将人工智能模型分为两个核心部分:一个是负责基础推理的"锚定模型",另一个是存储专门知识的"分层记忆库"。锚定模型就像一个精明的助手,掌握常用知识和思维方法;而记忆库则像一个巨大的专业档案室,按照主题分层存储着各种专门知识。
为了验证这个想法,研究团队选择了一个很有趣的测试:让模型预测化学元素的原子序数。比如问"硅的原子序数是多少?"这类问题。结果令人惊讶:一个仅有1.6亿参数的小模型,配上1800万参数的专用记忆后,竟然能够达到与4.1亿参数传统模型相当的性能。更重要的是,在那些在训练数据中很少出现的冷门元素上,记忆增强模型的表现远超传统模型。
研究团队还发现了一个有趣的现象:那些在训练数据中出现频率低的元素,传统模型往往记不住,但配备了专用记忆的模型却能准确回答。这就好比一个学生,如果只是死记硬背,遇到平时很少练习的题目就容易出错;但如果他学会了查阅工具书的方法,即使是冷门题目也能找到正确答案。
**一、突破传统思维:从"全才"到"专家团队"**
传统的语言模型训练就像培养一个"全能选手"。无论是日常对话、专业问答还是创作任务,所有能力都要塞进同一个模型里。这种做法的问题在于,模型需要用有限的参数空间来存储无限丰富的世界知识,结果就是"样样通,样样松"。
苹果研究团队换了个思路:与其让一个人掌握所有技能,不如组建一个高效的专家团队。团队里有一个协调员(锚定模型),负责基础的语言理解和逻辑推理;还有许多专家顾问(记忆模块),每个人精通特定领域的知识。当遇到问题时,协调员会快速判断需要哪个专家的帮助,然后调用相应的专业知识来回答。
这种设计的巧妙之处在于,不同的专家可以并行工作,互不干扰。传统模型在学习新知识时,经常会"忘记"之前学过的内容,这种现象被称为"灾难性遗忘"。就像一个人学会了新技能后,反而把原来熟练的技能给忘了。而在新的架构中,每个记忆模块只负责相关领域的知识更新,大大减少了知识间的相互干扰。
更重要的是,这种分工明确的设计让模型的部署变得更加灵活。在资源受限的设备上,可以只加载基础的协调员模块和必要的专家模块,而把其他专业知识存储在云端或本地存储中,需要时再调用。这就像随身携带一个智能助手和几本常用手册,而把整座图书馆放在家里,既保证了便携性,又不失专业性。
**二、巧妙的知识分类:让AI学会"归档整理"**
要让这个专家团队高效运作,关键是要有一个好的知识分类系统。研究团队采用了一种叫做"分层聚类"的方法,就像给海量的文档建立一个多级目录系统。
整个过程可以比作整理一个巨大的档案室。首先,把所有文档按照主题分成16个大类,比如科学类、历史类、文学类等。然后在每个大类下面再细分16个子类,如科学类下分为物理、化学、生物等。这样一层层细分下去,最终形成了一个四层的分类体系,能够容纳超过6万个具体的知识类别。
这种分层结构的美妙之处在于它的层次性。当模型遇到一个关于化学的问题时,它会首先定位到"科学"这个大类,然后进入"化学"子类,再根据具体内容找到相应的专业知识模块。整个过程就像在图书馆里找书一样,先确定楼层,再找书架,最后定位到具体的书籍。
为了实现这种智能分类,研究团队使用了一种叫做"句子-BERT"的文本理解技术。这个技术可以理解文档的语义内容,而不仅仅是表面的关键词匹配。比如,即使两篇文档用词完全不同,但如果讨论的是同一个话题,这个系统也能识别出它们的相关性,并将它们归入同一类别。
**三、三种记忆类型:为不同任务量身定制**
在确定了知识分类方法后,研究团队还需要决定用什么方式来存储和调用这些专业知识。他们测试了三种不同的记忆类型,就像为不同用途设计不同的工具箱。
第一种是"LoRa记忆",这种方式就像给原有的工具添加小配件。它不改变模型的基本结构,而是在关键位置添加一些小的参数模块。这种方法的优点是改动较小,兼容性好,但存储容量相对有限。
第二种是"键值记忆",这种方式类似于建立一个专门的查找表。当模型需要某个信息时,它会用"键"来查找对应的"值"。这种方法在处理结构化知识时效果不错,但对于复杂的语义理解任务稍显不足。
第三种是"前馈网络记忆",这是研究团队最推荐的方法。它直接扩展了模型的核心计算单元,就像给发动机加装了专用的增压器。实验结果显示,这种方法在各种任务上都表现最佳,特别是在需要深度语义理解的场景中优势明显。
通过大量对比实验,研究团队发现前馈网络记忆在相同参数规模下能够提供最好的性能提升。这主要是因为前馈网络是语言模型中负责知识存储的核心组件,直接扩展这个部分能够最有效地增强模型的知识容量。
**四、智能硬件部署:让AI更贴近现实需求**
这种新架构最令人兴奋的特点之一,是它与现有硬件系统的完美契合。现代计算设备通常采用分层存储结构:高速但容量小的内存、中等速度的闪存,以及大容量但相对较慢的硬盘存储。
研究团队巧妙地利用了这种硬件特性。他们将最常用的基础知识和推理能力存储在高速内存中,确保基本功能的快速响应。而那些专业性较强、使用频率较低的知识则可以存储在较慢的存储介质中,需要时再调用。
更聪明的是,这种分层设计还支持"渐进加载"。比如,当用户开始讨论某个特定话题时,系统会预先加载相关的专业知识模块。一旦话题转换,原有的专业模块可以被卸载,为新的知识模块腾出空间。这就像一个智能的工具箱,会根据当前的工作需要自动调整工具配置。
这种设计对于移动设备和边缘计算设备特别有价值。传统的大型模型需要大量的内存和计算资源,很难在手机或平板电脑上流畅运行。而新的架构允许在设备上只运行核心的推理模块,而把大部分专业知识存储在云端或本地存储中,实现了性能和便携性的最佳平衡。
**五、训练策略创新:让AI学会"专业分工"**
训练这样一个分层记忆系统需要全新的策略。传统的模型训练就像让一个学生同时学习所有科目,而新的方法更像是先培养学生的基础能力,然后再让他们分别深入不同的专业领域。
研究团队采用了一种"协同训练"的方法。在训练过程中,基础模型(锚定模型)需要学会如何有效地利用专业记忆模块,而记忆模块则需要学会如何存储和提供有用的专业知识。这个过程就像培养一个团队的协作能力,每个成员都要明确自己的职责,同时要学会与其他成员有效配合。
有趣的是,研究团队发现,如果从一开始就让所有模块一起训练,效果反而不如先训练好基础模型,再添加记忆模块。这种现象类似于人类的学习过程:我们通常先掌握基本的语言和思维能力,然后再学习专业知识。模型似乎也遵循着类似的学习规律。
在训练过程中,不同级别的记忆模块更新频率也不相同。最高层的记忆模块(对应最宽泛的知识类别)更新最频繁,而最底层的记忆模块(对应最专业的知识)更新频率最低。这种设计确保了常用知识能够快速适应,而专业知识则保持稳定,避免被其他领域的训练数据干扰。
**六、显著成果:小模型也能有大智慧**
实验结果验证了这种新方法的有效性。研究团队在多个标准测试集上进行了全面评估,结果令人印象深刻。一个配备了记忆模块的1.6亿参数模型,在知识密集型任务上的表现甚至超过了传统的4.1亿参数模型。
更重要的是,这种性能提升主要体现在那些需要专业知识的任务上。在常识性问题上,两种模型的表现相当;但在需要专门知识的问题上,记忆增强模型显示出明显优势。这证明了新方法确实实现了专业知识的有效存储和调用。
研究团队还测试了"知识屏蔽"功能,即故意阻止模型访问某些记忆模块。结果显示,当阻止模型访问相关的记忆模块后,其在对应领域的表现急剧下降,这进一步证明了记忆模块确实在发挥预期的作用。这种特性对于数据隐私保护和内容管控具有重要意义。
另一个令人鼓舞的发现是,这种方法可以很容易地应用到已有的预训练模型上。研究团队成功地为Gemma、Qwen、Llama等多个开源模型添加了记忆功能,都取得了显著的性能提升。这意味着这种技术具有很强的通用性和实用性。
**七、与传统方法对比:为什么记忆模块更胜一筹**
为了证明新方法的优越性,研究团队还与传统的检索增强生成(RAG)技术进行了详细对比。RAG技术的工作原理是在回答问题时,临时从外部数据库中检索相关文档,然后基于这些文档生成答案。
对比结果显示,虽然RAG技术在某些情况下也能提升模型性能,但它需要消耗更多的计算资源,而且对外部数据库的质量要求很高。当使用高质量的数据源(如维基百科)时,RAG确实能带来一定改善;但如果数据源质量一般,效果就不太理想。
相比之下,记忆模块的优势在于它将知识"内化"到了模型中。这些知识经过了专门的训练和优化,不仅更加准确,而且访问速度更快。更重要的是,记忆模块不需要在推理时进行额外的检索操作,大大降低了计算开销。
研究团队的计算表明,在相同的性能水平下,使用记忆模块的方法比RAG技术节省了超过一半的计算资源。这对于实际应用,特别是在资源受限的环境中部署AI系统,具有重要的实用价值。
**八、技术细节剖析:让AI更聪明的技术密码**
深入到技术层面,这种分层记忆系统的核心创新在于它的"条件激活"机制。不同于传统模型中所有参数都要参与每次计算,新系统只激活与当前任务相关的记忆模块。这就像一个智能的开关系统,只打开需要的电路,其他部分保持休眠状态。
记忆模块的大小设计也很有讲究。研究团队发现,最有效的配置是让浅层记忆模块(对应广泛类别)容量较大,而深层记忆模块(对应具体类别)容量较小。这种"倒金字塔"结构反映了知识的分布特点:通用知识需要更多存储空间,而专门知识虽然重要但相对紧凑。
在训练数据的处理上,研究团队使用了一种叫做"文档聚类"的技术。他们将训练文档按照语义相似性进行分组,确保相关内容能够被分配到同一个记忆模块中。这种方法比简单的关键词匹配更加智能,能够捕捉到深层的语义关联。
特别值得注意的是,这种系统还支持"增量学习"。当有新的知识需要添加时,不需要重新训练整个模型,只需要更新相关的记忆模块即可。这大大降低了模型维护的成本,也使得知识更新变得更加灵活高效。
**九、实际应用前景:改变AI使用方式的可能性**
这项技术的应用前景非常广阔。在移动设备上,用户可以享受到接近大型模型的智能体验,而不需要担心电池消耗和存储空间的问题。系统可以根据用户的使用习惯,智能地预加载相关的知识模块,提供个性化的AI服务。
在企业应用中,这种技术特别适合构建专业化的AI助手。比如,医疗机构可以部署一个配备了医学知识模块的AI系统,而法律事务所可以使用装载了法律知识模块的版本。这种模块化的设计使得同一个基础系统可以适应不同的专业需求。
从隐私保护的角度来看,这种架构也提供了新的可能性。敏感的专业知识可以存储在本地的记忆模块中,而不需要上传到云端。这对于处理机密信息的行业特别重要,既能享受AI的便利,又能确保数据安全。
教育领域也是一个很有前景的应用方向。个性化的学习助手可以根据学生的学习进度和兴趣,动态调整知识模块的配置。这样既能提供准确的学科知识,又能根据学生的具体需求进行个性化指导。
**十、面临挑战与未来发展方向**
当然,这种新技术也面临一些挑战。首先是如何确定最优的记忆模块配置。不同的应用场景可能需要不同的模块大小和层次结构,这需要更多的实验和优化工作。
其次是知识更新的问题。虽然系统支持增量学习,但如何在保持已有知识稳定的同时,有效地整合新知识,仍然是一个需要深入研究的问题。特别是当新知识与已有知识存在冲突时,如何处理这种矛盾是一个技术难点。
计算资源的优化分配也是一个重要挑战。虽然新方法在总体上更加高效,但如何在不同硬件平台上实现最优的性能,还需要更多的工程优化工作。特别是在极端资源受限的环境中,如何确保系统的可用性是一个实际问题。
研究团队也指出,当前的工作主要集中在英语语言模型上,如何将这种技术扩展到多语言环境,以及如何处理不同语言间的知识迁移,都是未来需要探索的方向。
另外,如何建立更好的知识质量评估机制,确保记忆模块中存储的知识准确可靠,也是一个重要的研究方向。毕竟,再好的存储和检索机制,如果存储的是错误信息,那也是有害无益的。
说到底,苹果公司这项研究为我们展示了一种全新的AI设计思路。它不再追求单一模型的规模最大化,而是通过智能的分工协作来实现更高的效率和更好的性能。这种思路不仅在技术上具有创新性,在实际应用中也更加贴近现实需求。
归根结底,这项技术的真正价值在于它让AI变得更加实用和可及。无论是普通用户还是专业机构,都能够以更低的成本享受到更好的AI服务。这种技术民主化的趋势,正是推动AI普及应用的重要力量。
当我们回顾这项研究时,不难发现它体现了一种重要的技术哲学:有时候,智能的设计比单纯的规模扩张更重要。通过巧妙的架构创新,即使是相对较小的模型也能展现出令人惊喜的能力。这也许就是未来AI发展的一个重要方向:不是让机器变得更大,而是让它们变得更聪明。
对于关注AI技术发展的读者来说,这项研究提供了很多值得思考的启示。它告诉我们,技术创新不仅仅是数字上的突破,更是思维方式的转变。有兴趣了解更多技术细节的读者,可以通过论文编号arXiv:2510.02375v2查阅完整的研究报告。
Q&A
Q1:分层记忆预训练技术如何让小模型达到大模型的性能?
A:这种技术将AI模型分为两部分:负责基础推理的"锚定模型"和存储专门知识的"分层记忆库"。锚定模型掌握常用知识和思维方法,记忆库按主题分层存储专业知识。当遇到问题时,模型只调用相关的记忆模块,避免了传统模型需要将所有知识都装在一起的问题。实验显示,1.6亿参数的小模型配上记忆模块后,性能可达到4.1亿参数传统模型的水平。
Q2:这种记忆增强技术与现有的检索增强生成技术有什么区别?
A:主要区别在于知识存储和访问方式。检索增强生成需要在回答时从外部数据库临时检索信息,消耗更多计算资源且依赖数据库质量。而记忆模块将知识"内化"到模型中,经过专门训练优化,访问速度更快,不需要额外检索操作。研究显示,在相同性能下,记忆模块方法比传统检索技术节省超过一半的计算资源。
Q3:苹果的这项技术在实际应用中有哪些优势?
A:主要优势包括硬件适配性好、部署灵活、隐私保护强。它能充分利用现代设备的分层存储结构,将常用知识放在高速内存,专业知识存储在较慢介质中。支持模块化部署,不同行业可以配置专门的知识模块。敏感信息可以存储在本地记忆模块中,不需要上传云端。特别适合移动设备和资源受限环境,让用户以更低成本享受接近大型模型的智能体验。
 0赞
 0赞好文章,需要你的鼓励
 推荐文章
 推荐文章
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。
南洋理工大学与腾讯联合研究团队开发出Rolling Forcing技术,实现AI视频实时流式生成的重大突破。该技术通过滚动窗口联合去噪、注意力锚点机制和高效训练算法三项创新,解决了长视频生成中的错误累积问题,可在单GPU上以16fps速度生成多分钟高质量视频,延迟仅0.76秒,质量漂移指标从传统方法的1.66降至0.01,为交互式媒体和内容创作开辟新可能。
华中科技大学研究团队发现,通过让AI模型学习解决几何问题,能够显著提升其空间理解能力。他们构建了包含约30000个几何题目的Euclid30K数据集,使用强化学习方法训练多个AI模型。实验结果显示,几何训练在四个空间智能测试基准上都带来显著提升,其中最佳模型达到49.6%准确率,超越此前最好成绩。这项研究揭示了基础几何知识对培养AI空间智能的重要价值。