微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

ByteDance的AI新突破：让计算机记忆系统跃升到1200亿参数规模

人工智能记忆层架构稀疏计算

ByteDance的AI新突破：让计算机记忆系统跃升到1200亿参数规模

作者：科技行者

2025-09-03 11:37

分享至：

ByteDance研究团队开发的UltraMemV2成功让记忆层架构性能追平顶级8专家MoE模型，同时大幅降低内存访问成本。该技术通过五个关键改进，在长文本记忆等任务上表现更佳，验证了高达1200亿参数的可扩展性，为高效稀疏计算提供了重要替代方案，有望推动AI系统向更智能高效方向发展。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-03 11:37 • 科技行者

这项由ByteDance Seed团队的黄志豪、包宇、闵奇扬等研究人员完成的重要研究，于2025年8月27日发表在arXiv预印本平台上（论文编号：arXiv:2508.18756v1），为人工智能领域带来了突破性进展。想要深入了解技术细节的读者，可以通过论文代码页面https://github.com/ZihaoHuang-notabot/Ultra-Sparse-Memory-Network获得完整资料。

现代人工智能就像一个拥有超强记忆力的学生，但传统的AI系统在处理信息时面临着一个根本矛盾：要么拥有强大的计算能力但记忆访问成本高昂，要么记忆访问便宜但性能受限。这个问题困扰着整个AI界，就好比你想要一个既聪明又高效的助手，但现有的技术总是让你在两者之间做出妥协。

在AI的世界里，有一种叫做"混合专家"（MoE）的技术，它就像一个拥有多位专业顾问的智能系统。当遇到问题时，系统会选择最合适的几位专家来协同工作。这种方法确实很聪明，特别是当激活8位专家时效果最佳，但问题在于每次咨询专家都需要大量的"路费"——也就是内存访问开销，这让整个系统运行起来成本昂贵且缓慢。

与此同时，另一种叫做"记忆层"的技术则像一个巨大的图书馆，系统可以直接从中检索所需信息，访问成本相对较低。然而，之前的记忆层技术（比如UltraMem）虽然在效率方面表现不错，但性能却只能与使用2位专家的MoE系统相匹敌，与最优的8专家配置相比存在显著差距。

ByteDance的研究团队就像一群技艺精湛的工程师，他们决心打破这个技术瓶颈。他们开发的UltraMemV2系统，成功地让记忆层架构的性能追上了顶级的8专家MoE模型，同时保持了记忆访问的低成本优势。这项突破就好比他们找到了制造既快速又节能的超级计算机的方法。

研究团队的创新体现在五个关键改进上。首先，他们将记忆层深度整合到每个变换器块中，就像在每个房间都安装了智能助手，而不是只在几个房间设置。其次，他们简化了数值扩展过程，使用单一的线性投影替代了复杂的多层结构，这就像用一个简单高效的工具替代了繁琐的多步骤流程。

第三个改进来自对PEER技术的采用，这种基于前馈神经网络的数值处理方法，让系统能够更好地处理激活的数值，就像给图书管理员配备了更先进的分类系统。第四个关键点是优化了参数初始化方法，确保训练过程的稳定性，避免了训练发散的问题，这相当于为系统的学习过程制定了科学的起步规则。最后，他们重新平衡了记忆层与传统前馈网络之间的计算比例，找到了最优的资源分配方案。

实验结果令人印象深刻。在标准测试中，UltraMemV2达到了与8专家MoE模型相当的性能水平，但在需要大量记忆的任务上表现更加出色。具体来说，在长文本记忆任务上提升了1.6个百分点，多轮对话记忆提升了6.2个百分点，情境学习能力更是提升了7.9个百分点。这些数字背后反映的是系统在处理复杂、需要长期记忆的任务时的显著优势。

更重要的是，研究团队成功验证了这种技术在大规模场景下的可行性，他们构建的模型拥有高达1200亿个参数，其中25亿个参数在实际使用中被激活。这项工作还揭示了一个重要发现：激活密度（即每次使用多少参数）对性能的影响比总的稀疏参数数量更为关键，这为未来的系统设计提供了重要指导原则。

从技术发展的角度来看，UltraMemV2的成功意味着记忆层架构终于可以与最先进的MoE模型平起平坐，为高效稀疏计算提供了一个有力的替代方案。这不仅解决了一个长期存在的技术难题，更为构建更大规模、更高效的AI系统开辟了新的道路。

然而，研究团队也诚实地指出了当前系统的一些局限性。UltraMemV2在训练初期表现不如MoE模型，需要更多高质量数据才能发挥最佳性能。此外，要达到最优效果，系统需要在每个模型块中都配置记忆层，这增加了架构的复杂性。

这项研究的意义远不止于技术突破本身。它为AI领域提供了一种全新的思路，证明了通过精心设计的记忆机制可以实现高效且强大的智能系统。对于普通用户而言，这意味着未来的AI助手可能会变得更加智能和高效，在处理需要长期记忆的复杂任务时表现更佳，同时运行成本更低。

展望未来，UltraMemV2技术有望在需要处理大量历史信息的应用场景中发挥重要作用，比如长文档分析、多轮对话系统、个性化推荐等。随着技术的进一步成熟和优化，我们可能会看到更多基于这种记忆层架构的AI产品出现在日常生活中，为人们提供更智能、更高效的服务。

Q&A

Q1：UltraMemV2相比传统的MoE模型有什么优势？

A：UltraMemV2的主要优势在于显著降低了内存访问成本，同时在性能上达到了与8专家MoE模型相当的水平。特别是在需要长期记忆的任务上表现更加出色，比如长文本记忆提升1.6个百分点，多轮对话记忆提升6.2个百分点，情境学习能力提升7.9个百分点。这就像找到了一种既聪明又节能的计算方式。

Q2：UltraMemV2技术的核心改进包括哪些方面？

A：研究团队主要做了五个关键改进：将记忆层集成到每个变换器块中、简化数值扩展过程使用单一线性投影、采用基于前馈网络的PEER技术处理数值、优化参数初始化方法防止训练发散、重新平衡记忆层与前馈网络的计算比例。这些改进协同工作，让系统性能大幅提升。

Q3：UltraMemV2有什么局限性吗？

A：是的，UltraMemV2也有一些局限性。它在训练初期表现不如MoE模型，需要更多高质量数据才能发挥最佳性能，并且要达到最优效果需要在每个模型块中都配置记忆层。不过研究团队认为这些问题可以通过进一步优化得到改善。

人工智能记忆层架构稀疏计算

分享至

0赞

好文章，需要你的鼓励

推荐文章

多模态生成
智能搜索
统一架构

2026-04-08 16:47

加州大学洛杉矶分校、腾讯混元等推出Unify-Agent：一个能搜索全世界图片知识的AI画师

加州大学洛杉矶分校等机构联合推出的Unify-Agent突破了传统AI图像生成的知识局限，通过整合"思考-搜索-整理-绘制"四步工作流程，让AI画师具备主动查找资料的能力。该系统在FactIP基准测试中相关性指标提升61%，特别擅长处理需要准确世界知识的长尾内容和文化特色图像生成任务。
人工智能
科学创意生成
动态文献探索

2026-04-08 16:35

中科院团队首创FlowPIE：让AI像进化生物一样自动"孵化"科学创意，告别千篇一律的研究思路

中科院团队开发的FlowPIE系统首次将动态文献探索与创意进化相结合，突破传统AI科学创意生成的同质化局限。该系统通过流引导蒙特卡洛树搜索实现文献检索与创意生成的紧密耦合，并采用类生物进化机制持续优化创意质量。实验显示，FlowPIE在新颖性、可行性等维度显著超越现有方法，展现出强大的跨领域泛化能力，为AI辅助科研开辟了新路径。
单细胞基因组学
掩码离散扩散模型
虚拟细胞建模系统

2026-04-08 16:12

阿里巴巴DAMO院推出虚拟细胞世界：Lingshu-Cell让单细胞生物学迎来AI革命

阿里巴巴DAMO研究院推出Lingshu-Cell虚拟细胞建模系统，采用掩码离散扩散模型技术，能够精确模拟和预测细胞在基因编辑、药物刺激等干预下的反应。该系统在国际虚拟细胞挑战赛中表现出色，为个性化医疗和药物开发开辟了全新路径，标志着数字生物学时代的到来。
多模态生成
智能协作系统
轻量模型优化

2026-04-08 15:47

上海AI实验室推出GEMS：让小模型也能像大师一样生成完美图像

上海AI实验室联合多所高校发布GEMS技术，通过智能团队协作机制让60亿参数的小模型在图像生成上超越顶级商业模型。该系统包含循环优化、记忆管理和技能库三大核心，采用多轮迭代和专业技能匹配，在主流测试中提升14分以上，为资源受限环境下的高质量AI应用提供新方案。