微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 腾讯AI实验室和南洋理工大学联手破解AI推理的"记忆困境":让人工智能学会遗忘

腾讯AI实验室和南洋理工大学联手破解AI推理的"记忆困境":让人工智能学会遗忘

2026-03-13 11:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-03-13 11:56 科技行者

这项由腾讯AI实验室和南洋理工大学联合开展的研究发表于2026年2月11日,论文编号为arXiv:2602.08030v2。研究团队发现了当前AI推理模型面临的一个根本性问题,并提出了一个名为Free()LM的创新解决方案。

想象一下你的大脑就像一间书房,当你在解决复杂问题时,会不断地往书桌上放各种参考资料、草稿和笔记。起初这些材料都很有用,帮助你推进思考。但随着时间推移,书桌上积累的纸张越来越多,其中很多已经过时或冗余,最终整个桌面被杂乱的文件覆盖,你反而找不到真正需要的信息了。这就是当前AI推理模型面临的核心困境。

研究团队深入观察了现有的AI推理模型,特别是那些通过增加"思考时间"来解决复杂问题的模型。他们发现了一个令人惊讶的现象:这些模型就像只会往书桌上添加文件、却从不清理的学者一样,它们只有"申请新内存"的能力,却缺乏"释放无用内存"的机制。用计算机术语来说,这些模型只会执行malloc(内存分配)操作,却缺少相应的free(内存释放)功能。

这种"malloc-only"的工作模式导致了一个严重问题:当AI模型试图解决复杂问题时,虽然一开始会产生有用的推理步骤,但随着推理过程的延长,模型会产生越来越多的冗余信息、重复计算和错误尝试。这些"垃圾信息"不断堆积,最终会压垮模型的推理能力,导致性能急剧下降甚至完全失效。

研究团队通过大量实验验证了这一现象。他们使用Qwen3-8B模型在数学竞赛题目上进行测试,发现当模型的推理过程超过16000个词汇单位时,出现错误和重复循环的比例急剧上升。更令人震惊的是,在480个测试案例中,有31个达到了模型的最大处理长度限制,其中84%都陷入了重复循环的陷阱。当推理长度达到48000词汇单位时,模型的失效率达到了100%,完全无法正常工作。

这个发现揭示了当前AI推理的一个根本性悖论:我们原本期望通过让AI"思考"更长时间来获得更好的答案,但实际上过度的思考往往会带来更多的噪音,反而降低了解决问题的能力。就像一个人如果在解决问题时想得太多太杂,反而可能把自己绕糊涂一样。

面对这个挑战,研究团队提出了一个革命性的解决方案:Free()LM。这个方案的核心思想非常直观——既然问题出在模型只会积累信息而不会清理,那就教会它如何主动"遗忘"那些无用的信息。

Free()LM的工作原理就像给AI配备了一位专业的图书管理员。这位管理员会定期检查书桌上的所有文件,识别出哪些是过时的草稿、哪些是重复的计算、哪些是已经解决的子问题,然后果断地将这些无用信息清理掉,只保留对后续推理真正有价值的内容。

具体来说,Free()LM通过一个称为"Free-Module"的附加组件来实现这一功能。这个组件就像一个可拆卸的智能清理器,可以随时安装到现有的AI模型上。当清理器激活时,模型会暂停正常的推理过程,转入"清理模式",扫描整个推理历史,识别出冗余部分,并生成精确的删除指令。

这个删除过程非常巧妙。不同于简单的全文搜索替换,Free-Module会生成结构化的清理指令,指定要删除内容的开始和结束标记。比如,它可能会识别出一段从"让我重新计算这个方程"开始到"实际上这个方法行不通"结束的无效推理,然后精确地将这整段内容移除。这种方法既高效又准确,能够以最小的计算成本清除大段的冗余内容。

清理完成后,Free-Module会自动卸载,模型重新进入正常推理模式,在清洁过的环境中继续思考。这个过程会周期性地重复,确保推理环境始终保持整洁高效。

研究团队面临的一个关键挑战是如何训练这个清理系统。毕竟,判断哪些信息是"有用"的、哪些是"冗余"的,这本身就是一个复杂的认知任务。他们不能简单地告诉系统"删除所有看起来无用的内容",因为这种判断需要深度的语义理解。

他们采用了一种聪明的训练策略。首先,研究团队收集了大量真实的推理过程案例,然后使用先进的AI助手(如Gemini-2.5-Pro)来初步标注哪些部分可能是冗余的。但这还不够,因为即使是最先进的AI也可能出错,误删重要信息。

为了确保训练质量,研究团队设计了一套严格的验证机制。对于每一个候选的删除操作,他们都会进行多轮测试:保留删除建议的推理过程继续运行,看看最终能否得到正确答案。只有那些删除后不影响甚至能改善最终结果的操作才会被纳入训练数据。这个过程就像反复测试一个清理方案,确保清理掉的确实是垃圾,而不是有用的资料。

通过这种严格的筛选,研究团队从最初的8000个候选训练样本中筛选出了6648个高质量的训练实例。每个实例都经过了严格验证,确保删除操作的安全性和有效性。

研究团队在多个规模的AI模型上测试了Free()LM的效果,从80亿参数的小型模型到6850亿参数的超大型模型。测试结果令人鼓舞:Free()LM在所有测试的基准数据集上都取得了一致的性能提升。

在数学竞赛题目的测试中,Free()LM相比基础模型平均提升了3.3%的准确率。更重要的是,它在保持甚至提高准确率的同时,大幅减少了推理过程的长度。例如,在Qwen3-8B模型上,Free()LM将平均推理长度从17500词缩短到13800词,压缩了21.1%,但准确率却从44.24%提升到了48.14%。

这种"用更少的话说更准确的话"的能力正是Free()LM的核心价值。它证明了在AI推理中,质量比数量更重要,精炼比冗长更有效。

最令人印象深刻的是Free()LM在长期推理任务上的表现。研究团队测试了一些需要超过80000词推理的复杂问题,标准的Qwen3-235B模型在这些问题上完全失效,准确率降到了0%。但Free()LM却能够维持约50%的准确率,成功挽救了模型在长期推理中的崩溃。

这个对比就像两个人解同一道复杂的数学题:一个人不断地在纸上写满各种尝试和草稿,最后被自己的笔记搞得头晕脑胀,完全找不到思路;而另一个人会定期整理笔记,清除无用信息,始终保持思路清晰,最终成功找到答案。

研究团队还发现了Free()LM的一个意外优势:跨模型通用性。他们训练的清理组件不仅能在原始的Qwen模型家族上工作,甚至能够成功应用到完全不同架构的DeepSeek-V3.2模型上。在DeepSeek模型上,Free-Module同样实现了2.3%的准确率提升和45.99%的推理长度压缩。

这种跨架构的通用性暗示着Free-Module学到的可能是某种通用的推理清理能力,而不是针对特定模型的专门技巧。这为未来的应用开启了一个有趣的可能性:也许可以开发一个"通用推理清理服务",任何AI模型都可以调用这个服务来清理自己的推理过程。

为了深入理解Free()LM的工作机制,研究团队进行了详细的案例分析。他们发现,Free()LM能够精准识别出各种类型的冗余信息:重复的计算步骤、已经被证明错误的尝试、过度详细的中间解释,以及偏离主题的思考分支。

在一个几何证明题的案例中,Free()LM识别出模型在某个步骤后开始了一段关于"也许可以用坐标系方法"的思考,但随后又回到了原来的几何方法。Free()LM精准地删除了这段无关的坐标系探索,让推理过程保持聚焦。而相比之下,其他清理方法要么删除过头,把有用信息也清掉了,要么删除不够,留下了太多噪音。

研究团队还测试了Free()LM在不需要长期推理的常规任务上的表现,担心清理机制可能会对正常任务造成负面影响。结果显示,Free()LM在这些任务上基本维持了原有性能,甚至略有提升。这表明清理机制足够智能,知道何时该介入、何时该保持沉默。

从工程实现的角度,Free()LM展现出了良好的实用性。虽然增加了约56%的延迟成本,主要来自清理过程和重新处理修改后内容的开销,但它同时减少了45%的内存使用。在实际的AI服务部署中,内存往往是更紧张的资源,因此这种权衡通常是值得的。研究团队还指出,通过进一步的工程优化,延迟开销有望降低到约20%。

Free()LM的研究意义远不止于技术层面的改进。它挑战了AI发展中的一个基本假设:更多的计算时间总是带来更好的结果。研究表明,在AI推理中,就像在人类思考中一样,学会遗忘与学会思考同样重要。

这个发现可能会重新塑造我们对AI能力增长的理解。传统观点认为,AI的智能水平主要取决于模型规模和计算资源。但Free()LM的成功表明,智能的关键可能在于有效的信息管理,而不仅仅是信息处理能力。

从更广阔的视角来看,Free()LM触及了认知科学中的一个核心问题:遗忘在智能中的作用。人类大脑会自然地遗忘无关信息,专注于重要内容,这种能力对我们的认知效率至关重要。Free()LM可以看作是让AI获得类似能力的一次重要尝试。

研究团队的工作也为AI推理的未来发展指明了方向。他们提出,未来的AI系统应该从"malloc-only"的模式转向"malloc + free"的模式,既要有获取和处理信息的能力,也要有选择性遗忘和清理的能力。这种平衡可能是构建真正智能的推理系统的关键。

说到底,Free()LM告诉我们一个简单而深刻的道理:在追求AI智能的道路上,学会遗忘和学会思考一样重要。正如人类需要睡眠来整理和清除大脑中的无用信息一样,AI系统也需要主动的"清理"机制来维持推理的清晰和高效。这项研究不仅提供了一个实用的技术解决方案,更重要的是,它为我们重新思考智能的本质提供了新的视角。未来的AI发展可能不再是单纯的规模扩张,而是学会如何在复杂性和简洁性之间找到完美的平衡。对于普通人来说,这意味着未来的AI助手将变得更加高效和可靠,能够在处理复杂问题时保持思路清晰,避免被自己的"思考"过程拖累。这项研究的完整论文可以通过编号arXiv:2602.08030v2进行查询。

Q&A

Q1:Free()LM具体是如何工作的?

A:Free()LM就像给AI配备了一位专业清理员。它通过一个叫Free-Module的附加组件,定期扫描AI的推理过程,识别出重复计算、错误尝试等冗余信息,然后精确删除这些内容。整个过程分为两个模式:推理模式下正常思考,清理模式下识别和删除无用信息,然后继续推理。

Q2:为什么说现有的AI推理模型是"malloc-only"的?

A:现有AI模型就像只会往书桌上添加文件却从不整理的人。它们在解决问题时会不断产生各种推理步骤、尝试和中间结果,但缺乏清理无用信息的机制。就像计算机只会申请新内存(malloc)但不会释放无用内存(free)一样,这导致有用信息被大量垃圾信息掩埋。

Q3:Free()LM的效果有多好?

A:Free()LM在所有测试中都取得了显著提升,平均准确率提高3.3%,同时大幅减少了推理长度。最重要的是,在需要超长推理的复杂问题上,标准模型完全失效(0%准确率),但Free()LM能维持约50%的准确率。它证明了"用更少的话说更准确的话"的价值。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-