微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

三星AI实验室7M参数小模型击败千亿LLM：递归推理的"小而美"革命

人工智能递归推理参数优化

三星AI实验室7M参数小模型击败千亿LLM：递归推理的"小而美"革命

作者：科技行者

2025-11-06 14:08

分享至：

三星AI实验室提出的小型递归模型（TRM）仅用700万参数就在数独、迷宫和ARC-AGI等复杂推理任务上超越了千亿参数的大型语言模型。TRM通过递归改进答案的简洁机制，避免了复杂数学理论的依赖，用单一的2层网络替代了多网络架构。这项研究证明了在某些任务上，精巧的算法设计比参数堆叠更有效，为AI技术的民主化和普及提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-11-06 14:08 • 科技行者

这项由三星AI实验室蒙特利尔分部的Alexia Jolicoeur-Martineau博士领导的研究发表于2025年10月，论文编号为arXiv:2510.04871v1。该研究提出了一种名为"小型递归模型"（Tiny Recursive Model，简称TRM）的新方法，仅用700万参数就在多项复杂推理任务上超越了拥有数千亿参数的大型语言模型。

说到底，当我们谈论人工智能的发展时，总是绕不开一个问题：是否只有更大的模型才能带来更好的性能？过去几年里，AI模型就像房子一样越建越大，从几百万参数发展到现在的万亿参数规模。然而，这项来自三星AI实验室的研究却给出了一个颠覆性的答案——有时候，小而精确的工具比庞大笨重的机器更有效。

研究团队面对的是一个现实问题：当前的大型语言模型虽然在很多任务上表现出色，但在需要严密逻辑推理的难题上却经常束手无策。比如解数独、走迷宫或者ARC-AGI这样的几何推理题，这些对人类来说相对简单的问题，却让那些拥有数千亿参数的AI巨无霸们频频出错。就像一个博学的教授在解决复杂的数学证明时游刃有余，但在九宫格数独面前却抓耳挠腮一样。

问题的根源在于，大型语言模型采用的是自回归生成方式，就像写作文一样一个词接一个词地输出答案。这种方式的致命缺陷是，一旦某个环节出现错误，后续的所有内容都可能偏离正轨。想象你在计算一道复杂的数学题，如果第三步就算错了，那么后面无论多么仔细都无法得到正确答案。

为了解决这个问题，AI研究者们提出了各种补救措施。其中最著名的是"思维链"（Chain-of-Thought）方法，让模型在给出最终答案前先展示推理过程，就像学生解题时需要写出详细步骤一样。另一种方法是"测试时计算"（Test-Time Compute），通过多次尝试然后选择最常见或得分最高的答案。但即便如此，在面对真正困难的推理任务时，这些方法仍然力不从心。

正是在这样的背景下，王等人在2025年提出了"分层推理模型"（Hierarchical Reasoning Model，简称HRM）。这种方法就像给AI装上了两个不同频率工作的大脑，一个负责高频的细节处理，另一个负责低频的整体把控。通过让这两个"大脑"反复交流协作，模型能够在多个监督步骤中逐步完善自己的答案。

HRM的核心创新在于"递归分层推理"和"深度监督"两个机制。递归分层推理就像一个经验丰富的医生诊断疾病时的思维过程——既要关注具体症状的细节分析，又要从整体上把握病情的发展趋势。两个神经网络分别扮演这两种角色，一个专注于频繁的局部推理，另一个负责较少频次但更宏观的判断。深度监督则类似于学生做作业时的反复修改过程，每完成一轮推理后，模型会保留当前的思考状态，然后在此基础上进行下一轮的改进。

这种方法在实际应用中展现出了令人印象深刻的效果。在极难数独、迷宫寻路和ARC-AGI等任务上，HRM明显超越了传统的大型语言模型。但研究团队发现，HRM虽然有效，却也存在一些令人困惑的问题。

一、递归推理的数学基础存在薄弱环节

HRM在理论基础上依赖于一个名为"隐函数定理"的数学工具，这就像建房子时需要确保地基足够坚实一样重要。该定理要求递归过程能够收敛到一个稳定的不动点，就像钟摆最终会停在平衡位置一样。然而实际情况是，HRM只进行了4次递归就停止，然后假设已经达到了这个稳定点。

这种做法就像一个厨师只炖了10分钟就认为汤已经完全入味了一样缺乏说服力。研究团队通过分析发现，即使在作者自己展示的例子中，残差（衡量收敛程度的指标）仍然远高于零，这意味着系统还远未达到真正的平衡状态。更重要的是，HRM使用的参数设置（n=2, T=2）与展示收敛性的例子（n=7, T=7）完全不同，这进一步削弱了理论依据的可信度。

二、训练效率的隐性成本

HRM引入了一种叫做"自适应计算时间"（ACT）的机制来提高训练效率。这种方法的核心思想是让模型学会判断什么时候应该停止思考一个问题，转而处理新的样本。就像一个学生做作业时需要判断在一道题上花费多少时间是合适的——既不能草草了事，也不能无休止地钻牛角尖。

但问题在于，ACT的实现需要额外的Q学习目标，这就像为了节省电费而安装了一个耗电的监控系统一样自相矛盾。具体来说，每个优化步骤都需要运行两次前向传播，虽然在每个样本上节省了时间，但总体的计算成本实际上增加了。

三、生物学比喻的过度解读

HRM的设计在很大程度上依赖于对大脑不同层次处理信息的生物学观察。作者试图将两个网络的不同工作频率与大脑皮层的分层处理机制相对应，甚至引用了小鼠大脑实验来支持他们的设计选择。

这种做法虽然有趣，但对于人工神经网络来说可能过于牵强。就像试图用鸟类的飞行原理来设计汽车一样，生物学的启发固然有价值，但不应该成为工程设计的束缚。更重要的是，这种复杂的理论框架让人很难理解HRM的各个组件究竟起到了什么作用，也难以判断哪些设计是真正必要的。

基于对HRM这些问题的深入分析，Jolicoeur-Martineau博士提出了一种更简洁有效的替代方案——小型递归模型（TRM）。如果说HRM是一台复杂的瑞士手表，那么TRM就是一个设计精巧的简易计时器，虽然结构简单，但在核心功能上更加可靠和高效。

TRM的核心理念可以用一个简单的比喻来解释：解决复杂问题就像雕刻一件艺术品，需要反复修改和完善。每次修改都基于当前的作品状态，同时参考原始的设计图纸。在这个比喻中，输入问题就是设计图纸，当前答案就是正在雕刻的作品，而潜在推理特征就是艺术家积累的经验和技巧。

具体来说，TRM维护三个核心要素：输入问题x（保持不变的参考），当前答案y（不断改进的目标），以及潜在推理状态z（累积的思考过程）。在每个改进步骤中，模型首先根据问题、当前答案和推理状态来更新自己的思考，然后基于更新后的思考来改进答案。这个过程最多重复16次，每次都有机会纠正之前的错误。

与HRM相比，TRM实现了多个方面的简化。首先，它不再需要复杂的数学理论支撑。HRM依赖隐函数定理来justify只对最后两个递归步骤进行反向传播，而TRM直接对完整的递归过程进行反向传播。这就像从复杂的近似计算回到了直接精确计算，虽然可能消耗更多内存，但结果更可靠。

其次，TRM用一个统一的小型网络替代了HRM的两个分离网络。这种设计基于一个关键观察：当网络的输入包含问题信息x时，它专注于更新推理状态z；当输入不包含x时，它专注于改进答案y。通过这种方式，单个网络可以根据输入自动切换功能，既简化了架构，又减少了参数数量。

在自适应计算时间方面，TRM也进行了大幅简化。它不再使用复杂的Q学习机制，而是采用简单的二元分类来判断是否应该停止计算。这种方法只需要一次前向传播，大大提高了训练效率。

最令人惊讶的发现是，TRM在网络大小方面采用了"少即是多"的策略。研究团队发现，使用2层网络比4层网络效果更好，这在现代深度学习中是相当反常的现象。通常情况下，更深的网络意味着更强的表达能力，但在这种递归推理的场景下，过深的网络反而容易导致过拟合。

这种现象可以这样理解：当训练数据有限时，复杂的模型就像一个记忆力超强但缺乏归纳能力的学生，能够完美记住所有见过的题目，但在面对新题目时却无所适从。相比之下，简单的模型虽然记忆力有限，但更擅长抓住问题的本质规律。

在针对特定任务的优化方面，TRM还展现出了灵活性。对于像数独这样具有固定小尺寸输入的任务，研究团队发现可以用多层感知机（MLP）替代自注意力机制。自注意力在处理长序列时很有优势，但对于9×9的数独网格这样的小规模固定输入，简单的MLP反而更高效。这就像用小巧的螺丝刀比用大型电钻更适合精细作业一样。

为了提高训练稳定性，TRM还引入了指数移动平均（EMA）技术。这种方法类似于股票交易中的移动平均线，通过平滑参数更新来防止训练过程中的剧烈波动。在小数据集上，这种稳定性尤为重要，就像在平衡木上行走时需要保持稳定的节奏一样。

在实际测试中，TRM的表现确实令人印象深刻。在极难数独任务上，TRM将准确率从HRM的55%提升到了87%。在困难迷宫任务上，准确率从75%提升到85%。在ARC-AGI-1和ARC-AGI-2这两个被认为是AI推理能力试金石的基准测试中，TRM分别达到了45%和8%的准确率，不仅超越了HRM的40%和5%，更是显著优于包括Deepseek R1、o3-mini和Gemini 2.5 Pro在内的大型语言模型。

这些结果的意义不仅在于数字上的提升，更在于它们揭示了一个重要原理：在某些类型的问题上，精巧的算法设计比暴力的参数堆叠更有效。TRM用不到大型语言模型0.01%的参数实现了更好的性能，这就像用精密的瑞士手表击败了笨重的机械钟一样令人印象深刻。

研究团队进行了详细的消融实验来验证TRM各个组件的作用。结果显示，每个简化都有其存在的理由：移除不动点理论假设带来了最大的性能提升（从56.5%跃升到87.4%），使用单一网络比双网络设计更好（从82.4%提升到87.4%），2层网络比4层网络更优（从79.5%提升到87.4%）。

这些发现挑战了深度学习领域的一些传统观念。长期以来，研究者们相信更大、更深的模型总是更好的，但TRM的成功表明，在某些任务上，简洁性和效率可能比复杂性更重要。这就像在某些情况下，一把锋利的小刀比一把沉重的大剑更有用一样。

值得注意的是，TRM的成功并不意味着大型语言模型毫无价值。相反，它表明不同类型的问题可能需要不同类型的解决方案。大型语言模型在需要广泛知识和创造性的任务上仍然具有明显优势，而TRM这样的专门化模型则在需要精确逻辑推理的任务上更有效。

从更广阔的视角来看，这项研究为AI发展提供了一种新的思路。在追求模型规模不断扩大的今天，TRM提醒我们，有时候退一步海阔天空，简化和专精可能比复杂化和通用化更有价值。这种思路对于资源有限的研究团队和应用场景特别有意义，因为它证明了不一定需要巨大的计算资源才能在某些任务上达到最先进的性能。

研究团队也坦诚地指出了TRM的局限性。目前TRM主要是一个监督学习模型，只能针对给定输入产生确定性输出，这限制了它在需要多样化答案的创造性任务上的应用。此外，虽然TRM在所测试的四个基准上都超越了HRM，但每个任务的最优配置可能不同，这意味着可能需要针对具体问题进行调优。

研究团队还尝试了一些最终未被采用的想法，这些"失败"的探索同样有价值。例如，他们尝试使用专家混合模型（Mixture of Experts）来增加模型容量，但发现这样做反而降低了泛化能力。他们也尝试过部分反向传播的折衷方案，但发现完整的反向传播效果最好。这些负面结果提醒其他研究者避免走同样的弯路。

说到底，这项研究最重要的贡献可能不是TRM这个具体的模型，而是它所体现的设计哲学：简洁、专精、高效。在一个追求更大更强的时代，TRM证明了小而美的价值。它告诉我们，有时候最好的解决方案不是最复杂的，而是最合适的。

对于普通人来说，这项研究的意义在于它可能会让AI技术变得更加普及和易于部署。如果一个只有700万参数的模型就能解决复杂的推理问题，那么这种技术就可以在普通的个人电脑甚至手机上运行，而不需要昂贵的云计算服务。这就像从需要大型机房的巨型计算机发展到可以放在桌面上的个人电脑一样，是技术民主化的重要一步。

从科学研究的角度来看，TRM的成功也提醒我们，有时候最大的突破不是来自于技术的复杂化，而是来自于对问题本质的深刻理解。通过仔细分析HRM的工作原理，研究团队能够识别出哪些组件是真正重要的，哪些只是不必要的复杂性。这种"减法"式的创新思维在科学发展中往往比"加法"式的堆叠更有价值。

最终，TRM的故事告诉我们，在AI的发展道路上，大并不总是美，复杂也不等同于先进。有时候，最优雅的解决方案是最简单的那个。正如爱因斯坦曾经说过的，"一切应该尽可能简单，但不能过于简单"。TRM正是这一原则的完美体现——它足够简单以至于容易理解和实现，但又足够强大以至于能够解决真正困难的问题。这种平衡，或许正是未来AI发展应该追求的方向。

Q&A

Q1：小型递归模型TRM相比大型语言模型有什么优势？

A：TRM最大的优势是用极少的参数实现了更好的推理性能。它只用700万参数就在数独、迷宫和ARC-AGI等逻辑推理任务上超越了拥有数千亿参数的大型语言模型。这意味着TRM可以在普通电脑甚至手机上运行，而不需要昂贵的云计算资源，让AI推理技术更加普及。

Q2：TRM的递归推理机制是如何工作的？

A：TRM的工作原理就像反复修改一件艺术品。它维护三个要素：输入问题（设计图纸）、当前答案（正在雕刻的作品）和推理状态（积累的经验）。在每个步骤中，模型先根据这三个要素更新自己的思考，然后改进答案。这个过程最多重复16次，每次都有机会纠正之前的错误，最终得到更准确的结果。

Q3：为什么TRM使用更小的网络反而效果更好？

A：这是因为在训练数据有限的情况下，复杂的大网络容易过拟合，就像记忆力超强但缺乏归纳能力的学生，能记住所有见过的题目但面对新题目就无所适从。相比之下，TRM的2层小网络虽然容量有限，但更擅长抓住问题的本质规律，加上递归机制提供的有效深度，实际上比单纯的大网络更适合逻辑推理任务。

人工智能递归推理参数优化

分享至