这项由卡内基梅隆大学研究团队完成的研究,以预印本形式于2026年5月20日发布在arXiv平台,论文编号为arXiv:2605.21488v1,研究领域属于机器学习方向。有兴趣深入了解的读者可以通过该编号在arXiv上查阅完整论文。
一、这一切要从一道数独题开始说起
你有没有试过在脑子里解一道数独?那种感觉很奇妙——一开始完全无从下手,但随着你慢慢填入几个数字,再推导几步,某个时刻你会突然感觉整个棋盘"咔哒"一声锁住了,所有位置自然而然地落入正确答案。这种"咔哒"感,就是这篇研究的核心主角。
卡内基梅隆大学的研究者们发现,当一个神经网络被训练来解决数独或者迷宫这类复杂逻辑谜题时,它在内部实际上正在寻找一种非常类似于这个"咔哒"感的东西——一个稳定的平衡状态,或者用更形象的说法,一个"吸引子"。他们提出的方法叫做**平衡推理器(Equilibrium Reasoners,简称EqR)**,其核心思想是:真正能泛化的推理能力,来自于模型学会了在内部建立一套动态系统,让正确答案成为这套系统自然流向的"低谷"。
过去几年,AI领域一直在探索一个重要方向:在测试时多花一些计算资源,能不能让模型给出更好的答案?从下棋AI到能一步步推理的大语言模型,研究者们发现,"多想一会儿"这件事确实有效。但问题来了:并不是所有的模型都能从"多想一会儿"中受益,有时候多想反而更差。这背后是什么原因?让模型"越想越好"需要什么样的内在机制?这正是卡内基梅隆大学这支团队想要回答的问题。
二、把推理过程理解成一个"滚球找低谷"的游戏
为了让所有人都能理解这套理论框架,不妨用一个物理世界的比喻来思考:想象一个起伏不平的山地地形,地面上有很多高峰和低谷。现在把一颗球放在某个位置,让它顺着地形滚动。无论你最开始把球放在哪里,只要球落在某个低谷附近,它最终都会滚进那个低谷,稳稳地停在那里。这些低谷,就是所谓的"吸引子"。
研究团队把神经网络的推理过程看作与此完全类似的动态系统。网络内部有一个"潜在状态"(可以理解为网络正在"想"到的中间结果),这个状态每次被网络处理一遍,就往某个方向移动一步。如果网络训练得当,正确答案对应的那些状态就会成为地形上的"低谷"——不管你从哪里出发,随着一步步更新,状态都会朝着正确答案的方向滚去。
正式地说,这套框架的核心是一个迭代更新规则:新的潜在状态等于把当前潜在状态和输入数据一起喂给同一个网络模块,得到的输出。每次更新就相当于球在地形上滚了一步。研究者把这个过程叫做"权重共享的迭代动态系统"。
与那些传统的"深层前馈网络"(即把很多不同的网络层从头叠到尾,每层只用一次的结构)相比,这种迭代方式有一个根本不同之处:它可以用同一个模块反复处理,让状态逐步精炼,而不是一次性做完所有事情就结束。研究团队用实验数据直接展示了这种差别的惊人程度——在极难数独(Sudoku-Extreme)这个基准测试上,一个拥有64层的传统前馈网络准确率只有2.6%,而使用迭代方式的平衡推理器,在扩展推理计算之后可以把准确率推到99%以上。这个差距,换成别的比喻就像是:用计算器反复验算和只用心算一遍的区别,前者可以反复校正错误,后者只能靠第一印象。
三、地形有四种形状,每种都决定了"多想一会儿"是否管用
研究团队不满足于只说"迭代好",他们进一步分析了这片"地形"可能长成什么样子,并总结出四种典型形态,这四种形态直接决定了增加推理计算能否带来收益。
第一种情况是地形上根本没有对应正确答案的低谷。球无论滚到哪里,都只能落入错误答案对应的低谷。这时候不管多想多久,答案就是错的。额外计算不但无济于事,甚至有时候会越算越偏。这对应的是模型根本没有学到解题的本质规律,所有的"推理"都是在错误的地形上瞎逛。
第二种情况是地形上既有正确答案的低谷,也有错误答案的低谷,而且两者都相当稳定。球可能滚进正确的低谷,也可能滚进错误的低谷,取决于起点在哪里。这时候,"从更多不同的起点出发、多滚几次"(也就是广度扩展)会很有帮助,因为你多试几次,总有一次能落入正确低谷。
第三种情况是正确答案的低谷只有一个,而且非常窄,像一条细缝。球很容易从它旁边滑过去而掉不进去。这时候广度扩展(多试几次)可以提高命中率,深度扩展(每次多滚几步)也能帮助那些恰好靠近正确低谷的轨迹真正落进去,但总体收益受限于低谷的宽度。
第四种情况是最理想的地形:正确答案的低谷又宽又深,对应正确解的那片区域几乎占据了大部分地形,错误低谷要么不存在要么很浅。这时候无论从哪里出发,球都很容易最终滚入正确低谷,而且深度扩展(多滚几步)能让球更精确地落到低谷底部。这种地形下,"多想一会儿"的收益是最稳定、最可预期的。
研究团队通过实验,对512个随机起点的轨迹进行了可视化分析(把高维状态空间压缩到二维来观察),实际上在真实数独任务的数据中发现了这四种形态都存在。这意味着对于同一个模型,不同的数独题对应着不同的地形状态——有些题的地形是第四种(轻松找到答案),有些是第二种(容易跑偏),还有些甚至是第一种(根本没救)。
四、如何衡量球有没有滚到低谷:残差是个好尺子
在这套框架里,研究者需要一个具体的数值来衡量球是不是快到低谷了。他们使用的指标叫做"固定点残差"——简单来说,就是把当前状态再喂给网络处理一遍,看输出和输入有多大差距。如果网络处理之后输出和输入几乎一样,说明状态已经稳定,球到达低谷了;如果差距很大,说明球还在滚动阶段。
这个残差值越低,意味着收敛越好。研究团队发现了一个关键规律:在经过良好训练的模型上,残差值的下降和答案准确率的提升几乎是同步的——图1就直观地展示了这一点,纵轴是准确率,横轴是残差值,随着迭代次数(用颜色编码)增加,两者同步向好的方向演进。这说明残差可以作为一个可靠的信号,不需要知道正确答案,仅凭残差就能判断模型是否在朝着正确答案收敛。
这个特性非常实用。在实际部署中,你不可能总是知道正确答案(要不然还需要AI干什么?)。但你可以实时观察残差,知道模型是不是"想清楚了"。后文会看到,研究者把这个信号用于选择最好的推理结果,效果非常出色。
五、沿着两个方向扩展计算:深挖还是广撒网
在确立了这套理论框架之后,研究团队提出了两种扩展推理计算的具体策略,就像挖矿有两种策略:往一个矿洞挖得更深,或者同时开挖多个矿洞。
深度扩展(Depth Scaling)是指对同一个推理轨迹,让迭代次数更多,相当于让球在地形上滚更多步。训练时模型最多迭代16步,但测试时可以扩展到64步、256步乃至1024步——相当于把模型等效展开到4万多层的深度。实验表明,即使训练时从未见过超过16步的迭代,测试时扩展到1024步依然有效,因为地形的稳定结构让迭代具有了泛化能力。
广度扩展(Breadth Scaling)是指从多个不同的随机起点同时出发,独立进行多条推理轨迹,然后从中选出最好的结果。就好比你同时让多个球从不同位置出发,只要有一个球落入了正确低谷,你就赢了。研究者把这个数量标记为B,可以从1增加到128甚至更多。
两种策略的配合有一个非常有趣的规律:广度扩展的效果依赖于深度扩展达到足够的程度。具体来说,研究团队发现当每条轨迹的迭代步数太少时(比如只有2步),增加轨迹数量几乎没有帮助;但当每条轨迹至少有4步以上时,增加轨迹数量就开始显现出明显收益。形象地理解:如果每个球只滚两步就停下来,你根本没时间滚到任何低谷附近,多放几个球也没意义。但如果每个球能滚足够多步,总有一个会命中正确低谷。
在最终的实验结果中,结合深度扩展(64步)和广度扩展(128条轨迹),平衡推理器在极难数独上达到了99.8%的精确准确率,在迷宫任务上达到了93.0%,大幅领先了此前所有迭代推理模型,包括HRM(数独55%)、TRM(数独84.8%)和URM(数独77.6%)。
六、怎样训练出一片好的地形:两个关键技巧
知道了好地形长什么样,下一个问题自然是:怎样训练模型才能产生这样的地形?研究团队提出了两个简单但有效的训练技巧,它们不需要任何外部验证器或任务专用的先验知识,属于完全通用的方法。
第一个技巧叫做**随机状态初始化(RI)**。传统的迭代推理模型在训练时,每次推理轨迹都从同一个固定的初始状态出发。这就好比你训练一个球手,每次练习都从同一个起点把球扔出去,结果他只学会了从那一个位置发力,换个起点就手足无措。随机初始化则是每次训练都从随机采样的起点出发,这让模型必须学会如何从各种不同的起点出发都能找到正确低谷,从而使正确低谷的吸引域更加宽广。
从理论上理解这个技巧,它做了两件事:其一,扩大了训练时探索的状态空间范围,降低了训练只聚焦在某个局部区域、导致正确低谷区域过于狭窄的风险;其二,由于同一道题在不同起点下都必须给出一致的正确答案,模型被迫让不同轨迹的最终结果保持一致,这种"路径独立性"恰恰是一个宽广稳定低谷的表现。实验中,仅仅加入随机初始化一项,迷宫任务的准确率就从44.9%跃升到了68.6%,提升幅度相当可观。
第二个技巧叫做**噪声注入(NI)**。这个技巧是在每次迭代更新的时候,向状态里添加一点点随机高斯噪声,相当于让球在滚动过程中时不时轻轻抖一抖。这个"抖动"的作用是防止球过早地被某个浅薄的错误低谷捕获,给了它跳出局部陷阱的机会,同时也让正确低谷的边界变得更平滑易进入。研究团队发现,适度的阻尼系数(λ=0.05)配合小量路径噪声(β=0.01)的组合效果最好。在测试阶段,还可以适当加大噪声强度来增强探索性,类似于温度控制。
结合两个技巧之后,迷宫任务的准确率进一步提升到82.2%,而且模型的路径独立性(不同随机起点得到一致答案的能力)大幅增强。在数独任务上,对128个随机起点的残差最小轨迹进行选择的方法(Top-1收敛选择),在加入这两个训练技巧之后变得比多数投票更准确——这在添加技巧之前是做不到的,因为此前残差和正确性之间没有足够可靠的对应关系。
七、从普通神经网络到迭代推理器的完整修炼路径
研究团队不仅提出了最终的方法,还系统地研究了每一步改动分别贡献了多少。这个完整的修炼路径可以从一个只会死记硬背的学生成长为真正会推理的解题高手来理解。
出发点是一个标准的42层前馈神经网络,在极难数独上准确率只有2.6%。这个模型的问题不是"想错了",而是"根本没在想"——它只是在用巨大的记忆力对照训练集里见过的题型,没有见过的题型直接失败,准确率表现暴露了其本质是在记忆而非推理。
第一步改造是权重共享(Weight Tying)。把42层独立网络替换成2层参数共享网络重复迭代21次,参数量从约1.06亿降到约503万,准确率却从2.6%跳升到32.6%。这一步的意义在于,重复使用同一个模块创造了真正的迭代动力学,让网络有机会通过反复更新来逼近稳定解,而不是一次性完成所有工作。
第二步是加入分段在线训练(Segmented Online Training,SOT)并将迭代深度扩展到16倍。这一步的挑战在于,单纯地把轨迹拉长而不设计好的训练策略,效果很有限。研究团队系统比较了三种训练方式:只在最后一步监督(终端损失),在轨迹多个位置监督但只更新一次参数(轨迹监督),以及在轨迹每个片段结束时立即更新参数并带着更新后的参数继续下一片段(分段在线训练)。实验表明,第三种方式远优于前两种,在相同迭代深度下把准确率从47.1%提升到74.7%。原因在于分段在线训练让网络参数在轨迹演化过程中不断调整,后续片段始终在最新版本的参数下运行,避免了"用旧地图走新路"的问题。
第三步是加入层次化迭代(Hierarchical Iterations)。这种设计在状态空间中引入了高层潜在状态和低层潜在状态,两者以不同频率更新,形成快慢两个节奏的嵌套循环。它带来了一定提升(从74.7%到75.4%),但效果与具体的训练配置高度相关,在某些条件下层次化反而不如单状态效果好,研究团队没有将其作为普适的必要组件。
第四步是加入自适应计算时间(Adaptive Computation Time,ACT)机制,即让模型学会"这道题想清楚了就可以停了,不用凑够最大步数"。这个机制给模型增加了一个"卤门"(Halting Head),预测当前状态是否已经收敛。训练时,解决了的样本提前退出,未解决的样本继续迭代,从而把更多的训练计算分配给更难的题目。加入这一机制后,准确率从75.4%提升到84.8%。
有一个反直觉的发现值得单独说明:如果把"是否已解决"的正确答案直接作为停止信号(即所谓的"先知停止"),模型准确率反而从75.4%崩溃到13.6%。原因是使用真实正确答案作为停止信号,会让模型在训练时过拟合——它学会了尽快满足停止条件,而不是学会真正解题。相比之下,训练一个预测停止信号的学习头,即使在训练时不实际用于提前退出,也能通过这个辅助任务有效抑制过拟合。
八、推理效率也可以大幅提升:自适应计算的威力
到目前为止,扩展计算的逻辑是"遇到任何题目都用固定的计算预算"。但研究团队进一步探索了一种更聪明的方案:根据每道题的难度动态分配计算量,简单的题多快好省,难的题重点关照。
在推理阶段,研究团队使用了一个固定大小的推理队列:已经停止迭代的样本马上被新样本替换进来,保持硬件高利用率,同时保证每个样本都按自己需要的步数进行推理。
实验结果展示了自适应计算的显著效率优势。以迭代深度D=1024为例,不使用自适应停止时,每道题平均需要1024次迭代,准确率是96.1%;加入自适应停止后,平均只需58.7次迭代,准确率为95.3%,效率提升了约17.4倍,准确率只损失了不到1个百分点。在更直观的对比实验中,以达到92.99%的准确率为目标,基准模型平均需要240.9次迭代,而平衡推理器只需64次(提效3.76倍),再加入自适应计算后进一步降到21.2次(提效11.34倍)。这意味着同等精度下,使用平衡推理器加自适应计算只需要基准模型十分之一左右的计算量。
九、迷宫任务揭示的另一个关键教训:数据定义决定地形能否形成
研究团队在迷宫任务上遭遇了一段曲折,这段经历揭示了一个更深层的道理:要让正确的吸引子地形形成,不仅需要好的模型设计,更需要正确定义"什么是正确答案"。
原始迷宫数据集(Maze-1k)中,大多数迷宫从起点到终点有多条等长的最短路径,但训练数据里每个迷宫只标注了其中一条。这就好比你在教一个学生"从A到B最短路径是左拐右拐再直走",但实际上也可以走另一条等长的路,然后你却把走另一条路记为错误。学生被迫接受一个任意的、自相矛盾的标准,当然学不出一致的规律,更无法形成稳定的推理模式。
在这种"伪一对一"的错误数据定义下,迭代模型无法建立稳定的吸引子地形,测试时增加迭代次数非但不能提高准确率,反而可能让准确率下降或停滞不前。研究者将此理解为:多个正确答案在地形上对应多个竞争的低谷,但训练损失只承认其中一个,导致其他正确低谷成为"惩罚区域",使得整片地形扭曲成无法稳定收敛的混乱状态。
为了解决这个问题,研究团队专门构建了一个新版迷宫数据集,叫做Maze-Unique。这个数据集中的每个迷宫都保证最短路径唯一——通过生成完美迷宫(整个网格是一棵树,任意两点之间只有一条简单路径)并筛选具有特定长度范围的起终点对来实现。在这个干净定义的数据集上,迭代模型的吸引子地形得以正常形成,增加计算量可以稳定提升准确率,随机初始化和噪声注入等技巧也开始显现出预期的效果。
这个教训对整个AI推理领域都有参考价值:如果训练数据本身的标注与任务的真实结构不匹配(比如在一对多任务中强行使用一对一监督),任何模型改进都难以从根本上解决问题。
十、平衡推理器如何比肩乃至超越同类最强模型
最终的完整系统——结合了权重共享迭代、分段在线训练、层次化状态、自适应计算时间、随机初始化和噪声注入——被研究团队称为平衡推理器(EqR)。在Sudoku-Extreme和Maze-Unique两个任务上,它的表现在各个对比维度上均优于此前发表的同类模型。
在数独任务上,此前最好的结果来自TRM,准确率84.8%,HRM为55%,URM为77.6%,而传统前馈网络最高只有2.6%。平衡推理器在基础配置下(16步,单轨迹)达到86.4%,扩展到64步达到93%,结合128条轨迹达到99.8%。在迷宫任务上,TRM的基准准确率44.9%,URM为51.4%,平衡推理器基础配置下达到82.2%,扩展后达到93%。
更值得注意的是,平衡推理器使用了只有约503万参数的极小模型(相比之下HRM有约2700万参数,URM有约1367万参数),却在所有指标上都大幅领先。这说明效果的提升主要来自于训练策略和推理策略的改进,而不是简单地堆砌模型规模。
研究团队还验证了这套方法的泛化性。在Mini-ARC(一个涉及抽象规则归纳的视觉推理任务)上,平衡推理器同样优于HRM(44.85%对比55.28%)和TRM(48.35%对比55.28%)。在将MLP-Mixer骨架替换为自注意力Transformer骨架之后,所有的技巧依然有效,说明这套框架不依赖于特定的网络结构。在跨五个随机种子的稳定性测试中,平衡推理器的准确率为86.18%±0.44%,而基准模型为84.33%±0.59%,说明它不但均值更高,稳定性也更强。
---
说到底,这篇研究做的事情,是为"为什么有些AI越想越好,有些AI越想越差"这个问题给出了一个清晰的解释框架,并且把这个解释框架转化成了可操作的训练方法和评估手段。核心洞见是:推理不是在内存里查表,而是在某种内部地形上寻找稳定低谷。正确答案必须对应够宽够深的低谷,而不能只是某个随机标注出来的位置。训练的目的是把地形雕刻成这个样子,而测试时增加计算量的目的是让球滚进那个低谷。
对于AI领域之外的普通人来说,这项研究意味着未来的AI助手在遇到复杂问题时,可能会给你一个更可靠的信号:它真的"想清楚了"还是只是随便给了个答案。而且这种"想清楚了"的状态是可以被检测的——不需要你自己去验证答案,AI自身就能通过内部一致性信号告诉你它有多少把握。
这也引出了一个有意思的思考:我们通常说人类做题时"心里没底"或者"越来越有把握",这和AI内部的残差值收敛,在结构上是不是有某种深刻的类似?当然,卡内基梅隆大学的研究者们目前只是在数独和迷宫这类结构化任务上验证了这套框架,真实世界中语言推理、创意生成等更模糊的任务能不能用同样的方式来理解,还是一个开放的问题。有兴趣继续深入的读者,可以通过arXiv编号2605.21488查阅完整论文,或访问论文配套的代码库(地址在论文首页)自行复现实验。
---
Q&A
Q1:平衡推理器(EqR)是怎么让模型"越算越准"的?
A:平衡推理器的核心思路是让神经网络内部形成一种动态系统,正确答案对应系统的"稳定低谷"(吸引子)。每次迭代更新就像让一个球在地形上滚一步,滚得越多越趋近于低谷,也就越接近正确答案。当模型的内部状态不再明显变化时(残差降低),就说明它到达了低谷,推理完成。这和传统神经网络一次性得出答案的方式有本质区别。
Q2:数独任务上传统深层神经网络准确率只有2.6%,为什么换成迭代方式能到99%?
A:传统前馈网络依赖记忆训练数据里见过的模式,遇到没见过的排列就失效,本质上是在"背题"。迭代方式允许模型在内部反复修正和推理,从不完整的答案逐步修正到完整的答案,类似于人类解数独时的"填了验证、不对再改"的过程。加上训练技巧让正确答案区域变成了宽广稳定的吸引域,越多迭代就越能稳稳落入正确答案,所以扩展计算有效。
Q3:为什么Maze-1k数据集会导致迭代模型失效,而Maze-Unique不会?
A:Maze-1k中很多迷宫有多条等长最短路径,但训练数据只标注了一条,导致模型被教导"其他等效答案都是错的"。这破坏了内部地形的结构——多个正确答案应该各自是低谷,却被损失函数惩罚,使地形混乱、无法形成稳定吸引子。Maze-Unique保证每道题只有唯一最短路径,监督信号与任务结构对齐,模型才能学出一致的、可稳定收敛的内部地形。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。