微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 循环一次值多少钱?慕尼黑工业大学研究团队首次为"循环变换器"定价

循环一次值多少钱?慕尼黑工业大学研究团队首次为"循环变换器"定价

2026-05-05 17:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-05 17:18 科技行者

这项由慕尼黑工业大学(TUM)医疗人工智能与帝国理工学院计算机系联合领导的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.21106。有兴趣深入了解的读者可通过该编号在arXiv平台查询完整原文。

在人工智能的世界里,有一个让工程师们长期纠结的问题:如果你想让一个神经网络"更聪明",到底是给它配备更多独立的"零件"划算,还是让现有的零件反复多跑几圈更实惠?这个问题背后牵扯着真实的金钱与算力——训练一个大型语言模型的成本动辄数百万美元,任何一个设计决策都会影响最终账单。

这支研究团队决定给这个问题一个精确的数字答案。他们的研究核心是一类叫做"循环变换器"(looped transformer)的神经网络架构。普通的语言模型就像一条流水线,信息从第一道工序流向最后一道工序,每道工序由独立的"工人"负责,用完即走。而循环变换器则像一个只有少数几名工人的小工厂——同样的工人会把手头的材料反复加工好几轮,每轮完成一道精加工。"循环次数"就是这些工人被要求重复工作的次数。

这种"反复加工"的设计有个显而易见的好处:工厂需要雇用的工人更少,也就是说模型存储在硬盘里占用的空间更小。但天下没有免费的午餐——把相同的工人反复用来加工同一批材料,跟雇用更多专门的工人各司其职,效果真的一样吗?研究团队给出了一个清晰的量化答案:不一样,而且差距可以精确测量。他们将这个差距命名为"循环等价指数"(recurrence-equivalence exponent),用符号φ表示。这个指数的发现,是整篇论文最核心的贡献。

一、工厂里的工人究竟值多少钱

为了搞清楚这个问题,研究团队设计了一个精巧的对比实验。他们搭建了四座"规格相同"的工厂:第一座工厂有20名独立工人,每人只负责自己那道工序,这是普通的非循环模型(循环次数r=1);第二座工厂只有一个核心工人班组,但要把材料重复加工2次(r=2);第三座工厂重复4次(r=4);第四座重复8次(r=8)。

关键约束是:四座工厂的"产线总长度"完全相同,每处理一个词所消耗的计算资源也基本一样。换句话说,四座工厂的"电费账单"是相同的。不同的只有一件事:循环工厂里独立工人的数量大幅缩水。具体而言,当循环次数从1增加到8时,独立的模型参数数量缩减了约3.2倍——相同宽度下,参数量从约9830万降到约3030万。

研究团队在六个不同规模的训练预算下(从4.64×10??到2.15×10??次浮点运算,跨度约50倍)分别训练了这四种架构,共进行了116次训练实验。他们用验证集上的预测误差(即"损失",越低代表模型越聪明)来衡量每种配置的最终表现。结果清晰地显示:随着循环次数增加,同等计算预算下的模型表现持续变差,而且这个差距随着循环次数增加而单调扩大。

具体到数字,循环2次的模型比普通模型损失高出0.03到0.06个单位;循环4次的高出0.05到0.08个单位;循环8次的高出0.09到0.12个单位。这个差距在算力较小时更为明显,在最大算力预算下会有所收窄,但即便在最大的训练预算下,循环模型也没有追上普通模型——在研究团队测试的整个算力范围内,从未出现循环模型反超普通模型的情况。

二、一个数字,道尽"循环的代价"

面对这些实验数据,研究团队提出了一个优雅的数学公式来统一描述所有四种架构的表现。这个公式的核心思想是:"循环的工人"和"独立的工人"对模型能力的贡献方式不同,需要一个特殊的折算比例。

公式的形式继承自AI领域著名的"Chinchilla缩放定律"——这是2022年由谷歌DeepMind团队提出的一套描述模型规模、训练数据量与最终性能之间关系的数学法则,可以理解为AI训练界的"性价比公式"。研究团队在这个基础上增加了一个新项:他们把模型的总参数分成两部分,一部分是"只用一次的参数"(预处理和后处理模块,每次推理只跑一遍),另一部分是"循环使用的参数"(核心计算模块,被反复用r次)。

他们的新公式把循环参数的贡献写成r^φ乘以循环参数量,其中φ就是那个关键的"循环等价指数"。这个指数的物理含义非常直觉:如果φ=1,意味着循环一次就完全等同于增加一套独立参数,四种架构的性能曲线应该重叠在一起;如果φ=0,意味着循环根本没有任何效果,多循环几次和不循环一样没用。

实验结果给出的答案是φ=0.46,恰好处于两个极端的中间偏下位置。研究团队用统计方法(块自助抽样,200次重采样)验证了这个数字的可靠性,95%的置信区间为[0.41, 0.53],没有任何一次重采样的结果触碰到0或1这两个极端值。当把φ=1(完全等价假设)强行代入公式时,拟合质量从R?=0.997骤降至0.955;而把φ=0代入时,R?也只有0.986。只有自由拟合的φ=0.46才能真正描述实验数据的规律。

换句话说,把一套参数循环用4次,在模型能力上大约相当于拥有4^0.46≈1.86套独立参数,只恢复了完整4套的约47%。研究团队用一个具体的例子来诠释这意味着什么:一个4.1亿参数的r=4循环模型,在性能上大约等同于一个5.8亿参数的普通模型——但它的训练成本却和一个10亿参数的普通模型相当。你花了10亿模型的训练钱,买到的却是5.8亿模型的性能。

三、每种架构各有偏好:宽而不深的循环模型

除了核心的φ指数,研究团队还对每种架构单独拟合了Chinchilla缩放定律,得出了一些有意思的实践结论。

对于普通的非循环模型(r=1),研究团队发现其"数据最优分配比例"(即在固定算力下,参数和训练数据量各该占多大比重)约为52%偏向训练数据。换句话说,普通模型在算力有限时,增大训练数据集与增大模型规模的收益大约各占一半。

而对于循环模型,这个平衡发生了显著偏移:r=2、4、8的模型,最优数据分配比例分别上升到61%到67%左右,意味着循环模型更倾向于用"多训练"来补偿"少参数"的劣势。同时,循环模型的最优宽度也更大——面对参数共享带来的容量损失,循环模型倾向于把自己"变宽"来补救,尽管这样做会让每次推理消耗更多算力。

这一发现为实践提供了明确的指导:如果你决定使用循环架构,应当选择比同等算力下普通模型更宽的网络,并且准备更多的训练数据。不过,更宽的模型也意味着推理成本更高——这是不可避免的代价。

研究团队还进行了一次"超出格子"的验证实验:在最大格子规模约20倍的算力下(约4×10??次浮点运算,规模参数s=34,训练数据470亿个词),同时训练了一对r=1和r=4的大模型。结果显示循环模型的验证损失高出0.061个单位,落在研究格子内测量的[0.05, 0.08]区间内,证明这个性能差距在更大规模下依然成立。

四、不同干预手段的"循环价值"对比

发现了φ这个指数之后,研究团队进一步把它用作测量工具,对两种常见的"提升循环模型"的方法进行了深入评估。这两种方法都能让模型的验证损失下降——也就是说,表面上看它们都是有效的改进。但φ揭示了截然不同的内在机制。

第一种方法叫做"截断反向传播"(truncated backpropagation)。理解这个概念需要先了解神经网络是如何学习的:训练时,模型会把预测错误的信号从后往前传递,用来调整每个"工人"的工作方式,这个过程叫做反向传播。对于循环模型,这个信号需要沿着所有的循环步骤逆向传递,这非常耗费计算资源。截断反向传播的思路是:只让最后几个循环步骤接收学习信号,前面的循环步骤只做计算,不参与学习更新。这样可以节省约30%的训练算力,意味着同样的训练预算可以多训练约31.5%的数据。

从验证损失来看,截断反向传播的效果不错——数字确实下降了,模型看起来更聪明了。但研究团队把φ代入分析后,发现了令人警惕的信号:φ从0.46下降到了0.38。这意味着在截断训练下,每次额外的循环能贡献的有效参数等价量更少了,循环机制实际上被训练得更差了。

原因并不难理解。以循环2次(r=2)的模型为例,截断后只有最后一次循环接收完整的学习信号。第一次循环虽然还在参与计算,但它的工作方式得不到有效纠正。研究团队在拟合质量分析中也发现,r=2的模型在截断训练下残差最大,印证了这个推断。对r=4和r=8的模型单独重新拟合φ,结果是0.37,与包含r=2时的0.38几乎相同,说明问题并非r=2特有,而是整个截断机制都在削弱循环的学习能力。

研究团队的解读是:截断反向传播带来的验证损失改善,本质上是一种"以推理成本换训练效率"的重新分配——你用"多训练数据、更宽模型"换来了表面上更好的损失数字,但每次循环本身的信息处理能力变弱了,而更宽的模型意味着推理时每个词的处理成本更高。这个交换是否合算,取决于具体的部署场景。

第二种方法叫做"超级连接"(hyperconnections)。普通循环模型在每次循环之间只传递一条"信息流",就像工人手里只有一份工件在流转。超级连接则把这条信息流扩展成多条并行的"车道"(研究团队测试了K=2条车道),不同车道的信息在每次循环时进行混合和交叉,让信息在循环之间流动得更充分。

超级连接同样降低了验证损失,但φ的变化方向完全相反:从0.46跃升到了0.65。这意味着在超级连接的帮助下,每次额外循环能贡献的有效参数等价量大幅增加了。更有说服力的是,采用超级连接的r=2模型在某些算力预算下甚至能够追平或超越r=1的普通模型,这在基础架构中从未出现过。

超级连接的另一个好处是:更高的φ意味着循环参数对模型能力的贡献更大,因此计算最优的模型宽度反而可以缩小。更窄的模型意味着更低的推理成本,这与截断反向传播导致推理成本上升的情况形成了鲜明对比。研究团队指出,超级连接是真正意义上的架构改进,而不是把计算成本从训练侧转移到推理侧的财务把戏。

不过研究团队也坦诚了一个局限:超级连接本来是为了替换普通神经网络层与层之间的残差连接而设计的,理论上也可以被用在普通的非循环模型(r=1)上。本研究只把它用在了循环模型的循环边界处,没有测试"对普通模型也加上超级连接后φ会怎样变化"。如果r=1的基线性能也因此提升,那么φ的增幅可能会有所收窄。

五、下游任务的验证:哪些能力受到了真实影响

为了让研究结论更接地气,研究团队还在20个具体的下游任务上比较了四种架构的表现。这些任务被分成五大类,各自测试不同的智能能力。

第一类是"参数化知识",也就是闭卷问答——不给模型任何参考资料,直接问它"白宫在哪个城市"这类需要记忆的问题。这类任务的成绩完全取决于模型有多少独立参数用来存储知识。结果完全符合φ=0.46的预测:r=1的普通模型在所有算力预算下都领先,差距随着循环次数增加而单调扩大,r=8的循环模型在最大测试规模下落后0.28个单位的损失分数。

第二类是"阅读理解",就是给模型一段文字然后问相关问题。这类任务对参数存储量的依赖较低,更依赖模型在当前上下文中的信息提取能力。结果显示r=2和r=4的循环模型与r=1基本持平,只有r=8明显落后(差距0.05到0.18个单位),说明循环架构对这类任务的损害相对有限。

第三类是"数学文字题",如"小明有5个苹果,给了小红3个,还剩多少"。这类任务需要多步推理,是循环模型理论上应该最有优势的领域。然而在研究团队测试的算力规模内,四种架构之间几乎看不出系统性差异,噪音淹没了信号。研究团队坦诚地指出:在他们能负担的模型规模下,这类推理任务对所有模型来说都太难了,无法产生有区分度的分数。

第四类是"推理基元",包括归纳头测试(让模型识别某种重复出现的模式)和变量赋值题(给出一系列赋值语句,问某个变量的最终值)。这类任务在理论上也应该对循环架构友好。但实验结果显示,在研究团队的测试规模下,r=1的普通模型在大多数预算下反而领先。深度更深的推理变体(需要多跳推理的d1版本)接近随机猜测,根本无法区分架构优劣。

第五类是"组合符号推理",如让模型判断括号是否匹配、回答知识图谱问题等。在这一类任务上,不同循环次数的模型表现参差不齐,没有统一的规律——循环模型在某些子任务上领先,普通模型在另一些子任务上领先。

总体来看,在研究团队能测试的算力范围内,唯一能稳定体现出循环架构劣势的是"参数化知识"类任务;而循环模型理论上最应展示优势的推理类任务,在这个规模下信号太弱,无从评判。研究团队在470亿词的更大规模验证实验中也观察到了同样的三类格局,说明这个结论在更大规模下依然成立。

六、这一切对未来的AI开发意味着什么

归根结底,研究团队想传达的核心信息是:当你评估一种新的循环模型训练方法时,仅仅看验证损失是不够的,因为损失下降可能来自两个完全不同的来源。

第一个来源是"真正的容量提升"——也就是循环机制本身变得更强了,每次循环能处理更复杂的信息,φ值因此上升。这是真正值得追求的改进,因为它意味着你可以用更少的推理成本达到同样的性能。

第二个来源是"算力侧重新分配"——循环机制本身并没有变好,但训练预算被重新分配,让模型训练了更多数据或使用了更大的宽度,从而弥补了容量损失。这种改进有时会伴随着推理成本的上升,是一种隐性的权衡,用表面上好看的损失数字掩盖了实际代价。

研究团队建议,今后开发循环模型时,应该把Δφ(新方法与基线φ的差值)作为核心评估指标之一,与验证损失并列汇报。一个让φ上升的改进是真正的架构进步;一个让φ下降但损失也下降的改进,需要仔细审视它是否只是在推理侧悄悄透支资源。

评估Δφ的成本并不高:只需要在四个较小的算力预算下跑约20次实验,总计约5×10??次浮点运算,比训练一个完整的大模型便宜一个数量级。这套方法适用于任何形式的循环变换器架构,不局限于研究团队测试的特定设计。

研究团队同时点明了几个有待未来工作填补的空白。φ=0.46只是他们在特定架构配置(20层、预处理2层+后处理2层)下测量到的基线值,不同的预处理/后处理层数比例可能给出不同的φ。此外,循环次数上限由架构本身决定,在他们的配置下最多只能达到r=16。更重要的是,"更低的φ究竟意味着更差的推理能力"这一假设,在他们能负担的规模下无法得到验证,需要更大的算力才能检验。

说到底,这项研究做的事情其实很简单:它为一个长期以来只有定性讨论的问题提供了定量答案。循环一次值多少钱?答案是:不到一个独立新模块的一半价值,大约是47%。但这个价格不是固定的——好的架构设计能让它涨到65%,糟糕的训练方式能让它跌到38%。现在,AI工程师终于有了一把量尺。

Q&A

Q1:循环变换器(looped transformer)和普通变换器相比,到底有什么优缺点?

A:循环变换器的优势在于用更少的独立参数完成同等深度的计算,占用的存储空间更小,理论上对推理类任务有更强的归纳偏置。缺点是参数共享导致存储知识的容量下降,慕尼黑工业大学的研究发现循环4次的模型在性能上只相当于拥有约1.86倍独立参数,远低于理想情况下的4倍。此外,循环模型在训练时需要更宽的网络来补偿容量损失,这会提升推理成本。

Q2:φ值(循环等价指数)是怎么测量出来的,普通人可以理解这个过程吗?

A:研究团队训练了循环次数分别为1、2、4、8的四种架构共116个模型,每种架构在六个不同算力预算下各训练多个不同规模的版本。他们把所有实验数据放入一个统一的数学公式里,通过数值优化让公式尽可能准确地预测每个模型的验证损失。φ就是这个公式里控制"循环贡献折算比例"的那个参数,当φ自由调整时拟合质量最高,最终收敛于0.46。

Q3:超级连接(hyperconnections)为什么能提升循环模型的φ值?

A:普通循环模型在每次循环间只传递一条信息流,信息流转不够充分。超级连接把信息流扩展为多条并行车道,每次循环时这些车道的信息会相互混合交叉,让模型在有限的参数内能更充分地利用每次循环的计算。慕尼黑工业大学的测试显示,K=2条车道的超级连接将φ从0.46提升到0.65,意味着每次循环的有效贡献提升了约41%,同时还把最优模型宽度压缩下来,降低了推理成本。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-