微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 花1500美元、40天数据,Sapient Intelligence打造出可媲美70亿参数大模型的AI——大型语言模型的平民化时代来了?

花1500美元、40天数据,Sapient Intelligence打造出可媲美70亿参数大模型的AI——大型语言模型的平民化时代来了?

2026-05-27 17:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-27 17:03 科技行者

这项由Sapient Intelligence与麻省理工学院(MIT)合作完成的研究,于2026年5月20日以arXiv预印本形式发布,论文编号为arXiv:2605.20613v1,有兴趣深入了解的读者可通过该编号查询完整论文。

当今的人工智能军备竞赛里,谁烧的钱多、谁的电费账单更吓人,似乎就代表谁更厉害。训练一个像样的大语言模型,动辄需要几千张顶级显卡跑上几个月,耗费数亿乃至数十亿美元。这道几乎无法逾越的门槛,让绝大多数大学实验室、小型研究团队甚至个人研究者只能望洋兴叹——他们根本没有资格参与这场游戏,更别说提出新想法、验证新架构了。

然而,Sapient Intelligence与MIT的这支研究团队偏偏不信这个邪。他们提出了一个听起来近乎异端的问题:如果我们换一种更聪明的方式训练AI,是否可以用极少的资源达到同样的效果?答案令人吃惊——他们用16块显卡、仅仅1.9天的时间、花费约1500美元,从零开始训练出了一个名为HRM-Text的10亿参数模型。这个模型在多项权威测试中的表现,与那些动用了数百倍算力、处理了数百倍训练数据的20亿至70亿参数主流模型相抗衡,甚至在某些推理类测试中超越了它们。

这不是变魔术,背后有两项真正的技术突破:一是受人类大脑启发的全新神经网络结构,二是彻底颠覆传统的训练方式。这篇文章将带你一步步揭开HRM-Text的秘密。

一、为什么大脑学东西比AI更省力?从人类神经科学找答案

要理解HRM-Text为什么与众不同,先得明白当前主流AI模型是怎么学习的,以及为什么这种方式如此"浪费"。

现在几乎所有的大语言模型,包括大家熟悉的GPT、Llama、Qwen等,在训练时都遵循同一套剧本:先把互联网上能搜集到的所有文字——新闻、小说、论坛帖子、百科词条、代码、食谱——统统塞给模型,让它一个字一个字地猜下一个字是什么。这个过程叫做"无监督预训练",它的逻辑是:只要见过足够多的文字,模型自然就能学会语言的规律,学会世界的知识。

这个思路不是没有道理,但代价惊人。模型需要反复揣摩大量与最终任务毫无关系的内容,比如预测一段网络小说的下一句,或者记住某位名人的生日——这些对于一个最终被用来回答问题、写代码的模型来说,其实是"无效练习"。就像要培养一个出色的厨师,却让他先把世界上所有的食谱都背下来,包括那些他永远不会用到的菜系,而且还要能一字不差地默写出来。

人类的大脑从来不是这样学习的。神经科学的研究表明,人脑在处理信息时有一套精妙的"双轨机制",被称为额顶叶回路(frontoparietal loop)。简单来说,大脑里有两类节奏截然不同的处理过程同时运行:一类运行得慢,负责把握大局、维持战略性的上下文理解,就像一位在棋局中深思远虑的棋手;另一类运行得快,负责快速执行具体的细节操作,就像棋手熟练地落子。正是这种"慢思考+快执行"的双层结构,让人脑能够在极少样本的情况下快速掌握新知识。

Sapient Intelligence的研究人员此前就基于这个灵感,开发了一种叫做"层级递归模型"(Hierarchical Recurrent Model,简称HRM)的神经网络架构,并在组合逻辑推理等符号任务上取得了很好的效果。但将这套架构用于语言模型,面临的挑战要大得多——语言的世界比棋盘或数学题复杂出几个数量级,随之而来的是严峻的训练不稳定性问题。如何驯服这匹"野马",是他们需要攻克的第一道难关。

二、"慢大脑+快大脑"的机器实现:HRM架构是怎么工作的

理解HRM的结构,可以用一个小小的类比:假设你在解一道复杂的数学题,你的思维过程大致分两层。外层是你的"总指挥",它负责把握解题的整体思路,比如"这道题应该用代入法",它不会频繁变化,而是在几个关键节点才更新一次判断。内层是你的"执行手",它根据总指挥的方向,一步一步地进行具体的运算,动作频繁而细致。

HRM的结构正是如此。它包含两种模块:H模块(慢模块)和L模块(快模块)。在每一次完整的处理过程中,模型会先通过输入的词语初始化一个"全局状态",然后进入两轮大循环。每轮大循环里,L模块会快速执行三次细节处理,之后H模块才进行一次全局状态的更新。最终,模型根据H模块输出的结果来预测下一个词。这个结构意味着:同样数量的参数,在HRM里会被反复使用多次,而不是像普通的Transformer网络那样,每一层参数只被用一次就"过去了"。

与传统的Transformer相比,HRM相当于用同等数量的"零件",搭建出了一座更高的"楼"——参数不增加,但有效的计算深度大大增加。研究团队将这种能力称为"有效深度",并通过多种实验手段加以验证。其中有一个叫做"logit lens"的分析方法,可以把模型每一层的中间状态"翻译"成它在那一刻的预测结果,然后看这个预测与最终答案有多大差距。对于普通的Transformer和循环Transformer来说,这个差距在较浅的层就会迅速收敛到很小——意味着深层的计算其实没发挥太大作用。而HRM的深层依然保持着较大的差距,说明它的每一层都在踏踏实实地做出贡献,没有"摸鱼"。

在另一项分析中,研究人员还观察了相邻两层之间隐藏状态的变化幅度。HRM每层之间的变化幅度均值为34.12,而循环Transformer是29.65,RINS是25.42——HRM的"每一步都走得更扎实",层与层之间的表示不会趋于雷同,避免了所谓的"表示过平滑"问题,即模型深层的向量越来越像、失去辨别力的通病。

三、如何训练一匹"不受控制的野马":MagicNorm与渐进式梯度策略

架构设计完毕,下一个问题接踵而至:循环网络历来以难以训练著称。每次反复"折叠"同一套参数,就像把一张纸来回折叠一百次——梯度在反向传播时,会经历类似的"乘法链式效应",要么越乘越小趋近于零(梯度消失),要么越乘越大爆炸式增长(梯度爆炸),两者都会让训练彻底失控。

为了解决这个问题,研究团队发明了一种叫做"MagicNorm"的归一化技术。要理解它的妙处,先得知道神经网络中两种常见的归一化方式各有什么缺陷。

一种叫做"后归一化"(PostNorm),它的做法是在每一层的输出处做归一化。这个方式的优点是让每一步的激活值都被约束在一个合理范围内,前向传播很稳定;缺点是它打断了"直通路径",梯度在反向传播时必须穿越归一化层才能到达更早的层,在网络很深的时候容易造成梯度消失。另一种叫做"前归一化"(PreNorm),它的做法是在每一层的输入处做归一化。优点是保留了一条"高速公路"——误差信号可以直接跳回到早期层,梯度流动更顺畅;缺点是残差连接上的激活值没有被归一化,随着层数加深会越来越大,可能导致表示退化。

MagicNorm巧妙地把两者结合起来,并利用了递归训练中一个独特的不对称性:前向传播和反向传播经历的"深度"不同。在前向传播时,隐藏状态要经历所有N次递归步骤,每一步末尾都有一个归一化操作,这让激活值始终被约束在合理范围内,拥有PostNorm的前向稳定性。但在反向传播时,研究团队采用了"截断反向传播"策略,误差只会被传播回最近的K步(K远小于N),在这有限的几步里,梯度走的是内部PreNorm的"高速公路",享受PreNorm的梯度流动优势。换句话说,MagicNorm在前向看起来像PostNorm,在反向看起来像PreNorm,兼得两者之长,避开两者之短。

除了MagicNorm,训练策略上还有第二项创新:渐进式梯度策略(warmup deep credit assignment)。在训练刚开始时,模型还处于"懵懵懂懂"的状态,这时候如果让误差信号传播太远,就好比让一个刚学会走路的孩子立刻去跑马拉松——不仅跑不好,还容易摔跤。因此,研究团队在训练初期只让误差传播回最近的两个递归步骤(K=2),等模型训练得更稳定后,再逐渐扩展到最近的五个步骤(K=5)。这种"先走短程、再走长程"的渐进方式,既让模型在早期快速稳定下来,又让它最终能够学到更长程的依赖关系。

研究团队还专门做了一系列实验来验证这套训练策略的必要性。他们对比了在不同反向传播深度下,模型的梯度变化情况。结果显示,当使用完整的反向传播时(Full BPTT),梯度幅度会出现罕见但极其剧烈的"尖峰"——在漫长平静的训练过程中,突然出现一次高达35倍于正常值的梯度爆炸,这会严重破坏模型参数。而截断反向传播则大大减少了这类危险事件的发生。此外,他们还发现,不稳定性主要来自H模块的递归深度,而非L模块,因此H模块的梯度截断是重中之重。

四、彻底颠覆训练方式:只学"有用的",丢掉"无用的"

解决了架构和训练稳定性问题之后,研究团队还在训练数据和训练目标上做了一次根本性的颠覆。

传统的大语言模型训练分两个阶段。第一阶段是"预训练",喂给模型海量的原始互联网文本,训练目标是预测每一个词——无论这个词是问题还是回答、是有意义的内容还是格式噪声,模型都得学。第二阶段是"微调",再用高质量的问答数据对模型进行精调。整个流程耗时耗力,而且大量的计算资源都花在了学习"没用的"部分上——比如学会预测一道题的题干,但题干在推理时是已知的,根本不需要模型去生成。

HRM-Text完全跳过了第一阶段,直接从零开始、在结构化的问答数据上训练。更关键的是,训练目标只计算模型对"回答"部分的预测损失,对"问题"部分不计算损失。这就好比培训一个客服代表,只考核他的回答质量,而不要求他去背诵顾客可能提出的每一种问题的原文——后者本来就是已知的输入,根本无需死记硬背。

这种训练方式在技术上叫做"任务完成目标",配合使用了一种叫做"PrefixLM注意力掩码"的技术。普通的因果语言模型在处理一段文字时,每个词只能"看到"它前面的词,保持单向的因果关系。而PrefixLM打破了这个限制:在问题(指令)部分,所有词都可以互相看到,形成双向的完整理解;在回答(生成)部分,则恢复单向的因果生成,确保模型一个词一个词地给出答案。这给了模型一个巨大优势:它能在回答之前,对整个问题形成充分而全面的理解,而不是只看到问题的"前半段"就开始回答。

实验数据清楚地说明了这两项改动的效果。在计算量相同的条件下,单纯用完整文本训练的标准因果模型,在测试中的回答质量最差。加入"只计算回答部分损失"之后,模型的回答准确率有了明显提升。在此基础上再加入PrefixLM,准确率进一步上升。研究团队还测量了不同层的注意力熵(一种衡量注意力"视野宽广程度"的指标),发现PrefixLM确实让模型在回答时能够注意到更多样化的输入词汇,而非只盯着最近几个词——这与"能看全整道题"的直觉一致。

五、40亿个词的训练数据:精挑细选,而非来者不拒

完成了架构和训练方式的设计之后,还有一道关键工序:数据准备。HRM-Text使用的训练数据总量只有400亿个词元(token),这在当今动辄数万亿词元的大模型训练标准中,简直少得可怜。但"少"不代表"差",研究团队在数据的质量和多样性上下足了功夫。

整个训练数据集由七个大类组成,来源全部是公开的开源数据集。其中最大的一类是通用指令数据,包括FLAN、Tasksource等大型指令集,以及NoRobots等高质量人工编写数据,合计约1387亿词元的原始语料,但通过采样压缩到了一个合理的比例。第二类是"改写的维基百科知识",研究团队使用了一个叫做SYNTH的数据集,它将维基百科的知识改写成了问答对的形式,更符合HRM-Text的训练目标。数学与推理类数据是第三类,包含Platypus、NuminaMath等多个数学问题数据集。符号推理类数据是第四类,包括经典的DM Math数学符号推理题和极难的数独题。第五类是"去除思维链的推理数据"——研究团队特别从AceReason、OpenThoughts2等数据集中删除了那些长篇的"思考过程"文字(被`<think>...</think>`标签包裹的内容),只保留最终答案,这是一个有意为之的设计选择:他们希望模型依靠自身的内部递归计算来推理,而不是依赖显式的"口头推理步骤"。第六类是教材习题,第七类是从网页提取的问答内容。

在采样策略上,研究团队采用了分层采样的方式,把每个数据集或任务类型作为独立的"层"来处理,避免大型数据集的海量数据把小型但高质量的数据集完全淹没。对于那些特别庞大的数据集(如FLAN),设置了每个任务最多采样5000个文档的上限;对于特别小的数据集(不超过5万个文档),则允许最多重复使用10次,以确保它们能够充分参与训练。

另外,研究团队还采用了条件标签的方式来控制模型的回答风格。在每个训练样本的指令前面,会加上四种不同的条件标签之一:`direct`(直接给出答案,不展开)、`cot`(采用思维链格式逐步推理)、`synth`(模仿合成数据的回答风格)和`noisy`(保留网络爬取文本的不规则格式)。通过这种方式,用户在推理时只需在问题前加上对应的标签,就能控制模型给出哪种风格的回答。

六、用一块钱的成本,打败花了四百块的对手:实验结果全景

接下来是所有人最关心的部分:HRM-Text到底有多好?

研究团队在八项权威基准测试上评估了HRM-Text 1B(10亿参数)模型,并与Llama 3.2 3B(Meta出品,30亿参数)、Gemma 3 4B(Google出品,40亿参数)、Qwen 3.5 2B(阿里出品,20亿参数)、OLMo 3 7B(70亿参数)等主流开源模型进行了对比。

在通用知识测试MMLU上,HRM-Text 1B得分60.7%,而Qwen 3.5 2B达到64.5%、OLMo 3 7B达到65.8%,稍有差距。这个结果符合预期——MMLU主要考察广博的事实知识记忆,而HRM-Text的训练数据量只有这些模型的百分之一甚至更少,知识覆盖面天然受限。

然而,在更侧重推理能力的测试中,HRM-Text的表现令人刮目相看。在ARC-C(常识推理)测试中,HRM-Text以81.9%的成绩与OLMo 3 7B的81.6%几乎持平,超过了Llama 3.2 3B的69.1%和Gemma 3 4B的56.2%。在DROP(阅读理解与算术推理)测试中,HRM-Text以82.2%的成绩胜过了所有比较对象,Gemma 3 4B是60.1%,OLMo 3 7B是71.5%。在GSM8K(小学数学应用题)测试中,HRM-Text以84.5%的成绩超越了Llama 3.2 3B(77.7%)、Qwen 3.5 2B(53.0%)和Gemma 3 4B(38.4%),与OLMo 3 7B(75.5%)相比也更高。在难度更高的MATH(竞赛数学)测试中,HRM-Text以56.2%的成绩超越了Qwen 3.5 2B(34.2%)、Llama 3.2 3B(48.0%)和OLMo 3 7B(40.0%),只有GPT-3.5的估算分数(约48%)与之相近。

从计算效率的角度看,这组数字更加惊人。OLMo 3 7B使用了约252倍于HRM-Text的计算量(FLOP数),Qwen 3.5 2B使用了约432倍,Llama 3.2 3B使用了约162倍,Gemma 3 4B使用了约96倍。在训练词元数量上,OLMo 3 7B使用了约150倍,Qwen 3.5 2B使用了约900倍,Llama 3.2 3B使用了约225倍。换句话说,HRM-Text用不到1%的计算资源,达到了同台竞争者90%甚至超越他们的效果。

研究团队还将HRM-Text与同为递归架构的Huginn 3.5B和Ouro 1.4B进行了比较,结果同样亮眼。Huginn 3.5B的训练计算量是HRM-Text的127倍,但它在MMLU只有31.4%、DROP只有17.8%,远低于HRM-Text。这说明并不是所有的递归架构都能达到这样的效率,HRM-Text的双时间尺度设计和任务完成训练目标缺一不可。

为了严格验证实验结果不是因为训练数据中包含了测试题(即"数据污染"问题),研究团队还进行了专门的统计检验。他们将每个测试集的问题与训练语料进行了n-gram匹配,并把测试样本按照污染程度分成"干净"(<20%重叠)、"不干净"(≥20%重叠)、"较脏"(<80%重叠)和"脏"(≥80%重叠)四组,分别统计模型在各组上的得分。判断标准是:只有当"干净"组的表现明显低于平均,同时"脏"组明显高于平均时,才认为污染对结果有实质影响。对于0.6B版本,两种n-gram长度(13和20)的检验都未发现显著污染。对于1B版本,在DROP基准上发现了轻微的污染效应,但即便只看完全干净的子集(5904个样本),得分仍高达81.1%,说明模型具有扎实的泛化能力,成绩并非靠"背答案"得来的。

七、消融实验:三项创新,哪个贡献更大?

为了搞清楚HRM-Text的成功究竟来自哪里,研究团队专门设计了一系列对照实验,逐步拆解各个创新的贡献。

他们从最基础的配置出发——用标准Transformer架构、对完整文本(包括问题和回答)计算损失、使用普通的因果注意力掩码——然后一步步加入新设计,观察每一步带来的效果变化。

基础配置下,同样是10亿参数的Transformer,在MMLU只有40.55%,ARC-C只有51.91%,GSM8K只有48.37%,MATH只有35.44%,表现相当平庸。加入任务完成目标(只对回答部分计算损失)之后,这组数字显著提升:MMLU升至47.72%,ARC-C升至62.88%,GSM8K升至69.75%,MATH升至47.04%。在此基础上再加入PrefixLM注意力,效果进一步改善:MMLU升至53.15%,ARC-C升至74.32%,GSM8K升至75.06%,MATH升至48.36%。最后,将架构从Transformer换成HRM,带来了最大幅度的跳跃:MMLU升至60.73%,ARC-C升至81.91%,GSM8K升至84.53%,MATH升至56.16%。

这组数据非常清晰地说明:三项创新各有贡献,而且具有相互叠加、相互强化的协同效应。单独拿出任何一项,效果都是有限的;三者合一,才构成了HRM-Text的真正竞争力。

研究团队还在同等计算量的条件下比较了HRM与其他类型的递归架构。与同样有递归设计的循环Transformer(Looped Transformer)和RINS相比,HRM在绝大多数测试上都取得了最好的成绩。例如HRM在MMLU上是60.73%,而循环Transformer是56.51%,RINS是56.09%。在更大的Transformer(30亿参数的深度版本和宽度版本)也无法在同等计算量下超越HRM的情况下,HRM的架构优势得到了有力确认。

八、这个研究意味着什么:AI研究的民主化时代

说到底,这项研究最深远的意义,并不仅仅在于某几项测试分数上的胜出。

HRM-Text代表了一种根本性的理念转变:在AI研究领域,"烧更多的钱、用更多的数据"并不是唯一的前进路径。架构设计的智慧和训练目标的精准,同样可以创造出超乎想象的效率提升。一个仅用1500美元就能训练出来的模型,能在多项推理测试上与耗资数百倍的工业级模型相抗衡——这件事本身,就像是一记响亮的警钟,提醒整个领域重新审视那些"理所当然"的假设。

研究团队特别指出了这一成果对AI研究"民主化"的潜在意义。当预训练从零开始变得可以用16块显卡、不到两天就完成时,大学实验室、小型创业公司乃至个人研究者都拥有了探索新架构、新训练方法的可能性。这把原本只属于少数科技巨头的"权力",放回到了更广泛的研究社区手中。

当然,研究团队也坦诚地指出了HRM-Text目前的局限性。在广博的事实知识覆盖方面,受限于训练数据量,HRM-Text与那些在数万亿词元上训练的模型之间仍有差距,MMLU分数低于Qwen和OLMo就是这一局限的体现。目前的实验也只扩展到了30亿参数的Transformer和10亿参数的HRM,在更大规模下是否能维持同样的效率优势,仍有待验证。此外,HRM的递归设计意味着推理时的计算量比单层Transformer更高,这在实际部署中需要工程优化来弥补。

研究团队也为未来的工作指出了几个方向。一是将HRM与外部知识库或检索增强系统结合,让它专注于推理计算,把知识存储交给外部系统——这可能是弥补知识广度短板的有效路径。二是引入"自适应计算时间"机制,让模型对简单问题少跑几轮递归、对难题多跑几轮,从而在效率和能力之间动态平衡。三是更深入地探索PrefixLM在多轮对话和工业级推理框架中的工程实现问题。

归根结底,HRM-Text的意义在于它证明了一件事:在正确的方向上做出聪明的设计选择,其回报可以是数百倍计算资源的等效节省。这一"概念验证"性质的成果,邀请整个研究社区重新思考:我们真的需要那么多算力吗?还是说,我们只是还没找到更好的方法?

Q&A

Q1:HRM-Text和普通大语言模型有什么本质区别?

A:HRM-Text有两个核心不同点。第一是架构:它采用了双时间尺度的层级递归结构,有一个"慢模块"负责把握大局、一个"快模块"负责细节执行,同一套参数会被反复使用多次,相当于用较少参数实现了更深的有效计算。第二是训练方式:它跳过了传统的海量原始文本预训练,直接在问答对上训练,而且只对"回答"部分计算损失,不浪费计算资源在预测"问题"本身上。这两点结合,使它只需极少的算力就能达到较高性能。

Q2:HRM-Text训练只花了1500美元,这个数字可信吗?

A:这个数字是基于研究团队实际使用的硬件和时间估算的。他们使用了两个8卡H100节点(共16块H100显卡),训练时长约46小时,按每张H100每小时2美元的市场价格计算,总费用约为1472美元。当然,这个估算不包括前期的架构探索和调试成本,也不包括数据处理的人力成本,实际的研发总投入远不止于此。但它清晰地说明了一点:单次完整的从零预训练,在这套方案下确实可以控制在几千美元级别。

Q3:HRM-Text在推理时比普通模型慢吗?

A:是的,HRM-Text的递归结构意味着每生成一个词,模型内部需要完成更多次计算循环(相当于普通Transformer的4倍左右计算量),推理速度会比参数量相近的单层Transformer慢。不过研究团队也提出了"自适应计算时间"的改进方向——让简单问题少跑几轮递归、难题多跑几轮,从而减少不必要的计算开销。此外,他们还实验了一种"自动引导"机制,利用中间递归状态的信息来微调最终预测,不增加额外计算量就能略微提升准确率。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-