微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

花1500美元、40天数据，Sapient Intelligence打造出可媲美70亿参数大模型的AI——大型语言模型的平民化时代来了？

人工智能大语言模型高效预训练

花1500美元、40天数据，Sapient Intelligence打造出可媲美70亿参数大模型的AI——大型语言模型的平民化时代来了？

作者：科技行者

2026-05-27 17:03

分享至：

Sapient Intelligence与MIT合作，仅用1500美元、16块显卡训练出10亿参数模型HRM-Text，在推理类测试中媲美2至70亿参数主流大模型，算力消耗仅为对手的1%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-27 17:03 • 科技行者

这项由Sapient Intelligence与麻省理工学院（MIT）合作完成的研究，于2026年5月20日以arXiv预印本形式发布，论文编号为arXiv:2605.20613v1，有兴趣深入了解的读者可通过该编号查询完整论文。

当今的人工智能军备竞赛里，谁烧的钱多、谁的电费账单更吓人，似乎就代表谁更厉害。训练一个像样的大语言模型，动辄需要几千张顶级显卡跑上几个月，耗费数亿乃至数十亿美元。这道几乎无法逾越的门槛，让绝大多数大学实验室、小型研究团队甚至个人研究者只能望洋兴叹——他们根本没有资格参与这场游戏，更别说提出新想法、验证新架构了。

然而，Sapient Intelligence与MIT的这支研究团队偏偏不信这个邪。他们提出了一个听起来近乎异端的问题：如果我们换一种更聪明的方式训练AI，是否可以用极少的资源达到同样的效果？答案令人吃惊——他们用16块显卡、仅仅1.9天的时间、花费约1500美元，从零开始训练出了一个名为HRM-Text的10亿参数模型。这个模型在多项权威测试中的表现，与那些动用了数百倍算力、处理了数百倍训练数据的20亿至70亿参数主流模型相抗衡，甚至在某些推理类测试中超越了它们。

这不是变魔术，背后有两项真正的技术突破：一是受人类大脑启发的全新神经网络结构，二是彻底颠覆传统的训练方式。这篇文章将带你一步步揭开HRM-Text的秘密。

一、为什么大脑学东西比AI更省力？从人类神经科学找答案

要理解HRM-Text为什么与众不同，先得明白当前主流AI模型是怎么学习的，以及为什么这种方式如此"浪费"。

现在几乎所有的大语言模型，包括大家熟悉的GPT、Llama、Qwen等，在训练时都遵循同一套剧本：先把互联网上能搜集到的所有文字——新闻、小说、论坛帖子、百科词条、代码、食谱——统统塞给模型，让它一个字一个字地猜下一个字是什么。这个过程叫做"无监督预训练"，它的逻辑是：只要见过足够多的文字，模型自然就能学会语言的规律，学会世界的知识。

这个思路不是没有道理，但代价惊人。模型需要反复揣摩大量与最终任务毫无关系的内容，比如预测一段网络小说的下一句，或者记住某位名人的生日——这些对于一个最终被用来回答问题、写代码的模型来说，其实是"无效练习"。就像要培养一个出色的厨师，却让他先把世界上所有的食谱都背下来，包括那些他永远不会用到的菜系，而且还要能一字不差地默写出来。

人类的大脑从来不是这样学习的。神经科学的研究表明，人脑在处理信息时有一套精妙的"双轨机制"，被称为额顶叶回路（frontoparietal loop）。简单来说，大脑里有两类节奏截然不同的处理过程同时运行：一类运行得慢，负责把握大局、维持战略性的上下文理解，就像一位在棋局中深思远虑的棋手；另一类运行得快，负责快速执行具体的细节操作，就像棋手熟练地落子。正是这种"慢思考+快执行"的双层结构，让人脑能够在极少样本的情况下快速掌握新知识。

Sapient Intelligence的研究人员此前就基于这个灵感，开发了一种叫做"层级递归模型"（Hierarchical Recurrent Model，简称HRM）的神经网络架构，并在组合逻辑推理等符号任务上取得了很好的效果。但将这套架构用于语言模型，面临的挑战要大得多——语言的世界比棋盘或数学题复杂出几个数量级，随之而来的是严峻的训练不稳定性问题。如何驯服这匹"野马"，是他们需要攻克的第一道难关。

二、"慢大脑+快大脑"的机器实现：HRM架构是怎么工作的

理解HRM的结构，可以用一个小小的类比：假设你在解一道复杂的数学题，你的思维过程大致分两层。外层是你的"总指挥"，它负责把握解题的整体思路，比如"这道题应该用代入法"，它不会频繁变化，而是在几个关键节点才更新一次判断。内层是你的"执行手"，它根据总指挥的方向，一步一步地进行具体的运算，动作频繁而细致。

HRM的结构正是如此。它包含两种模块：H模块（慢模块）和L模块（快模块）。在每一次完整的处理过程中，模型会先通过输入的词语初始化一个"全局状态"，然后进入两轮大循环。每轮大循环里，L模块会快速执行三次细节处理，之后H模块才进行一次全局状态的更新。最终，模型根据H模块输出的结果来预测下一个词。这个结构意味着：同样数量的参数，在HRM里会被反复使用多次，而不是像普通的Transformer网络那样，每一层参数只被用一次就"过去了"。

与传统的Transformer相比，HRM相当于用同等数量的"零件"，搭建出了一座更高的"楼"——参数不增加，但有效的计算深度大大增加。研究团队将这种能力称为"有效深度"，并通过多种实验手段加以验证。其中有一个叫做"logit lens"的分析方法，可以把模型每一层的中间状态"翻译"成它在那一刻的预测结果，然后看这个预测与最终答案有多大差距。对于普通的Transformer和循环Transformer来说，这个差距在较浅的层就会迅速收敛到很小——意味着深层的计算其实没发挥太大作用。而HRM的深层依然保持着较大的差距，说明它的每一层都在踏踏实实地做出贡献，没有"摸鱼"。

在另一项分析中，研究人员还观察了相邻两层之间隐藏状态的变化幅度。HRM每层之间的变化幅度均值为34.12，而循环Transformer是29.65，RINS是25.42——HRM的"每一步都走得更扎实"，层与层之间的表示不会趋于雷同，避免了所谓的"表示过平滑"问题，即模型深层的向量越来越像、失去辨别力的通病。

三、如何训练一匹"不受控制的野马"：MagicNorm与渐进式梯度策略

架构设计完毕，下一个问题接踵而至：循环网络历来以难以训练著称。每次反复"折叠"同一套参数，就像把一张纸来回折叠一百次——梯度在反向传播时，会经历类似的"乘法链式效应"，要么越乘越小趋近于零（梯度消失），要么越乘越大爆炸式增长（梯度爆炸），两者都会让训练彻底失控。

为了解决这个问题，研究团队发明了一种叫做"MagicNorm"的归一化技术。要理解它的妙处，先得知道神经网络中两种常见的归一化方式各有什么缺陷。

一种叫做"后归一化"（PostNorm），它的做法是在每一层的输出处做归一化。这个方式的优点是让每一步的激活值都被约束在一个合理范围内，前向传播很稳定；缺点是它打断了"直通路径"，梯度在反向传播时必须穿越归一化层才能到达更早的层，在网络很深的时候容易造成梯度消失。另一种叫做"前归一化"（PreNorm），它的做法是在每一层的输入处做归一化。优点是保留了一条"高速公路"——误差信号可以直接跳回到早期层，梯度流动更顺畅；缺点是残差连接上的激活值没有被归一化，随着层数加深会越来越大，可能导致表示退化。

MagicNorm巧妙地把两者结合起来，并利用了递归训练中一个独特的不对称性：前向传播和反向传播经历的"深度"不同。在前向传播时，隐藏状态要经历所有N次递归步骤，每一步末尾都有一个归一化操作，这让激活值始终被约束在合理范围内，拥有PostNorm的前向稳定性。但在反向传播时，研究团队采用了"截断反向传播"策略，误差只会被传播回最近的K步（K远小于N），在这有限的几步里，梯度走的是内部PreNorm的"高速公路"，享受PreNorm的梯度流动优势。换句话说，MagicNorm在前向看起来像PostNorm，在反向看起来像PreNorm，兼得两者之长，避开两者之短。

除了MagicNorm，训练策略上还有第二项创新：渐进式梯度策略（warmup deep credit assignment）。在训练刚开始时，模型还处于"懵懵懂懂"的状态，这时候如果让误差信号传播太远，就好比让一个刚学会走路的孩子立刻去跑马拉松——不仅跑不好，还容易摔跤。因此，研究团队在训练初期只让误差传播回最近的两个递归步骤（K=2），等模型训练得更稳定后，再逐渐扩展到最近的五个步骤（K=5）。这种"先走短程、再走长程"的渐进方式，既让模型在早期快速稳定下来，又让它最终能够学到更长程的依赖关系。

研究团队还专门做了一系列实验来验证这套训练策略的必要性。他们对比了在不同反向传播深度下，模型的梯度变化情况。结果显示，当使用完整的反向传播时（Full BPTT），梯度幅度会出现罕见但极其剧烈的"尖峰"——在漫长平静的训练过程中，突然出现一次高达35倍于正常值的梯度爆炸，这会严重破坏模型参数。而截断反向传播则大大减少了这类危险事件的发生。此外，他们还发现，不稳定性主要来自H模块的递归深度，而非L模块，因此H模块的梯度截断是重中之重。

四、彻底颠覆训练方式：只学"有用的"，丢掉"无用的"

解决了架构和训练稳定性问题之后，研究团队还在训练数据和训练目标上做了一次根本性的颠覆。

传统的大语言模型训练分两个阶段。第一阶段是"预训练"，喂给模型海量的原始互联网文本，训练目标是预测每一个词——无论这个词是问题还是回答、是有意义的内容还是格式噪声，模型都得学。第二阶段是"微调"，再用高质量的问答数据对模型进行精调。整个流程耗时耗力，而且大量的计算资源都花在了学习"没用的"部分上——比如学会预测一道题的题干，但题干在推理时是已知的，根本不需要模型去生成。

HRM-Text完全跳过了第一阶段，直接从零开始、在结构化的问答数据上训练。更关键的是，训练目标只计算模型对"回答"部分的预测损失，对"问题"部分不计算损失。这就好比培训一个客服代表，只考核他的回答质量，而不要求他去背诵顾客可能提出的每一种问题的原文——后者本来就是已知的输入，根本无需死记硬背。

这种训练方式在技术上叫做"任务完成目标"，配合使用了一种叫做"PrefixLM注意力掩码"的技术。普通的因果语言模型在处理一段文字时，每个词只能"看到"它前面的词，保持单向的因果关系。而PrefixLM打破了这个限制：在问题（指令）部分，所有词都可以互相看到，形成双向的完整理解；在回答（生成）部分，则恢复单向的因果生成，确保模型一个词一个词地给出答案。这给了模型一个巨大优势：它能在回答之前，对整个问题形成充分而全面的理解，而不是只看到问题的"前半段"就开始回答。

实验数据清楚地说明了这两项改动的效果。在计算量相同的条件下，单纯用完整文本训练的标准因果模型，在测试中的回答质量最差。加入"只计算回答部分损失"之后，模型的回答准确率有了明显提升。在此基础上再加入PrefixLM，准确率进一步上升。研究团队还测量了不同层的注意力熵（一种衡量注意力"视野宽广程度"的指标），发现PrefixLM确实让模型在回答时能够注意到更多样化的输入词汇，而非只盯着最近几个词——这与"能看全整道题"的直觉一致。

五、40亿个词的训练数据：精挑细选，而非来者不拒

完成了架构和训练方式的设计之后，还有一道关键工序：数据准备。HRM-Text使用的训练数据总量只有400亿个词元（token），这在当今动辄数万亿词元的大模型训练标准中，简直少得可怜。但"少"不代表"差"，研究团队在数据的质量和多样性上下足了功夫。

整个训练数据集由七个大类组成，来源全部是公开的开源数据集。其中最大的一类是通用指令数据，包括FLAN、Tasksource等大型指令集，以及NoRobots等高质量人工编写数据，合计约1387亿词元的原始语料，但通过采样压缩到了一个合理的比例。第二类是"改写的维基百科知识"，研究团队使用了一个叫做SYNTH的数据集，它将维基百科的知识改写成了问答对的形式，更符合HRM-Text的训练目标。数学与推理类数据是第三类，包含Platypus、NuminaMath等多个数学问题数据集。符号推理类数据是第四类，包括经典的DM Math数学符号推理题和极难的数独题。第五类是"去除思维链的推理数据"——研究团队特别从AceReason、OpenThoughts2等数据集中删除了那些长篇的"思考过程"文字（被`<think>...</think>`标签包裹的内容），只保留最终答案，这是一个有意为之的设计选择：他们希望模型依靠自身的内部递归计算来推理，而不是依赖显式的"口头推理步骤"。第六类是教材习题，第七类是从网页提取的问答内容。

在采样策略上，研究团队采用了分层采样的方式，把每个数据集或任务类型作为独立的"层"来处理，避免大型数据集的海量数据把小型但高质量的数据集完全淹没。对于那些特别庞大的数据集（如FLAN），设置了每个任务最多采样5000个文档的上限；对于特别小的数据集（不超过5万个文档），则允许最多重复使用10次，以确保它们能够充分参与训练。

另外，研究团队还采用了条件标签的方式来控制模型的回答风格。在每个训练样本的指令前面，会加上四种不同的条件标签之一：`direct`（直接给出答案，不展开）、`cot`（采用思维链格式逐步推理）、`synth`（模仿合成数据的回答风格）和`noisy`（保留网络爬取文本的不规则格式）。通过这种方式，用户在推理时只需在问题前加上对应的标签，就能控制模型给出哪种风格的回答。

六、用一块钱的成本，打败花了四百块的对手：实验结果全景

接下来是所有人最关心的部分：HRM-Text到底有多好？

研究团队在八项权威基准测试上评估了HRM-Text 1B（10亿参数）模型，并与Llama 3.2 3B（Meta出品，30亿参数）、Gemma 3 4B（Google出品，40亿参数）、Qwen 3.5 2B（阿里出品，20亿参数）、OLMo 3 7B（70亿参数）等主流开源模型进行了对比。

在通用知识测试MMLU上，HRM-Text 1B得分60.7%，而Qwen 3.5 2B达到64.5%、OLMo 3 7B达到65.8%，稍有差距。这个结果符合预期——MMLU主要考察广博的事实知识记忆，而HRM-Text的训练数据量只有这些模型的百分之一甚至更少，知识覆盖面天然受限。

然而，在更侧重推理能力的测试中，HRM-Text的表现令人刮目相看。在ARC-C（常识推理）测试中，HRM-Text以81.9%的成绩与OLMo 3 7B的81.6%几乎持平，超过了Llama 3.2 3B的69.1%和Gemma 3 4B的56.2%。在DROP（阅读理解与算术推理）测试中，HRM-Text以82.2%的成绩胜过了所有比较对象，Gemma 3 4B是60.1%，OLMo 3 7B是71.5%。在GSM8K（小学数学应用题）测试中，HRM-Text以84.5%的成绩超越了Llama 3.2 3B（77.7%）、Qwen 3.5 2B（53.0%）和Gemma 3 4B（38.4%），与OLMo 3 7B（75.5%）相比也更高。在难度更高的MATH（竞赛数学）测试中，HRM-Text以56.2%的成绩超越了Qwen 3.5 2B（34.2%）、Llama 3.2 3B（48.0%）和OLMo 3 7B（40.0%），只有GPT-3.5的估算分数（约48%）与之相近。

从计算效率的角度看，这组数字更加惊人。OLMo 3 7B使用了约252倍于HRM-Text的计算量（FLOP数），Qwen 3.5 2B使用了约432倍，Llama 3.2 3B使用了约162倍，Gemma 3 4B使用了约96倍。在训练词元数量上，OLMo 3 7B使用了约150倍，Qwen 3.5 2B使用了约900倍，Llama 3.2 3B使用了约225倍。换句话说，HRM-Text用不到1%的计算资源，达到了同台竞争者90%甚至超越他们的效果。

研究团队还将HRM-Text与同为递归架构的Huginn 3.5B和Ouro 1.4B进行了比较，结果同样亮眼。Huginn 3.5B的训练计算量是HRM-Text的127倍，但它在MMLU只有31.4%、DROP只有17.8%，远低于HRM-Text。这说明并不是所有的递归架构都能达到这样的效率，HRM-Text的双时间尺度设计和任务完成训练目标缺一不可。

为了严格验证实验结果不是因为训练数据中包含了测试题（即"数据污染"问题），研究团队还进行了专门的统计检验。他们将每个测试集的问题与训练语料进行了n-gram匹配，并把测试样本按照污染程度分成"干净"（<20%重叠）、"不干净"（≥20%重叠）、"较脏"（<80%重叠）和"脏"（≥80%重叠）四组，分别统计模型在各组上的得分。判断标准是：只有当"干净"组的表现明显低于平均，同时"脏"组明显高于平均时，才认为污染对结果有实质影响。对于0.6B版本，两种n-gram长度（13和20）的检验都未发现显著污染。对于1B版本，在DROP基准上发现了轻微的污染效应，但即便只看完全干净的子集（5904个样本），得分仍高达81.1%，说明模型具有扎实的泛化能力，成绩并非靠"背答案"得来的。

七、消融实验：三项创新，哪个贡献更大？

为了搞清楚HRM-Text的成功究竟来自哪里，研究团队专门设计了一系列对照实验，逐步拆解各个创新的贡献。

他们从最基础的配置出发——用标准Transformer架构、对完整文本（包括问题和回答）计算损失、使用普通的因果注意力掩码——然后一步步加入新设计，观察每一步带来的效果变化。

基础配置下，同样是10亿参数的Transformer，在MMLU只有40.55%，ARC-C只有51.91%，GSM8K只有48.37%，MATH只有35.44%，表现相当平庸。加入任务完成目标（只对回答部分计算损失）之后，这组数字显著提升：MMLU升至47.72%，ARC-C升至62.88%，GSM8K升至69.75%，MATH升至47.04%。在此基础上再加入PrefixLM注意力，效果进一步改善：MMLU升至53.15%，ARC-C升至74.32%，GSM8K升至75.06%，MATH升至48.36%。最后，将架构从Transformer换成HRM，带来了最大幅度的跳跃：MMLU升至60.73%，ARC-C升至81.91%，GSM8K升至84.53%，MATH升至56.16%。

这组数据非常清晰地说明：三项创新各有贡献，而且具有相互叠加、相互强化的协同效应。单独拿出任何一项，效果都是有限的；三者合一，才构成了HRM-Text的真正竞争力。

研究团队还在同等计算量的条件下比较了HRM与其他类型的递归架构。与同样有递归设计的循环Transformer（Looped Transformer）和RINS相比，HRM在绝大多数测试上都取得了最好的成绩。例如HRM在MMLU上是60.73%，而循环Transformer是56.51%，RINS是56.09%。在更大的Transformer（30亿参数的深度版本和宽度版本）也无法在同等计算量下超越HRM的情况下，HRM的架构优势得到了有力确认。

八、这个研究意味着什么：AI研究的民主化时代

说到底，这项研究最深远的意义，并不仅仅在于某几项测试分数上的胜出。

HRM-Text代表了一种根本性的理念转变：在AI研究领域，"烧更多的钱、用更多的数据"并不是唯一的前进路径。架构设计的智慧和训练目标的精准，同样可以创造出超乎想象的效率提升。一个仅用1500美元就能训练出来的模型，能在多项推理测试上与耗资数百倍的工业级模型相抗衡——这件事本身，就像是一记响亮的警钟，提醒整个领域重新审视那些"理所当然"的假设。

研究团队特别指出了这一成果对AI研究"民主化"的潜在意义。当预训练从零开始变得可以用16块显卡、不到两天就完成时，大学实验室、小型创业公司乃至个人研究者都拥有了探索新架构、新训练方法的可能性。这把原本只属于少数科技巨头的"权力"，放回到了更广泛的研究社区手中。

当然，研究团队也坦诚地指出了HRM-Text目前的局限性。在广博的事实知识覆盖方面，受限于训练数据量，HRM-Text与那些在数万亿词元上训练的模型之间仍有差距，MMLU分数低于Qwen和OLMo就是这一局限的体现。目前的实验也只扩展到了30亿参数的Transformer和10亿参数的HRM，在更大规模下是否能维持同样的效率优势，仍有待验证。此外，HRM的递归设计意味着推理时的计算量比单层Transformer更高，这在实际部署中需要工程优化来弥补。

研究团队也为未来的工作指出了几个方向。一是将HRM与外部知识库或检索增强系统结合，让它专注于推理计算，把知识存储交给外部系统——这可能是弥补知识广度短板的有效路径。二是引入"自适应计算时间"机制，让模型对简单问题少跑几轮递归、对难题多跑几轮，从而在效率和能力之间动态平衡。三是更深入地探索PrefixLM在多轮对话和工业级推理框架中的工程实现问题。

归根结底，HRM-Text的意义在于它证明了一件事：在正确的方向上做出聪明的设计选择，其回报可以是数百倍计算资源的等效节省。这一"概念验证"性质的成果，邀请整个研究社区重新思考：我们真的需要那么多算力吗？还是说，我们只是还没找到更好的方法？

Q&A

Q1：HRM-Text和普通大语言模型有什么本质区别？

A：HRM-Text有两个核心不同点。第一是架构：它采用了双时间尺度的层级递归结构，有一个"慢模块"负责把握大局、一个"快模块"负责细节执行，同一套参数会被反复使用多次，相当于用较少参数实现了更深的有效计算。第二是训练方式：它跳过了传统的海量原始文本预训练，直接在问答对上训练，而且只对"回答"部分计算损失，不浪费计算资源在预测"问题"本身上。这两点结合，使它只需极少的算力就能达到较高性能。

Q2：HRM-Text训练只花了1500美元，这个数字可信吗？

A：这个数字是基于研究团队实际使用的硬件和时间估算的。他们使用了两个8卡H100节点（共16块H100显卡），训练时长约46小时，按每张H100每小时2美元的市场价格计算，总费用约为1472美元。当然，这个估算不包括前期的架构探索和调试成本，也不包括数据处理的人力成本，实际的研发总投入远不止于此。但它清晰地说明了一点：单次完整的从零预训练，在这套方案下确实可以控制在几千美元级别。

Q3：HRM-Text在推理时比普通模型慢吗？

A：是的，HRM-Text的递归结构意味着每生成一个词，模型内部需要完成更多次计算循环（相当于普通Transformer的4倍左右计算量），推理速度会比参数量相近的单层Transformer慢。不过研究团队也提出了"自适应计算时间"的改进方向——让简单问题少跑几轮递归、难题多跑几轮，从而减少不必要的计算开销。此外，他们还实验了一种"自动引导"机制，利用中间递归状态的信息来微调最终预测，不增加额外计算量就能略微提升准确率。

人工智能大语言模型高效预训练

分享至

0赞

好文章，需要你的鼓励

推荐文章

AI智能体评估
自动化评测
评估代码生成

2026-05-20 17:33

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

AWS AI Labs研究团队发布EvalAgent，这是一套通过"评估技能"自动生成AI智能体评测方案的系统，将首次运行成功率从17.5%提升至65%，并在人类专家评测中获得79.5%的偏好选择。
低光图像增强
多模态融合
跨注意力机制

2026-05-20 17:16

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

亚历山大大学提出M2Retinexformer，通过融合深度、亮度和语义三种辅助模态，让AI在增强暗光图像时兼顾几何结构与视觉自然度。
人工智能
联想记忆
新型适配算法

2026-05-20 17:03

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

浙大、西湖大学等联合提出FAAST，无需反向传播，一次正向扫描将训练样本压缩为快速权重矩阵，推理时间和内存占用分别节省90%和95%以上。
重症监护AI
大语言模型
医疗安全评估

2026-05-20 16:46

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

慕尼黑工业大学发布RealICU基准，用专家后见之明评测大语言模型在ICU实时决策中的真实能力，发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

2026-05-20 17:33

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

2026-05-20 17:16

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

2026-05-20 17:03

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

2026-05-20 16:46

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

北京第二十六维信息技术有限公司（至顶网）版权所有。 | 联络我们

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn