微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

中国人民大学研究团队打造的"AI科学家"：让机器自主完成几十小时的科研工程，它是怎么做到的？

人工智能多智能体系统自主科研工程

中国人民大学研究团队打造的"AI科学家"：让机器自主完成几十小时的科研工程，它是怎么做到的？

作者：科技行者

2026-04-22 16:46

分享至：

中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统，旨在让AI自主完成机器学习研究的完整工程流程，包括读论文、搭环境、写代码、跑实验和迭代调试，全程无需人工干预。系统核心设计是"薄控制、厚状态"：由轻量指挥官协调专业代理团队，通过"文件即通道"机制将所有中间成果持久化存储，使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上，系统表现显著优于现有最强对比系统，论文发布于2026年4月。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-22 16:46 • 科技行者

这项研究由中国人民大学高岭人工智能学院联合独立研究机构及AweAI团队共同完成，于2026年4月14日以预印本形式发布，论文编号为arXiv:2604.13018。有兴趣深入了解的读者可通过该编号查询完整论文。

---

一、从"写代码的AI"到"做科研的AI"，这一步有多难？

科研工作在很多人眼里是一项需要高度专注和持续推进的复杂工作。一位机器学习方向的博士生，拿到一篇论文后，需要先读懂它，再搭建运行环境，接着动手写代码，然后跑实验、看结果、发现问题、修改代码、再跑……这个循环往往持续好几天，中间任何一步出了岔子，都可能前功尽弃。

现在，有人想让AI代替人类完成这整套工作，而且是从头到尾、不依赖人类干预，连续工作几十个小时。这就是这篇论文要解决的问题所在——不是让AI写一段代码，也不是让AI回答一道题，而是让AI像一名真正的科研工程师那样，端到端地完成整个机器学习研究的复现与优化流程。

中国人民大学的研究团队将这类任务称为"长周期机器学习研究工程"。他们开发了一个叫做AiScientist（以下简称"AI科学家"）的系统，并在两个业界公认颇具挑战性的测试基准上验证了它的能力。结果相当值得关注：在第一个基准PaperBench上，AI科学家的平均得分比此前最强的AI基线系统高出10.54分；在第二个基准MLE-Bench Lite上，它以81.82%的"获奖率"超越了所有有记录的对比系统，其中包括多个已公开发布的知名商业和研究机构系统。

---

二、让AI完成科研的四道关卡：为什么这件事比看起来难得多？

要理解AI科学家的设计思路，首先得明白这项任务到底难在哪里。研究团队将挑战归纳为四个层面，每一个单独拿出来都不简单，而它们叠加在一起，就构成了一道极为复杂的难题。

第一道关卡是"信息不全"。现实中，一篇机器学习论文往往不是一份完整的操作手册。作者可能只写了主要思路，很多实现细节散落在各个章节，甚至完全没有提及。AI必须像一个经验丰富的工程师一样，从不完整的描述中推断出缺失的决策，必要时还得查阅相关文献或公开资源来补全。

第二道关卡是"环境搭建负担"。光有算法还不够。要让代码真正跑起来，需要配置运行环境、下载数据集、获取预训练模型，并将所有这些资源拼接成一个可运行的完整系统。这部分工作在实际工程中常常耗时最多，却最容易被忽视。

第三道关卡是"延迟反馈"。AI提交的代码不会立即报告"这里有一个逻辑错误"。真正的信息要等到实验跑完才能看到：结果对不上论文中的数字，但是到底是哪里出了问题——是数据预处理、模型结构、超参数设置，还是环境配置——很难一眼判断。AI必须在这种模糊的反馈中做出合理的判断。

第四道关卡是"状态连续性"。每一轮实验都会产生代码、日志、结果、诊断记录。下一轮工作必须正确理解并建立在前一轮的基础之上。如果AI每次都"忘记"之前做了什么、发现了什么，它就会一直在原地打转，反复踩同样的坑。

正是第四个挑战，成为了AI科学家整个设计哲学的核心出发点。

---

三、"薄控制、厚状态"：一套听起来奇怪但非常有效的工作方式

研究团队用一句话概括了AI科学家的设计核心："薄控制，厚状态"。这句话乍听有些抽象，但用一个具体的比方来理解就清晰多了。

假设你是一个大型建筑项目的总监。你不可能亲自去工地搬砖、测量、焊接，但你需要知道每栋楼盖到什么阶段了，下一步应该安排哪个专业队进场。你的管理方式是：让每个专业队把工作记录写在一个共享的项目文件夹里，你通过翻阅这个文件夹上的目录（而不是每一份详细记录）来做决策。需要看具体情况时，你再去翻对应的文件。

这里，"薄控制"说的就是你这个总监——他对每件事只需要了解概要，不需要把所有细节装进自己脑子里。"厚状态"说的就是那个共享文件夹——它积累了所有真实的工作记录、设计图纸、问题诊断，是整个项目真正的"记忆"所在。

AI科学家正是按照这个逻辑构建的。系统的顶层有一个"指挥官"（Orchestrator），它不需要随时掌握所有细节，只需要知道项目走到哪个阶段了，下一步该交给哪个专业团队。真正的工作细节——论文分析、代码、实验记录、错误日志——都保存在一个结构化的共享工作区里，任何专业代理在需要时都可以去读，而不是靠着"上一轮对话的记忆"来续接工作。

---

四、"文件即通道"：AI团队如何不靠聊天传递信息

在AI科学家的工作方式中，有一个具体的机制叫做"File-as-Bus"，翻译过来大约是"以文件为信息通道"。这个概念是整个系统的技术基石，也是它与其他AI系统最显著的区别之一。

大部分多智能体系统（也就是由多个AI代理协作完成任务的系统）依赖的是"对话接力"：一个AI完成一段工作后，把结论用语言描述给下一个AI，下一个AI基于这段描述继续工作。这就像打电话传话——每传一次，信息就可能失真一次。而且一旦某个AI的"记忆窗口"装满了，之前的信息就会被丢弃，再也无法追溯。

AI科学家的做法完全不同。它把所有中间成果都以文件形式保存在一个有权限管理的共享工作区里。这个工作区被划分成三个区域：一是"论文分析区"，存放对目标论文的结构化理解、关键指标、实现细节和存疑之处；二是"提交区"，存放可运行的代码仓库，包括环境配置脚本、资源下载逻辑，以及最终执行入口文件；三是"代理工作区"，存放任务优先级计划、实现日志（只能追加，不能修改）、实验日志和每次具体实验的详细输出。

每一个专业代理在开始工作时，不是靠"回忆上一轮对话说了什么"，而是先看一眼整个工作区的目录索引（一个轻量的"地图"），然后按需读取与自己任务相关的文件，完成工作后再把结果写回对应文件。这样，每一轮工作的成果都真实地沉淀下来，后续的代理可以站在前人工作的肩膀上继续推进，而不是每次都从零开始。

权限管理也是这套机制的重要组成部分。每个专业代理只能写它职责范围内的文件，共享日志只能追加不能覆盖。这避免了不同代理之间相互干扰，也保证了工作记录的可追溯性。

---

五、四个专家加一个指挥官：AI科研团队的内部分工

AI科学家并不是一个单一的"大脑"，而是一个由多层次代理组成的协作团队。顶层是"指挥官"，中间层是四个专业领域的"专家代理"，必要时每个专家还可以召唤更专注的"子代理"来处理具体小任务。

指挥官的职责是做阶段性决策：现在应该推进哪个阶段的工作，应该把任务交给哪个专家。它通过阅读工作区目录和各代理返回的简短摘要来了解项目进展，不需要把所有细节装进自己的"脑袋"。这种安排使得指挥官的"工作记忆"始终保持轻盈，从而能在整个几十小时的任务周期内持续稳定地发挥协调作用。

专家代理各有分工。"论文理解专家"负责读懂目标论文，将其分解为结构、算法、实验设计、基线方法等维度，并将结果写入论文分析区。它可以同时召唤多个子代理并行处理不同维度，再汇总成完整的分析文件，供后续所有代理参考。

"任务优先级专家"则读取论文分析结果，识别各项实现任务之间的依赖关系，按照重要性和可行性排列顺序，生成一份明确的执行计划文件。这份文件就是整个项目实施阶段的"行动纲领"。

"实现专家"是代码工作的主力。它有两种工作模式：当系统还没有可运行代码时，它从分析文件和执行计划出发，从头搭建整个代码仓库；当已经有代码但实验出了问题时，它切换到修复模式，根据实验日志中记录的错误，有针对性地修改代码，并把每次重要的代码决策记录在实现日志中。

"实验专家"负责运行代码、观察结果，将实际产生的指标与论文中报告的目标值进行对比，记录差异和问题，并在遇到简单错误（如导入路径错误、配置文件格式问题）时直接修复，而将需要深度代码改动的问题提交给指挥官，由指挥官再次调度实现专家处理。

此外，系统还设有一个"通用助手接口"，用于处理探索、规划或一次性辅助任务，这些任务不需要专门的专家流程，但也值得有一个专门的代理去完成。

---

六、实验结果：两个基准上的表现如何？

研究团队选择了两个互补的评测基准来全面考察AI科学家的能力。

第一个是PaperBench，由OpenAI参与设计，专门用来测试AI从头复现顶级机器学习会议论文的能力。任务规则非常严格：给AI一篇论文、一个配有GPU的空白Docker容器和24小时时间，不能使用作者的原始代码，必须自己从零开始搭建、运行并得出与论文匹配的实验结果。评分维度包括代码质量、能否成功运行，以及结果与论文的吻合程度。这个基准出了名地难——此前最好的AI系统只能完成约21%的评分要求，而顶尖的机器学习博士生在48小时内能完成约41%。

AI科学家在使用Gemini-3-Flash作为底层语言模型时，平均得分达到30.52分，比同条件下最强的基线系统高出9.92分；使用GLM-5时，平均得分达到33.73分，比最强基线高出11.15分。在20个不同的论文复现任务中，几乎每一个任务上AI科学家都有明显提升，其中最显著的一个任务（pinn）在GLM-5下提升了32.99分。

值得特别关注的是成本对比。此前表现相对较好的"迭代代理"系统（IterativeAgent）在Gemini-3-Flash下每个任务平均花费27.44美元，而AI科学家只需15.67美元，却能取得更高的分数。在GLM-5下差距更悬殊：迭代代理每任务花费54.90美元，AI科学家只需12.20美元。这说明单纯"多做几轮交互"并不等于更好的结果，关键在于每一轮交互是否真正建立在之前积累的成果之上。

第二个基准是MLE-Bench Lite，这个基准更接近Kaggle竞赛的形式——AI需要在现有数据集上持续优化机器学习方案，争取在模拟的竞赛排行榜上获得铜牌、银牌或金牌。主要评估指标是"任意奖牌获取率"（Any Medal%），即在全部测试任务中，有多少比例能至少获得一枚奖牌。

在受控对比实验中，AI科学家使用两种底层模型均达到了81.82%的任意奖牌率，分别比最强对比系统高出4.55和18.18个百分点。在官方排行榜上，AI科学家的81.82%超过了所有已公开记录的系统，其中最高的是75.76%。

图1展示了一个具体案例：在"侮辱性言论检测"这一任务上，AI科学家在23小时内自主完成了74轮实验，将模型的验证集AUC（一种衡量分类模型好坏的指标，越接近1越好）从0.903提升到了0.982，期间经历了18次"找到更好方案并保留"的关键节点，同时也经历了大量"尝试无效果而丢弃"的探索过程，全程无需人工干预。

---

七、关键机制验证：去掉"文件通道"会发生什么？

为了弄清楚AI科学家的效果到底来自哪里，研究团队做了一系列对照实验，重点检验两个问题：去掉"文件即通道"机制后系统表现如何下降？与更简单的非层级化代理相比，层级化编排贡献了多少？

去掉文件即通道机制的实验结果相当直观。在PaperBench上，平均分下降了6.41分；在MLE-Bench Lite上，任意奖牌率下降了31.82个百分点。后者的下降尤为值得关注——去掉这个机制后，系统仍然能产生有效提交，也还能获得一些铜牌，但银牌、金牌这类需要多轮精细优化才能达到的成绩大幅下滑。这个模式揭示了一个关键规律：文件即通道机制的价值不在于帮助AI"入门"，而在于帮助它在已经有基础的情况下"持续进步"。换句话说，当任务需要跨越多轮实验、不断从之前的诊断中学习时，丢失中间状态的代价就会急剧放大。

与更简单代理的对比同样说明了问题。研究团队将AI科学家与非层级化的简单代理（在PaperBench上对应BasicAgent，在MLE-Bench Lite上对应AIDE）进行比较，发现即使是去掉文件即通道机制的"残缺版"AI科学家，在PaperBench上仍比BasicAgent高出4.74分，在MLE-Bench Lite上的"高于中位数率"和任意奖牌率也分别高出22.73和9.09个百分点。这说明层级化编排本身就带来了独立的贡献，而不是全部效果都来自文件持久化。此前的迭代代理系统尽管比BasicAgent多了更多交互轮次，却仍然远不如AI科学家（甚至不如去掉文件通道的AI科学家），进一步印证了"更多交互"和"在积累状态上的持续推进"是两件完全不同的事。

---

八、这项研究告诉我们什么？

归根结底，AI科学家这个系统传递的最核心信息，是对"AI如何做长周期任务"这一问题的一次重新定性。

研究团队认为，自主长周期机器学习研究工程本质上是一个**系统协调问题**，而不仅仅是一个**局部推理问题**。过去很多人认为，只要语言模型足够强大，给它更多时间和更多"思考"机会，它就能自然而然地完成更复杂的任务。但这项研究的实验结果表明，单纯增加交互轮次并不能带来持续的进步，因为每一轮新的工作如果不能建立在之前工作的基础上，就只是在重复劳动，而不是在积累。

真正让AI能够跨越几十小时、跨越几十轮实验持续进步的，是一套让"历史工作成果"始终可访问、可信赖、可建立的机制设计。文件即通道协议做到了这一点，而层级化编排则确保了这些积累下来的状态能够被正确地路由给有能力处理它们的专业代理。

当然，这个系统离人类顶尖研究人员的水平还有距离——在PaperBench上，顶尖机器学习博士生在48小时内能完成约41%的评分要求，而AI科学家目前达到的是约33.73%。但这个差距已经比之前任何AI系统小得多，而且研究团队在这个方向上的设计思路，为进一步缩小这一差距提供了一个清晰可扩展的框架。

值得思考的是，随着这类系统的能力不断提升，科研流程的加速和民主化可能比我们预期的更快到来——不仅是顶尖机构，普通研究者也可能借助类似的系统，以更低的成本完成更高质量的实验性研究工作。

对这个话题有兴趣的读者，可以通过arXiv编号2604.13018查阅完整论文，获取更多技术细节和实验数据。

---

Q&A

Q1：AiScientist系统的"文件即通道"机制是什么意思，为什么重要？

A：文件即通道（File-as-Bus）是指AI科学家系统中各个代理不通过对话传递信息，而是把所有中间成果（如论文分析、代码、实验日志）写入一个共享工作区的文件里，后续代理直接读文件来续接工作。这避免了信息在反复"传话"中失真或丢失，使每轮工作都能真正建立在之前积累的基础上。实验表明去掉这个机制后，MLE-Bench Lite的获奖率会下降近32个百分点。

Q2：PaperBench测试的是什么，AI科学家的表现如何？

A：PaperBench要求AI在24小时内，从一篇机器学习论文出发，在没有原始代码的情况下从零搭建、运行并复现论文的核心实验结果。此前最好的AI系统只能完成约21%的评分要求，而顶尖博士生能完成约41%。AI科学家使用GLM-5模型时达到了平均33.73分，比此前最强AI基线高出11.15分，并显著缩小了与人类博士生的差距。

Q3：AI科学家系统与其他AI代理系统最大的区别是什么？

A：最大区别在于AI科学家通过"文件即通道"机制实现了跨轮次的持久状态积累，而不是依赖对话接力传递信息。此外，它采用层级化编排，由一个轻量的指挥官调度多个专业代理（论文理解、任务规划、代码实现、实验执行），每个代理只负责自己的领域，避免了单一代理承担过多任务导致的失控问题。两者共同作用，使系统能在几十小时内持续有效地推进工作。

人工智能多智能体系统自主科研工程

分享至

0赞

好文章，需要你的鼓励

推荐文章

大语言模型
强化学习
序列级优化

2026-04-22 17:33

南方科技大学等机构联手破解AI推理训练难题：让大模型"一次思考"就学会解题

本文介绍了由南方科技大学等机构于2026年4月发表的研究（arXiv:2604.08865），提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机"，用一个轻量级价值模型预测题目难度，以单次采样替代GRPO的多次采样，解决了标准PPO的"尾部效应"问题。实验显示，SPPO在数学基准测试上超越GRPO，训练速度提升约5.9倍，配合小尺寸价值模型还能显著降低显存占用。
人工智能
扩散模型
统一理论框架

2026-04-22 17:03

香港科技大学数学系研究者：扩散模型原来是一个"魔法恒等式"拆成了两半

这项由香港科技大学数学系完成的研究（arXiv:2604.10465，2026年ICLR博客论文赛道）提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出，扩散模型的前向加噪和逆向去噪过程，本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下，VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译，SDE与ODE版本可被统一解释，扩散模型相对VAE的理论优势得以阐明，Flow Matching与得分匹配的等价性也得到了严格论证。
人工智能
图像生成
新型算法

2026-04-22 15:16

字节跳动发布GRN：像人类画家一样"边画边改"的AI图像生成新范式

这项由字节跳动发布的研究（arXiv:2604.13030）提出了生成式精化网络（GRN），一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新：层级二进制量化（HBQ）通过多轮二分逼近实现近乎无损的离散图像编码，以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错，从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度，GRN在ImageNet图像重建（rFID 0.56）和生成（gFID 1.81）上均创下新纪录，并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。
大语言模型
知识蒸馏
高效训练方法

2026-04-22 15:03

英伟达研究院让AI训练提速4倍：一个被长期忽视的"教师一致性"原则，彻底改变了大模型蒸馏的玩法

这篇来自英伟达研究团队、发表于2026年4月（arXiv:2604.13010）的研究，提出了名为Lightning OPD的大模型训练新方法。研究发现了大模型两阶段训练中长期被忽视的"教师一致性"原则：当监督微调阶段和蒸馏训练阶段使用不同的老师模型时，会引入不可消除的梯度偏差，导致模型永远无法达到最优状态。Lightning OPD通过始终使用同一个老师模型，并提前预存老师评分，彻底消除了对实时老师服务器的依赖，在数学推理和代码生成任务上实现了4倍训练提速，同时性能持平甚至略超传统在线蒸馏方法。

南方科技大学等机构联手破解AI推理训练难题：让大模型"一次思考"就学会解题

南方科技大学等机构联手破解AI推理训练难题：让大模型"一次思考"就学会解题

2026-04-22 17:33

香港科技大学数学系研究者：扩散模型原来是一个"魔法恒等式"拆成了两半

香港科技大学数学系研究者：扩散模型原来是一个"魔法恒等式"拆成了两半

2026-04-22 17:03

字节跳动发布GRN：像人类画家一样"边画边改"的AI图像生成新范式

字节跳动发布GRN：像人类画家一样"边画边改"的AI图像生成新范式

2026-04-22 15:16

英伟达研究院让AI训练提速4倍：一个被长期忽视的"教师一致性"原则，彻底改变了大模型蒸馏的玩法

英伟达研究院让AI训练提速4倍：一个被长期忽视的"教师一致性"原则，彻底改变了大模型蒸馏的玩法

2026-04-22 15:03

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

北京第二十六维信息技术有限公司（至顶网）版权所有。 | 联络我们

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn