
这项由上海交通大学人工智能学院联合SciLand与DP Technology共同完成的研究,于2026年4月以预印本形式发布在arXiv平台,论文编号为arXiv:2604.17406。研究的核心成果是一个名为EvoMaster的智能体框架,旨在让AI像真正的科学家一样自我进化、持续学习。
科学家是怎么工作的?他们提出猜想、设计实验、观察结果、推翻旧假设、再提出新猜想——如此反复循环,不断逼近真相。这个过程有时需要几年甚至几十年。现在,有一群研究人员在思考一个问题:如果AI也能像科学家一样循环迭代、越做越聪明,会发生什么?
这正是EvoMaster想要解决的核心问题。它不是一个针对某个特定学科的专用工具,而是一套"地基"——任何领域的研究者都可以在这套地基上,用大约100行代码快速搭建属于自己学科的AI科研助手。物理、化学、机器学习、生物……都能用同一套底层架构支撑起来。
在四项权威测试中,EvoMaster的成绩相当亮眼:在考察跨学科专业知识的"人类最后一考"(HLE)中拿到41.1%的正确率,在考察机器学习工程能力的MLE-Bench Lite中拿到75.8%的奖牌率,在考察复杂网络信息检索的BrowseComp中达到73.3%,在考察前沿科学推理的FrontierScience中达到53.3%。与同期最快增长的开源通用AI智能体OpenClaw相比,这四项成绩的相对提升幅度分别为202%、316%、159%和191%,差距相当悬殊。
---
一、AI做科研,真的行得通吗?
科学研究这件事,向来被认为是人类智慧最集中的体现。AlphaFold能预测蛋白质结构,GNoME发现了220万种新晶体结构——这些成就令人叹为观止。但研究人员指出,这些AI系统本质上仍是"工具":它们回答人类提出的特定问题,而不是自己发现问题、自己设计实验、自己反思修正。
真正意义上的"智能科研"需要一种完整的循环:从文献调研、提出假设,到设计实验、执行代码、分析结果,再到撰写报告——整个链条都由AI自主完成,并且每一次循环结束后,AI能从经验中学习,下一次做得更好。研究人员把这种范式称为"Agentic Science"(智能体科学),进一步扩展到多个学科同时并行运转,就是"Agentic Science at Scale"(规模化智能体科学)。
问题在于,目前的大多数AI科研系统存在两个根本性的缺陷。第一,它们高度专业化、互相割裂。比如ChemCrow专门为化学合成定制,MLAgentBench只适用于机器学习流水线。每建一个新领域的AI,都要从零开始重写工具调用、任务管理、错误处理等大量基础代码,代价极高。第二,它们是"一次性"的——执行一次任务就结束,下次再来还是一张白纸,没有任何从失败中学习、积累经验的能力。这就好比雇了一个实验室助手,每天早上他都会把昨天学到的东西全部忘掉,重新从头开始。
EvoMaster就是为了同时解决这两个问题而生的。
---
二、打地基:让所有学科共用一套骨架
要理解EvoMaster为什么能做到"100行代码部署一个新领域的AI科学家",可以用建筑来类比。建造一栋摩天大楼,大部分成本都花在地基、钢结构、电梯、消防系统这些基础设施上,每个租户不需要自己造电梯,只需要装修自己的那层楼。EvoMaster扮演的就是"大楼基础设施"的角色,而各个学科的AI智能体只需要"装修自己的那一层"。
具体来说,EvoMaster将整个系统分成三个相互独立又紧密协作的层次。最上层叫Playground(游乐场),负责协调多个AI智能体之间的合作关系,以及特定学科的工作流程。中间层叫Exp(实验),负责管理一次实验的完整生命周期,包括任务启动和过程记录。最下层叫Agent(智能体),驱动AI进行推理和工具调用的核心循环。
这种分层设计带来一个非常实际的好处:如果研究人员改进了底层的推理引擎或记忆管理机制,所有建在这套框架上的学科智能体都会同时受益,不需要每个学科单独升级。这就像大楼更换了更节能的中央空调系统,所有楼层的租户都能享受到更低的电费,而不需要每家每户自己去换空调。
为了让不同的工具和能力能够无缝对接,EvoMaster还遵循了业内的通行标准,比如模型上下文协议(MCP)和技能规范(Skill)。任何符合这些标准的外部工具,都可以直接接入EvoMaster,不需要额外的适配工作。这意味着为化学实验开发的某个专用工具,理论上也可以被生物学或物理学的AI智能体直接调用,实现真正的跨学科工具共享。
---
三、让AI学会"越做越聪明":迭代进化的核心引擎
EvoMaster最与众不同的地方,是它把"持续进化"这件事直接刻进了系统的骨子里。
在Agent引擎的层面,AI的工作模式是一个不断循环的闭环:推理→调用工具→观察结果→自我批判→再推理。每完成一个环节,AI都会主动反思"这一步做得怎么样?有没有更好的方案?",然后带着这份反思进入下一轮。这个循环可以持续几百轮,就像一位研究生在导师指导下反复修改实验方案,每次都比上次更接近正确答案。
但这里有一个技术难题:AI处理信息的"工作台"(也就是上下文窗口)是有限的,如果几百轮对话的内容全部堆积在工作台上,它很快就会装不下。EvoMaster为此设计了一个智能的"上下文管理器",会动态地对历史对话进行压缩和总结,把最关键的信息保留下来,把冗余内容精简掉。这就好比一位研究人员不会把五年前的每一张实验记录都带到今天的组会上,而是会整理出一份精炼的研究摘要,把最重要的发现和教训提炼出来随身携带。
在更高层面上,多个AI智能体还可以组成团队协同作战。EvoMaster的Playground协调器支持多种合作模式:有的智能体负责提出解决方案,有的负责挑错,有的负责改写和优化,最终由选择机制决定哪个方案最优。这种"求解者-批评者-改写者"的分工结构,模拟了真实学术圈中同行评审的动态:好的想法经过同行质疑和打磨后会变得更强,有缺陷的方案会在批评中被淘汰。
为了保证整个过程严谨可复现——毕竟科学研究最重要的就是可重复性——EvoMaster把每一次实验的所有参数都用YAML格式的配置文件记录下来,把每一轮对话、每一次工具调用、每一个token的消耗都写入结构化的JSON日志。研究人员可以像查看实验室笔记本一样,随时回溯任何一次实验的完整过程,也可以把配置文件直接分享给同行,让对方在完全相同的条件下重现实验。
---
四、在这套地基上盖起来的科研生态:SciMaster家族
EvoMaster不只是一个框架概念,它已经孕育出一个真实运转的AI科研生态,统称SciMaster系列。
其中,ML-Master 2.0专门针对自主机器学习任务,拥有多阶段迭代优化流水线,包含知识预取、方案起草、最多20轮的并行改进,以及一套层次化的"认知缓存"机制——把每轮学到的经验按照不同粒度分别存储,供后续轮次调用。这套机制让它在MLE-Bench这个模拟真实Kaggle竞赛的测试中表现出色,在22场竞赛中拿下约17个奖牌,而对照组OpenClaw提交了18场却只拿到4个。
X-Master面向通用科学研究,采用四阶段并行流水线处理复杂问题:先由多个求解者生成候选答案,再由批评智能体找出错误,然后改写智能体迭代优化,最后由选择机制确定最优方案。这个流程对那些初次尝试就容易答错的难题尤其有效,因为有了批评和重写的循环,就算第一稿不好,最终答案仍有机会被打磨出来。
Browse-Master专门处理复杂的网络信息检索任务,采用"规划者-执行者"的双角色迭代模式,最多可以进行10轮搜索循环。规划者根据已有的搜索结果制定下一步的检索策略,执行者通过网页搜索、URL抓取、PDF提取等方式获取信息。这种持续深挖、交叉验证的方式,让它在需要跨越几十甚至几百个网页才能找到答案的任务上远超对手。
PhysMaster专注于物理领域的研究与推理,X-Master 2.0则强化了前沿科学推理能力,配备了谷歌学术、Semantic Scholar等学术检索工具,能够在回答问题时先查阅相关文献,基于真实文献来源给出有据可查的答案。EmboMaster则面向具身智能训练这个更偏机器人方向的领域。目前这个生态已有4个开源版本,另有3个即将发布。
---
五、四场"大考",成绩单长什么样?
为了验证EvoMaster的能力,研究团队选择了四个被学界广泛认可的权威测试,并与OpenClaw进行正面对比。两者使用完全相同的底层语言模型(GPT-5.4)和相同的工具集,唯一的变量就是框架本身。
第一场考试是HLE(人类最后一考)。这是迄今为止最难的闭卷知识测试之一,汇集了来自全球500多所机构的近千名专家设计的2500道题目,涵盖数学、生物医学、计算机科学、物理、人文社科、化学等多个领域,其中约14%的题目还需要理解图像。EvoMaster拿到41.1%,OpenClaw只有13.6%。分学科来看,提升最大的是数学(EvoMaster 48.16% vs OpenClaw 15.06%,提升33个百分点),其次是人文社科和其他类别,在每个学科上都有显著优势。
第二场考试是MLE-Bench Lite,模拟真实的Kaggle机器学习竞赛,评估AI完成完整机器学习工程任务的能力,包括数据处理、特征工程、模型训练和提交。EvoMaster的奖牌率75.76%,而OpenClaw只有18.18%,相对提升316%,是四项测试中差距最悬殊的。与MLE-STAR-Pro-1.5和R&D-Agent这两个专门为机器学习任务设计的系统相比,EvoMaster在"任意奖牌率"这一综合指标上也排名第一(75.76% vs 68.18%),并且在"有效提交率"上与MLE-STAR-Pro-1.5并列满分100%。
第三场考试是BrowseComp,专门考察深度网络信息检索,1266道题目每道都需要AI在互联网上穿越大量网页才能找到答案。EvoMaster 73.33%,OpenClaw 28.33%。按类别拆分,在"地图+搜索"类任务上EvoMaster达到75%而OpenClaw只有25%,在"小众知识"类任务上EvoMaster 88.23%而OpenClaw 47.05%,在"多步推理"类任务上EvoMaster 65.63%而OpenClaw只有18.75%。
第四场考试是FrontierScience,分为奥林匹克竞赛题(由物理、化学、生物国际竞赛金牌得主设计)和科研任务(由博士级科学家设计)两个方向。EvoMaster在科研任务方向拿到53.33%,OpenClaw 18.33%,而单纯使用GPT-5.4模型直接回答只有33%,专门为此优化的Muse Spark系统也只有38.3%。这说明框架层面的迭代和工具增强能带来远超基础模型本身的提升。
还有一张图表特别值得关注:在24小时的MLE-Bench测试过程中,EvoMaster的奖牌率随时间单调递增——从刚开始的接近零,稳步爬升到最终的约0.55。这条曲线直观地证明了"持续进化"不只是一个概念,而是实实在在发生在系统运行过程中的现象。
---
六、坦诚的局限:哪里还没做到?
研究团队在论文中主动指出了EvoMaster目前的核心局限:它本质上是一个在计算机虚拟环境中运行的框架,还不能直接控制真实的物理实验设备。比如自动化合成实验室的机械臂、云端实验平台的硬件操控接口等,目前都还不在EvoMaster的能力范围内。
换句话说,EvoMaster现在最擅长的是"动脑子"——写代码、检索文献、做数学推理、优化模型——而不是"动手"。要让AI真正端着试管去做化学实验,还需要把框架的"会话"接口进一步延伸到物理实验装置的控制协议上,这是研究团队明确列为下一步工作的方向。
---
说到底,EvoMaster做的事情可以用一句话概括:把"科学家的工作方式"编进了AI的运转逻辑里。科学家不会做一次实验就放弃,会反复试错;科学家不会每天遗忘昨天学到的东西,会积累经验;科学家不会单打独斗,会和同行讨论、接受批评、修改方案。EvoMaster把这些习惯都变成了代码。
这对普通人意味着什么?短期内,它可能加速药物研发、材料发现、气候建模等领域的科研节奏。长期来看,如果一个框架真的能让AI同时在数十个学科并行做科研,科学进步的速度可能会发生本质性的改变——不再受限于人类研究人员的数量和精力,而是取决于AI智能体架构设计得够不够好。
一个值得思考的问题是:当AI可以自主做科研,人类科学家的角色会怎样演变?提问题、判断价值、解释意义——这些可能仍然是人类最不可替代的贡献。有兴趣深入了解的读者可以通过arXiv编号2604.17406查阅完整论文。
---
Q&A
Q1:EvoMaster和普通的AI聊天工具有什么本质区别?
A:普通AI聊天工具每次对话都是独立的,回答完就结束,不会从这次对话中学到任何东西用于下次。EvoMaster的核心区别在于它有持续进化的能力:在一次长达数小时甚至24小时的科研任务中,它会不断执行实验、观察结果、自我反思、调整策略,并且把学到的经验积累起来用于后续轮次,越做越好,这更接近真正科学家的工作方式。
Q2:EvoMaster为什么能用100行代码就支持一个新学科?
A:因为EvoMaster把所有学科通用的"基础设施"——工具调用、记忆管理、实验记录、多智能体协调——都已经在框架层面做好了。开发新学科的AI只需要写"这个学科特有的逻辑",就像在已经建好的大楼里只需要装修自己那层,不需要重新打地基。框架还支持行业标准接口,现有工具可以直接接入,大幅减少了重复开发工作。
Q3:FrontierScience测试中EvoMaster的53.3%是什么水平?
A:FrontierScience的科研任务方向由博士级科学家设计,涵盖物理、化学、生物三个领域,用10分制评分。EvoMaster的53.3%意味着它在这些博士级难题上平均能拿到满分的一半以上,而直接使用GPT-5.4模型只能拿到33%,专门优化的Muse Spark系统拿到38.3%,通用智能体OpenClaw只有18.3%。这说明框架层面的迭代推理和学术工具增强,能把基础模型的表现提升到原来的1.6倍以上。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。