微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

新加坡国立大学：AI智能体的探索能力研究揭示学术创新的新路径

人工智能机器学习自动化研究

新加坡国立大学：AI智能体的探索能力研究揭示学术创新的新路径

作者：科技行者

2025-11-28 13:57

分享至：

新加坡国立大学研究团队开发了FML-bench评估平台，首次系统性评估AI智能体在机器学习研究中的科学能力。通过对比三种不同探索策略的AI研究助手，研究发现采用广度探索的智能体比深度专精的表现更优秀。该研究建立了包含八个基础机器学习任务的测试体系和五维评估框架，为未来AI研究助手的设计提供了重要指导，表明多样性探索在自动化科学研究中的关键作用。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-11-28 13:57 • 科技行者

这项由新加坡国立大学的邹奇然、林厚熙、赵文豪、唐一鸣、陈婷婷、余顺盛等学者，以及清华大学、明尼苏达大学的合作研究者共同完成的重要研究成果，发表于2025年10月的arXiv预印本平台（论文编号：arXiv:2510.10472v1），有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究首次系统性地探讨了自动化机器学习研究智能体的探索策略问题，并创建了一个全新的评估基准FML-bench来衡量智能体的科研能力。

在当今人工智能飞速发展的时代，科学家们一直在探索一个令人着迷的问题：能否让AI智能体像人类研究者一样进行独立的科学研究？这就像是让一个智能助手不仅能够回答问题，还能够主动提出科学假设、设计实验并得出结论。然而，如何准确评估这些AI研究助手的真实能力，一直是学术界面临的重大挑战。现有的评估方法往往过于注重工程技术细节，就像是只考察厨师切菜的刀法，却忽略了他们创造美味佳肴的创新能力。

这项突破性研究的核心贡献在于创建了一个名为FML-bench的全新评估体系，专门用来测试AI智能体在八个基础机器学习研究领域的表现。这个评估体系就像是为AI研究助手设计的全方位考试，不仅考察它们解决实际问题的能力，更重要的是评估它们在科学探索中的创新思维。研究团队通过大量实验发现了一个颇为意外的结论：那些采用广泛探索策略的AI智能体，比那些专注于深度钻研单一方向的智能体表现更出色。

一、研究背景：为AI研究助手寻找科学的评估标准

当前的AI技术发展就像是一场激动人心的探险之旅，其中最引人瞩目的发现之一就是大型语言模型催生了一批能够进行自动化机器学习研究的智能体。这些AI研究助手的出现，让我们看到了科学研究自动化的曙光。它们不仅能够生成研究创意，还能编写代码、管理实验，甚至在某些情况下充当科学发现的合作伙伴，为研究过程提供互补的视角。

在这些AI研究助手中，最令人印象深刻的是那些能够自动提出想法并运行实验的智能体。这类系统的价值在于它们能够完成从概念构思到实证验证的完整循环，从而最大化研究自动化程度并加速研究周期。相比那些只负责产生想法，然后依靠人类或其他AI系统评估"新颖性"和"可行性"的方案，这种全流程自动化的方法能够基于真实的实验结果进行客观评估，提供了更加可靠和定量化的效果证据。

然而，目前对这类智能体的评估存在着显著的局限性。现有的评估基准往往过分强调工程实现层面，就像是评判一位画家时只看他们调色和握笔的技巧，而忽略了他们的艺术创造力。这些评估方法更关注特征工程、标准化模型训练和优化等技术执行能力，却很少关注智能体解决基础机器学习研究问题的能力，比如表示学习和泛化能力等核心科学问题。

更重要的是，许多现有基准只提供原始数据而不包含基线代码，这就像是让厨师在没有基础食谱的情况下创造全新菜品一样困难。这种设计难以系统性地评估智能体的研究能力，同时还引入了编程障碍，可能会掩盖真正的学术价值。即使有些基准提供了基线代码库，它们往往是手工制作的、格式严格的代码，这限制了它们的可扩展性。因为将这些基准适配到新任务通常需要大量重新工程，而不是允许直接使用现有的代码库。

二、FML-bench：一个专为AI研究助手设计的科学能力测试平台

为了解决这些问题，研究团队开发了FML-bench，这是一个专门用于评估自动化机器学习研究智能体在基础研究问题上表现的评估基准。这个基准就像是为AI研究助手量身定制的全方位能力测试，包含了八个不同的任务，这些任务反映了现代机器学习中反复出现的核心瓶颈问题。

FML-bench的设计遵循四个重要原则。首先是专注于基础机器学习问题，设计的任务针对核心科学挑战而非应用产品或排行榜评分，保持对研究问题的关注。这就像是专注于理解烹饪的基本原理，而不是只追求在厨艺比赛中获胜。其次是使用真实世界的代码库，任务基于现有的研究仓库实例化，反映了新想法通过适配已有代码进行测试的典型实践。

第三个原则是构建时的可扩展性，这个基准可以轻松整合支持端到端训练和评估的机器学习GitHub仓库，只需要少量的输出格式适配器。最后是低编程门槛，智能体不需要从零开始构建整个代码库，而是可以从提供的基线开始工作。这种设置使智能体能够专注于算法和架构的科学进步，而不是纯粹的工程努力。

FML-bench包含的八个任务涵盖了广泛的基础问题集合。泛化能力测试通过跨域迁移任务进行评估，模型在源域上训练并在分布偏移的目标域上评估，目标是最大化域外准确性。数据效率通过少样本分类任务测试，智能体应该提出改进嵌入空间中基于度量决策规则的方法，以在有限标签的情况下提升准确性。

表示学习任务要求以自监督方式预训练编码器，并通过冻结编码器的线性探测准确性进行评估，目标是发现有意义的特征。持续学习任务测量在使用共享输出头的类增量序列中的知识保持能力，智能体应该提出减轻灾难性遗忘并最大化所有任务平均准确性的方法。

因果推理任务在指定的因果数据生成过程下估计治疗效果，并最小化平均治疗效果的绝对误差。鲁棒性和可靠性评估对抗性损坏的抗性，包括投毒或后门扰动，同时保持干净性能，防御得分平衡两个目标。隐私保护通过减少成员推理攻击的有效性来评估信息泄露防护能力，即降低攻击的AUC值。公平性和偏见评估在具有敏感属性的二元分类中的公平表现，旨在改善群体公平性指标，如最小化绝对平均赔率差异，同时不牺牲整体准确性。

三、五维评估体系：全方位衡量AI研究助手的科学能力

为了全面评估智能体的表现，研究团队设计了一个包含五个互补指标的评估框架，这些指标能够捕捉研究能力的不同方面。这就像是评估一位研究者时不仅要看他们的论文发表数量，还要考察研究质量、创新性、效率和可靠性等多个维度。

效用指标测量实证性能改进，作为主要目标。具体而言，它计算修改后代码库与原始代码库在任务特定指标上的性能差异。多样性指标量化所提出假设的种类，通过语义和结构变化来衡量最终修改的多样性，捕捉智能体的探索广度。实证研究表明，多样性与发现高性能解决方案密切相关。

学术贡献率测量学术或算法贡献相对于工程修改的比例，比如新的损失函数、架构或训练方案相对于超参数调优等工程修改的比例。更高的学术贡献率表明更大的科学贡献，区分真正的研究进展和实现优化。步骤成功率捕捉所有代码修改在初始代码库上的可靠性，反映智能体产生语法正确、语义连贯且能成功完成实验迭代而不出错的代码的能力。

成本指标包括时间消耗和API使用量，用于评估执行修改的计算和时间成本。这些指标共同提供了对智能体研究能力的全方位评估，不仅关注最终结果，还考虑了研究过程的质量和效率。

四、探索策略对比：广度与深度的较量

研究团队选择了三种具有不同研究策略的自动化机器学习研究智能体进行比较。TheAIScientist采用广泛探索方法，在多个实验方向上并行生成和测试大量假设。AIDE采用分层树状搜索策略，平衡新可能性的探索与有前景结果的利用。Claude Code采用线性改进策略，顺序改进其假设和代码实现来解决机器学习任务。

这三种策略的差异就像是三种不同的研究风格。TheAIScientist就像是一个同时进行多个项目的研究团队，每个方向都浅尝辄止但覆盖面很广。AIDE则像是一个善于规划的研究者，会系统性地构建知识树，既探索新方向又深入挖掘有希望的分支。Claude Code更像是一个专注于单一项目的研究者，会持续改进同一个想法直到达到满意的结果。

在实验设置中，每个智能体需要在三轮独立实验中执行，每轮分配固定的100步预算。研究团队选择三轮中基于测试集目标指标的最佳结果进行评估。实验涵盖了八个基础机器学习任务，每个任务都基于已建立的仓库和基线方法。

五、实验结果：广度探索策略展现优势

实验结果揭示了一个令人印象深刻的发现：采用Gemini-2.5-Pro的TheAIScientist取得了最佳性能，在八个任务中的四个任务中排名第一。采用GPT-5的TheAIScientist紧随其后，在八个任务中的两个任务中获得顶级结果。这些发现表明，TheAIScientist在发现新颖有效的机器学习方法方面比AIDE和Claude Code表现更好。

考虑到不同智能体的研究探索策略，这些结果提供了重要启示。TheAIScientist采用的广泛但浅层的研究探索策略证明比AIDE的中等广度和深度以及Claude Code的狭窄但深入的探索模式更有效。这种发现为现实世界的研究提供了实用指导：广泛探索多样化想法可能比专注于单一方向更有成效。

在多样性分析方面，TheAIScientist显示出最高的平均多样性，AIDE的表现较低但仍然可比，而Claude Code的多样性明显更低。这种模式反映了智能体探索解决方案的方式。TheAIScientist并行推进多个想法，AIDE通过迭代改进的树状结构发展想法，而Claude Code倾向于沿着单一线性轨道进行。通过比较，并行探索扩大了搜索范围并产生了更高的测量多样性，而线性迭代限制了搜索并抑制了多样性。

进一步分析代码多样性与任务性能之间的关系发现，总体而言，多样性与性能呈正相关。在八个任务中，四个任务显示强正相关，两个弱正相关，两个负相关。最显著的效果出现在持续学习、公平性和偏见以及泛化任务中，数据效率中也观察到中等相关性。这些发现表明，更高的代码多样性往往与改善的任务性能相关，尽管这种关系的强度因任务而异。

六、学术贡献质量：区分创新与工程优化

学术贡献率提供了对每个智能体特征的进一步洞察，帮助区分学术价值与工程努力和多样性等其他因素的影响。TheAIScientist通常表现出比AIDE略高的学术贡献率，而Claude Code始终显示最低的比率。这表明TheAIScientist提出的想法和代码修改更紧密地与方法论进步保持一致，而不是依赖工程技巧来提升性能。

比较GPT-5和Gemini-2.5-Pro显示，Gemini-2.5-Pro倾向于提出比GPT-5更偏向工程的解决方案。对于自动化机器学习研究智能体来说，我们优先考虑能够生成具有强学术价值的假设同时提供更好效用的智能体。

在计算成本方面，TheAIScientist消耗的tokens比AIDE更多，而Claude Code尽管性能较低，但在三个智能体中使用了最多的tokens。这表明专门的自动化机器学习研究智能体，如TheAIScientist和AIDE，在性能和token效率方面都比通用智能体Claude Code更适合机器学习研究问题。

七、Claude Code的特殊表现：高效但不稳定

Claude Code展现了一些独特的特征。由于所有行动都基于大型语言模型决策而非固定程序，Claude Code经常无法遵循提示指令，频繁过早终止实验。尽管如此，它表现出高改进速度。此外，其学术贡献率较低，对工程方面有强烈侧重。这可能归因于其通用智能体的性质，而非专门的自动化机器学习研究智能体。

研究还发现AIDE有时会误解目标代码库的结构和逻辑。在某些情况下，它生成了从未集成到实际执行管道中的新类或组件，导致相对于基线没有功能改进。AIDE在泛化和数据效率相关任务中未能改善基线，这可能源于AIDE只支持单个文件的迭代修改，而现实世界的机器学习研究代码库往往复杂且跨越多个文件，使AIDE不足以解决现实的研究任务。

研究团队还遇到了AIDE和Claude Code的早期终止问题。对于AIDE，智能体有时由于其商业版本Weco的云基础设施偶尔故障而过早终止。对于Claude Code，早期停止通常由模型的内部推理触发，即使进一步行动是可能的，大型语言模型也会决定不继续。

八、研究启示：探索广度比深度钻研更重要

这项研究的核心发现为科学研究策略提供了重要启示。一旦满足探索广度和深度的基本要求，更广泛的探索被证明更有效。生成更广泛的想法多样性比反复完善单一想法更可靠地导致成功方法，研究观察到想法多样性与性能改进之间的正相关关系。

这个发现在某种程度上颠覆了传统的研究观念。在传统的学术研究中，我们往往认为深入专精某个方向会带来更好的成果，就像是深挖一口井总比浅挖多口井更容易找到水源。然而，这项研究表明，在AI辅助的科学研究中，广泛撒网可能比专注于单一方向更有效果。

此外，研究发现Gemini-2.5-Pro在该协议下优于GPT-5。虽然Claude Code等CLI风格智能体提供了通用灵活性，但它们经常因为早期终止而未能完成多步骤任务，其中模型在进一步行动仍然可能的情况下停止。这表明，尽管灵活，CLI风格智能体不如专门为此设计的智能体适合自动化机器学习研究。

这些发现对于未来AI研究助手的设计具有重要指导意义。研究表明，设计有效的AI研究助手不仅要考虑它们的技术能力，还要关注它们的探索策略。广泛探索能力可能是决定AI研究助手成功与否的关键因素之一，这为未来的智能体设计提供了明确的方向指导。

说到底，这项研究不仅仅是一个技术评估，更是对科学研究本质的深刻思考。它提醒我们，在追求AI辅助科学研究的道路上，多样性和广度探索可能比单纯的深度钻研更加重要。这种发现可能会改变我们设计和使用AI研究助手的方式，让它们更好地服务于人类的科学探索事业。这项研究为自动化科学研究的未来发展奠定了坚实的基础，为构建更加有效、可泛化和科学富有成效的研究智能体提供了实用的路径指导。

Q&A

Q1：FML-bench评估平台包含哪些具体的机器学习任务？

A：FML-bench包含八个基础机器学习任务：泛化能力（跨域迁移）、数据效率（少样本学习）、表示学习（自监督特征发现）、持续学习（防止灾难性遗忘）、因果推理（治疗效果估计）、鲁棒性和可靠性（对抗攻击防护）、隐私保护（防止成员推理攻击）、公平性和偏见（群体公平性优化）。这些任务涵盖了现代机器学习研究的核心挑战领域。

Q2：为什么广度探索策略比深度专精策略表现更好？

A：研究发现采用广泛探索策略的TheAIScientist在八个任务中的六个任务上表现最佳，而专注深度钻研的Claude Code表现最差。这是因为广泛探索能够同时尝试多种不同的解决思路，增加了找到有效方法的概率，而且实验数据显示想法多样性与性能改进呈正相关关系。相比之下，深度专精容易陷入局部最优解。

Q3：普通研究者能否使用FML-bench来评估自己开发的AI研究助手？

A：可以的。FML-bench设计时考虑了可扩展性，能够轻松整合支持端到端训练和评估的机器学习GitHub仓库，只需要少量的输出格式适配器。研究团队已经将所有基准代码、实验提示和配置文件开源，普通研究者可以通过论文编号arXiv:2510.10472v1查询完整信息并访问相关资源来测试自己的AI系统。

人工智能机器学习自动化研究

分享至