微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

研究机构能否教会AI自主扩展科学研究？波士顿大学团队揭示代码智能体的"研究盲区"

人工智能代码生成科学研究自动化

研究机构能否教会AI自主扩展科学研究？波士顿大学团队揭示代码智能体的"研究盲区"

作者：科技行者

2025-07-03 10:02

分享至：

这项研究首次系统评估了AI代码智能体在科学研究扩展方面的能力。研究团队设计了包含12个真实研究任务的REXBENCH基准，测试了九个先进AI智能体的表现。结果显示，即使最优秀的智能体成功率也仅为25%，远低于实用化要求，揭示了当前AI在处理复杂科学推理任务时的显著局限性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-03 10:02 • 科技行者

这项由波士顿大学金娜静教授、李裕京博士和毛雨君博士联合伦敦大学学院尼古拉斯·爱德华兹博士、维也纳大学塞巴斯蒂安·舒斯特教授共同完成的开创性研究发表于2025年6月，论文标题为"REXBENCH: Can coding agents autonomously implement AI research extensions?"。这项研究首次系统性地评估了当前最先进的AI代码智能体是否具备独立扩展和实施科学研究的能力。有兴趣深入了解的读者可以通过https://rexbench.com/访问完整的研究基准测试平台和相关代码。

科学研究的本质就像搭积木一样，每项新研究都需要在前人工作的基础上添加新的积木块。过去，这种"添砖加瓦"的工作完全依赖人类研究者的智慧和努力。但随着AI技术的飞速发展，一个令人兴奋却也充满挑战的问题摆在了科研界面前：AI能否像人类研究者一样，独立地在现有研究基础上进行有意义的扩展？

研究团队发现，当前即使是最先进的AI代码智能体，在面对真正的科学研究扩展任务时，表现远不如我们期待的那样出色。这就好比我们期待一个聪明的助手能够根据我们的想法独立完成复杂的项目，但实际上，这个助手虽然在某些简单任务上表现不错，却在需要深度理解和创新思维的任务上频频遇挫。

为了系统性地测试AI在科学研究扩展方面的能力，研究团队精心设计了一个名为REXBENCH的全新评估基准。这个基准就像是为AI研究助手设计的"综合能力测试"，包含了12个基于真实已发表论文的研究扩展任务。每个任务都要求AI智能体不仅要理解原始研究的核心内容，还要根据专家编写的扩展指令，在现有代码基础上实施具体的改进或变化。

这些扩展任务涵盖了科学研究的各个重要方面。有些任务要求修改机器学习模型的架构，就像重新设计一个复杂机器的核心组件。有些任务需要改变算法的运行方式，类似于调整工厂生产线的操作流程。还有一些任务涉及数据处理方法的改进，好比改变原材料的加工方式。另外还有一类任务专注于评估方法的创新，相当于设计新的质量检测标准。

研究团队选择了九个不同的AI智能体进行测试，这些智能体基于当前最先进的大语言模型构建，包括Claude 3.7 Sonnet、OpenAI的o1和o4-mini模型，以及开源的DeepSeek R1模型。这些智能体使用了三种不同的代理框架：开源的aider和OpenHands，以及商业化的Claude Code。每个智能体都接受了相同的测试条件：获得原始研究论文、对应的代码库，以及详细的扩展任务指令。

测试结果令人深思。即使是表现最好的智能体组合——使用Claude 3.7 Sonnet作为核心模型的OpenHands和Claude Code——在12个任务中平均只能成功完成约四分之一，成功率仅为25%。这个数字虽然看起来不高，但考虑到任务的复杂性，也展现了AI技术的一定潜力。更令人担忧的是，一些原本被认为非常先进的模型，如OpenAI的o1和DeepSeek R1，在这类任务上的成功率几乎为零。

为了更深入地理解AI智能体的局限性，研究团队还设计了带有不同程度提示信息的对照实验。第一层提示主要帮助智能体定位需要修改的代码位置和找到相关信息，就像给迷路的人提供地图和指南针。第二层提示则更进一步，提供了逐步的实施指导，类似于详细的操作手册。

令人意外的是，即使有了这些额外的帮助，智能体的表现提升也很有限。最好的情况下，OpenHands配合Claude 3.7 Sonnet在有提示的情况下能达到39%的成功率，但这仍然意味着超过一半的任务无法成功完成。更有趣的是，第二层的详细指导并没有带来预期的额外改进，这表明问题可能不仅仅在于信息不足，而是AI智能体在处理复杂推理和规划任务时存在根本性的局限。

研究团队还详细分析了智能体失败的原因。他们发现，失败主要分为两大类：显性错误和隐性错误。显性错误是那些能够直接从执行日志中识别出来的问题，比如代码语法错误、文件路径错误，或者智能体完全没有生成任何代码修改。最常见的显性错误是智能体生成了空的修改文件，这通常发生在智能体试图一次性解决整个复杂任务时，由于任务复杂度超出了其处理能力，导致执行失败。

隐性错误则更加微妙和危险。这类错误发生在代码能够正常执行，但实验结果与预期目标不符的情况下。研究团队发现，这类错误大约一半源于实现逻辑的问题，另一半则是参数设置或数值处理的错误。更重要的是，隐性错误很难被发现和诊断，即使是设计了原始解决方案的人类专家也需要花费大量时间来分析问题所在。

这种情况在实际应用中可能带来严重后果。当AI智能体生成的代码能够正常运行时，研究者很容易误以为实验是成功的，可能基于错误的结果得出不正确的科学结论。这就好比一个看起来精美的蛋糕，外表完美无缺，但内部的配方却是错误的，只有品尝后才能发现问题。

通过深入的误差分析，研究团队还发现了一些有趣的模式。不同的AI模型表现出不同类型的问题倾向。例如，Claude 3.7 Sonnet很少产生语法错误，生成的代码通常能够正常执行，但可能在逻辑实现上存在细微但关键的错误。相比之下，OpenAI的o1模型虽然推理能力强，但经常产生语法错误，影响了代码的基本可执行性。

研究还揭示了另一个重要发现：某些模型存在"过度思考"的问题。特别是DeepSeek R1、o1和o4-mini这些模型，它们往往会产生过多的思考过程输出，消耗大量的计算资源和时间，但最终却没有产生实际的代码修改。这种现象表明，模型的推理能力和实际执行能力之间可能存在脱节。

为了找出影响任务难度的关键因素，研究团队进行了统计分析。他们发现，任务的成功率与需要修改的代码行数呈显著负相关关系。也就是说，需要修改的代码越多，AI智能体成功完成任务的可能性就越小。这个发现符合直觉：更大规模的修改需要更强的整体规划和协调能力，这正是当前AI智能体的薄弱环节。

另一个有趣的发现是，代码库的流行程度（通过GitHub的星标和分叉数量衡量）对成功率有轻微的正面影响，虽然效果很小。这可能是因为更流行的代码库在AI模型的训练数据中出现得更频繁，使得模型对这些代码结构更加熟悉。

成本效益分析显示，不同智能体在经济成本和时间效率方面表现差异很大。aider配合o4-mini模型在成本控制方面表现最佳，而OpenHands配合Claude 3.7 Sonnet在时间效率方面领先。这种差异主要源于不同框架的设计哲学：aider采用非迭代设计，通常只需要两轮对话就完成任务，而其他框架则采用多轮交互方式，虽然可能获得更好的结果，但也消耗更多资源。

研究团队还观察到了AI智能体在利用提示信息方面的有趣现象。不同的智能体对相同的提示信息反应差异很大。在某些任务中，额外的指导信息反而降低了智能体的表现，这表明不同的智能体可能擅长实现不同类型的解决方案，而过于具体的指导可能会限制它们发挥自身优势。

这项研究的一个重要创新在于解决了AI评估中的数据污染问题。传统的代码生成评估往往面临一个困境：如果评估任务的解决方案已经在网上公开，那么AI模型可能在训练过程中就已经"见过"这些解决方案，使得评估结果不够可靠。REXBENCH通过使用全新的研究扩展任务，确保所有的"标准答案"都是研究团队独立开发的，并且存储在私有代码库中，从根本上避免了数据泄露的风险。

研究团队还建立了一套完整的自动化评估基础设施。这套系统基于虚拟机技术，为每个任务提供完全相同的硬件和软件环境，确保评估结果的可重复性和可靠性。整个评估过程就像是为每个AI智能体提供了一个标准化的"实验室"，在其中完成指定的研究任务，然后通过统一的标准来衡量完成质量。

评估标准包括三个层次的指标。最高层次是"最终成功率"，即AI智能体的输出是否能产生与专家解决方案数值相符的实验结果。中间层次是"执行成功率"，衡量生成的代码是否能够正常运行而不产生错误。最基础的层次是"文件召回率"，检查AI智能体是否至少识别并修改了专家解决方案中涉及的关键文件。

通过这种多层次的评估体系，研究团队发现了一个有趣的现象：大多数AI智能体在文件召回率方面表现相当不错，说明它们能够根据任务描述识别出需要修改的代码位置。但是，从文件识别到成功执行，再到最终的正确结果，每一步都存在显著的性能下降，这揭示了AI智能体在不同认知层面上的能力差异。

研究还涉及了12个不同领域的真实研究论文，涵盖了自然语言处理、机器学习、认知科学等多个前沿领域。这些论文来自顶级学术会议和期刊，如EMNLP、ACL、ICLR、NeurIPS等，确保了任务的学术价值和现实意义。每个任务都是基于真实的科学假设和研究问题设计的，而不是人工构造的简单编程练习。

例如，其中一个任务要求扩展WinoDict研究，探索当学习的新词汇与现有英语单词重名时会发生什么。另一个任务基于Tree of Thoughts算法，要求实现一种新的问题解决策略。还有任务涉及实体追踪能力的评估，或者对话生成模型的性能分析。这些任务的共同特点是都具有明确的科学价值，同时在技术实现上具有一定的挑战性。

为了确保任务质量，每个扩展任务都经过了严格的设计和验证过程。首先，博士级别的领域专家需要验证原始代码能够复现论文结果。然后，专家实现"黄金标准"的扩展方案，并记录数值结果。接下来，专家编写清晰但不过于详细的任务指令，确保指令既能传达任务要求，又不会简化为简单的代码复制任务。最后，多位作者共同审查和完善任务设计，确保指令的准确性和无歧义性。

研究团队特别注意控制任务的复杂度，确保所有任务都能在12小时内完成（实际的专家解决方案通常在6小时内完成）。这种时间限制既保证了任务的可行性，又避免了过于简单而失去评估价值的问题。同时，所有任务都被设计为自包含的，即完成任务所需的所有信息都包含在提供的材料中，不需要额外的外部资源。

工具使用分析显示，OpenHands智能体在执行过程中主要依赖文件编辑工具和bash命令执行工具。Claude 3.7 Sonnet和o4-mini模型表现出了最高的工具使用频率，表明它们采用了更加积极的探索和试错策略。相比之下，o1模型的工具使用相对较少，这可能与其更倾向于深度思考而非频繁执行的特点有关。

成本分析揭示了实用化部署的考虑因素。在当前的定价体系下，使用OpenAI o1进行此类任务的成本相对较高，平均每个任务约1.3美元，而o4-mini则只需要约0.03美元。虽然绝对金额看起来不大，但如果考虑到大规模应用场景，成本差异就会变得非常显著。

研究的局限性也值得关注。虽然REXBENCH设计了相对现实的研究扩展任务，但为了确保自动化评估的可行性，这些任务仍然比真实的开放式研究探索要受限得多。真实的科学研究往往涉及更多的不确定性、创造性和迭代探索，而这些方面在当前的评估框架中很难量化。

另一个重要考虑是评估标准的选择。虽然数值结果匹配是一个客观的成功标准，但在某些情况下，AI智能体可能通过完全不同但同样有效的方法达到相同的结果。当前的评估框架可能会错误地将这种创新性解决方案标记为失败，从而低估了AI智能体的真实能力。

研究团队认为，这些发现对AI研究助手的未来发展具有重要指导意义。首先，当前的AI智能体在处理需要深度理解和长期规划的复杂任务时仍然存在显著局限，特别是在需要修改大量代码或涉及复杂逻辑推理的情况下。其次，隐性错误的普遍存在表明，在实际部署此类系统时需要建立强有力的验证和检查机制。

从更广阔的视角来看，这项研究为评估AI系统在科学研究中的作用提供了一个新的基准。随着AI技术的不断进步，研究团队期待看到未来的模型在这个基准上取得更好的表现。同时，他们也呼吁社区贡献更多样化的任务，覆盖更广泛的科学领域和更复杂的研究场景。

研究还揭示了不同AI框架的设计哲学差异。aider采用简单直接的方法，通过少量交互完成任务，虽然成功率不是最高，但在效率和成本控制方面表现出色。OpenHands和Claude Code则采用更复杂的多轮交互策略，能够取得更好的结果，但也消耗更多资源。这种差异表明，在实际应用中需要根据具体需求在性能和效率之间进行权衡。

展望未来，研究团队计划扩展REXBENCH到更多科学领域，包括生物学、化学、物理学等。他们也在探索设计更开放式的评估任务，更好地模拟真实科学研究的探索性特点。同时，他们呼吁AI研究社区关注科学研究扩展这一重要应用场景，开发专门针对此类任务优化的模型和框架。

说到底，这项研究为我们理解AI在科学研究中的现状和潜力提供了珍贵的洞察。虽然当前的AI智能体还远未达到独立进行科学研究的水平，但它们已经展现出了一定的潜力，特别是在处理相对简单和结构化的任务方面。随着技术的不断进步，我们有理由相信未来的AI系统将能够成为科学研究的有力助手，帮助人类研究者更高效地探索未知领域。

不过，这项研究也提醒我们，在AI系统能够真正胜任复杂科学任务之前，我们需要保持谨慎的态度。特别是在那些AI生成的代码能够运行但结果可能存在subtle错误的情况下，过度依赖AI可能会导致错误的科学结论。因此，建立完善的验证机制和保持人类专家的监督仍然至关重要。

这项研究不仅为AI研究社区提供了一个新的评估工具，也为思考AI在科学发现中的角色提供了重要参考。正如研究团队所指出的，真正的科学进步往往需要创造性思维、直觉洞察和批判性思考，而这些能力仍然是人类智慧的独特优势。AI系统最有可能发挥作用的是作为增强人类研究能力的工具，而不是完全替代人类研究者。

Q&A

Q1：REXBENCH是什么？它能测试什么？ A：REXBENCH是由波士顿大学团队开发的AI研究扩展能力评估基准，专门测试AI代码智能体是否能够独立在现有科学研究基础上进行有意义的扩展。它包含12个基于真实已发表论文的研究扩展任务，涵盖机器学习、自然语言处理等多个领域，能够全面评估AI在理解研究内容、分析代码结构、实施技术改进等方面的能力。

Q2：当前最先进的AI智能体在科学研究扩展方面表现如何？ A：表现远低于预期。即使是最好的AI智能体组合（如OpenHands + Claude 3.7 Sonnet），成功率也只有25%左右，意味着四分之三的任务无法成功完成。更令人担忧的是，一些顶尖模型如OpenAI o1和DeepSeek R1的成功率几乎为零。这表明当前AI在处理需要深度理解和复杂推理的科学任务时存在显著局限。

Q3：AI智能体在科学研究中失败的主要原因是什么？ A：主要有两类问题：显性错误包括代码语法错误、执行失败或完全没有生成代码修改；隐性错误更危险，指代码能正常运行但结果不正确，这类错误难以发现且可能导致错误的科学结论。研究还发现，需要修改的代码越多，AI成功的可能性越小，且某些模型存在"过度思考"但不产生实际输出的问题。

人工智能代码生成科学研究自动化

分享至