微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 SCIENCEBOARD:评估科学工作流中的多模态自主智能体

SCIENCEBOARD:评估科学工作流中的多模态自主智能体

2025-06-01 11:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 11:18 科技行者

这项由香港大学、上海人工智能实验室、复旦大学、北京大学、南京大学和东华师范大学等机构的研究团队共同完成的研究,于2025年5月发表在arXiv预印本平台(arXiv:2505.19897v1)。这篇论文探讨了如何评估多模态自主智能体在真实科学工作流中的表现,为人工智能辅助科学研究开辟了新的方向。论文由Qiushi Sun、Zhoumianze Liu、Chang Ma等多位研究人员共同完成。有兴趣深入了解的读者可以通过arXiv平台访问完整论文。

一、走进科学智能助手的世界

想象一下,你是一位科学家,正在进行一项复杂的蛋白质结构研究。传统上,你需要花费数周时间掌握专业分析工具,再花费数小时进行细致观察。但如果有一个智能助手能在几分钟内完成同样的工作,会怎样改变科学研究的面貌?这正是SCIENCEBOARD项目尝试实现的愿景。

在科学研究的世界里,研究人员通常依靠各种专业工具来探索实验领域。从分子分析软件到天文模拟平台,这些复杂的工具使科学家能够深入研究自然世界,验证结果,推进科学理解。然而,随着这些工具变得越来越复杂,科学家们需要花费大量时间学习使用它们,而不是专注于创新思考和发现。

想象科学研究就像是一场复杂的拼图游戏,研究人员需要找到正确的拼图块并将它们组合在一起。传统上,科学家需要手动寻找并放置每一块拼图。而现在,SCIENCEBOARD提出的智能体就像是一个熟练的助手,能够帮助科学家更快地找到合适的拼图块,甚至自动完成部分拼图组合工作。

近期出现的"计算机使用型智能体"(computer-using agents)展现出了解决这一挑战的潜力。这些智能体能够像人类一样操作计算机系统,通过命令行界面(CLI)输入指令或通过图形用户界面(GUI)使用鼠标和键盘进行交互。通过模仿人类使用软件的方式,这些智能体为自动化复杂科学工作流提供了一种统一且灵活的方法。

举个例子,如图1所示,当需要预测一段氨基酸序列的蛋白质结构时,智能体可以启动ChimeraX软件,选择AlphaFold小部件,输入序列进行预测。科学任务可以通过这种逐步自主交互的方式完成,就像一个熟练的研究助手在操作电脑一样。

为了推动这类计算机使用型智能体辅助人类科学家完成日常任务的发展,研究团队推出了SCIENCEBOARD。这个创新平台包含两个互补的关键部分:首先,它提供了一个真实、多领域的环境,具有动态且视觉丰富的科学工作流和集成专业软件,智能体可以通过不同接口自主交互,加速复杂研究任务和实验;其次,它提供了一个由169个高质量、严格验证的真实任务组成的具有挑战性的基准测试,这些任务由人类精心策划,涵盖了生物化学、天文学和地理信息学等领域的科学发现工作流程。

二、构建科学智能体的操场

想象SCIENCEBOARD就像是为智能助手建造的一座训练营和测试场地。在这个环境中,智能助手可以学习如何使用各种科学工具,并被评估它们的实际工作能力。这个环境不仅仅是一个简单的模拟,而是一个真实的科学软件生态系统,让智能体可以像真正的科学家一样工作。

### 基本概念与任务定义

在这个科学智能体的操场上,研究团队将智能体的工作模式定义为一个部分可观察马尔可夫决策过程(POMDP)。这听起来很复杂,但我们可以把它想象成一个游戏规则:智能体(玩家)接收任务指令,选择动作来操作软件,然后获得反馈,了解环境的变化。

具体来说,这个过程由目标(g)、状态空间(S)、动作空间(A)、观察空间(O)和状态转换函数(T)组成。就像玩一个电子游戏,玩家(智能体)看到屏幕(观察),按下按键(动作),游戏状态改变(状态转换),直到达成目标。

智能体可以通过三种不同的方式"看到"环境:纯文本模式(就像阅读屏幕上的文字),纯视觉模式(就像看屏幕截图),或结合文本和视觉的混合模式(同时看到屏幕和文字描述)。为了记住过去发生的事情,智能体会保存最近的观察结果,就像我们在玩游戏时记住刚才的操作一样。

每个任务由自然语言指令描述,例如"以球体样式显示原子"。智能体需要将这个复杂指令分解为一系列操作。SCIENCEBOARD设计了一个统一的动作空间,包括GUI操作(鼠标移动、点击、按键等)、CLI操作(在Ubuntu终端中执行系统级命令)、回答操作(用于问答任务)以及调用API操作(允许智能体利用预定义的外部API)。

智能体的大脑实际上是一个大型语言模型(LLM)或视觉语言模型(VLM),它根据当前观察结果生成下一步动作。如果是纯文本观察,则使用LLM作为策略;否则,则利用VLM进行决策。

### 科学发现评估框架

与以往主要关注静态问答、编码或单步任务的工作不同,SCIENCEBOARD旨在为智能体提供一个真实且视觉化的环境,支持自主探索。这就像是为智能体提供了一个真实的科学实验室,而不仅仅是一张考试试卷。

在SCIENCEBOARD中,研究团队做了三件关键的事情:首先,模拟了使用科学软件解决特定领域问题的场景;其次,使智能体能够通过不同的观察方式与环境交互;最后,确保智能体的行为能够被严格评估。

针对每个领域,研究团队选择了一个开源应用程序,这些应用程序支持视觉和文本观察。为了访问VM内每个应用程序的内部状态,团队对软件进行了相应的调整。鉴于科学应用程序的复杂性和完整性有限,研究团队注入了一个轻量级服务器,该服务器随应用程序的主UI进程一起启动,通过HTTP请求公开内部状态。这个服务器能够查询应用程序的运行时内部状态,作为下游评估的基础。对于那些不原生支持通过RESTful API进行远程控制的应用程序,团队修改并重新编译了它们的源代码,确保UI元素和内部状态都可以被访问。此外,服务器支持软件的部分状态控制,允许研究团队使用特定配置进行初始化,以模拟上下文化的任务环境。

智能体与环境的交互过程非常直观:智能体接收观察,执行动作,科学软件处理这些动作并返回更新的状态。智能体自主运行,直到输出信号(完成或失败)或达到预定义的尝试限制。

由于任务多样性和复杂性,传统的答案匹配指标甚至基于执行的评估通常缺乏评估工作流程所需的精细度。例如,如表1所示,蛋白质的旋转并不影响可视化的正确性,而天文学中的计算任务通常受到当前时钟状态的影响。因此,研究团队提出了一种基于工作流中关键I/O的正确性和VM最终状态的细粒度评估。

为了处理确定任务正确性的各种标准(例如,精确匹配、基于范围的评估、数值容差、文件比较),研究团队设计了一组评估模板。对于每个特定任务,相关模板随后与适当的参数和预期的黄金标准值一起实例化。这确保了验证的一致性和未来扩展的可扩展性。

三、科学任务基准:从实验设计到评估

想象SCIENCEBOARD基准测试就像是为智能科学助手设计的一系列挑战课程,涵盖了从简单到复杂的各种科学任务。这些任务不是随意设计的,而是经过精心挑选和构建,确保它们代表了真实科学家日常会面对的挑战。

### 领域与任务覆盖

作为科学探索的开创性基准,SCIENCEBOARD涵盖了六个领域,这些领域是根据它们与科学工作流程关键阶段(如模拟、建模、预测和知识)的相关性选择的。这些选择受到LLM用于科学的研究努力的启发。在为每个领域选择软件时,研究团队不仅考虑了其代表性,还考虑了评估的实际标准:开源可用性、a11ytree兼容性,以及不需要用户身份验证。

第一个领域是生物化学。研究团队采用了UCSF ChimeraX,这是一个支持结构建模(例如AlphaFold)的分子分析工具。相关任务评估智能体操作生物分子结构的能力,以及对空间构象和生物化学注释进行推理的能力。

第二个领域是代数。KAlgebra被用来评估智能体在符号数学方面的潜力。任务包括执行代数表达式、解释图表和操作符号函数。这些场景要求智能体展示强大的数学符号推理和视觉基础能力。

第三个领域是定理证明。研究团队使用Lean 4作为证明助手,评估智能体在形式逻辑和演绎推理方面的能力。ATP(自动定理证明)任务强调语法精确性和逻辑连贯性,评估智能体生成语义上有效的形式证明的能力。

第四个领域是地理信息系统。GrassGIS是一个用于栅格、矢量和地理空间处理的计算引擎,被纳入评估智能体理解地形、水文和处理时空数据的技能,并支持生态系统建模等功能。

第五个领域是天文学。研究团队整合了Celestia,一个模拟真实世界天文场景的天文馆软件。智能体必须通过跟踪行星系统、模拟轨道事件以及跨时间和空间查询对象元数据,展示时间-空间意识和对宇宙及天体的知识。

最后一个领域是科学文档。为了模拟研究文档工作流程,研究团队调整并纳入了TeXstudio来评估智能体的技术写作能力。在独立任务中,智能体预计能撰写结构良好的摘要、生成图表,并根据提供的指令生成正式报告。在跨应用场景中,TeXstudio与前面提到的软件结合,评估智能体是否能从实验中提取有意义的见解,并将它们合成为连贯的叙述。

这些领域使得评估科学智能体的能力可以跨多个维度进行,包括视觉/文本推理、数学、编码、工具使用、空间理解、特定领域知识等。此外,为了探索端到端科学自动化的潜力,文档任务与其他领域集成,以支持跨应用工作流程,例如基于完成的上游任务自动生成实验报告。

### 任务注释管道

为了有效构建适当具有挑战性、多样化且与科学软件特性一致的任务,研究团队利用了一个从培训注释者与教程和手册到进行基于执行的验证的注释管道,如图3所示。

具体流程如下:首先是教程学习。五位注释者最初收集并学习与软件相关的教程和手册。之后,每位注释者学习并探索软件的基本单元操作,例如在KAlgebra中绘制伯努利引线。

接着是任务策划。每位注释者选择一个科学软件,在SCIENCEBOARD中安装它,并开始根据其功能起草任务指令。任务类型包括但不限于:配置、问答、模拟、计算和特定领域专业知识。每个任务暂时被分配一个难度。之后,将策划一个与起草任务一致的智能体提示。

然后是形式化和选择。不同的注释者展现出不同的语言习惯,研究团队采用ChatGPT来标准化任务格式。注释者随后进行交叉检查,排除那些缺乏多样性、可执行性差或非唯一答案的任务,以确定最终用于使用的任务集。

紧接着是配置函数编写。这一步的目的是初始化软件并提供特定上下文,例如为GIS任务提供地图或为生物化学任务提供蛋白质序列。注释者将为每个软件编写一组函数来修改VM状态,即软件的内部状态,以及一般配置函数(例如,下载所需文件)。只有在所有初始化成功执行后,任务才会开始。

最后是评估函数编写和验证。开发评估函数以严格评估任务结果。如第3.2节所述,评估是基于状态的,函数是从基本评估器模板派生的。注释者从VM检索任务状态,并根据诸如I/O匹配和预定义范围等标准对其进行评估。函数返回"任务完成"或"任务失败"。为了一致性进行交叉验证,每个任务由两位随机选择的注释者在单独的VM上执行。结果被分析以确保评估器的正确性,即使在注释者故意试图欺骗系统的情况下也是如此。

### 任务统计

SCIENCEBOARD基准的任务统计如表2所示。具体来说,基准包括6个领域的169个独特任务,任务难度分为三个级别。研究团队策划了具有代表性的任务,数量足以评估智能体解决特定领域科学挑战的能力,同时保持评估成本可控。在注释过程中,研究团队在每个领域内定义了多种任务类型,以评估智能体执行不同操作流程和利用特定领域知识的能力。

图4展示了SCIENCEBOARD基准中任务类型的分布。除了真实环境的创新,SCIENCEBOARD基准在任务设计和内容多样性方面也改进了先前的工作。

四、实验设计与评估

想象研究团队为智能科学助手设计了一系列严格的测试,就像是科学助手的"职业资格考试"。这些测试不仅考察智能助手能否完成任务,还评估它们完成任务的方式和效率。

### 实验设置

在实验中,研究团队使用了三种类型的模型作为构建计算机使用型智能体的骨干。这些模型包括专有模型:GPT-4o、Claude-3.7-Sonnet、Gemini-2.0-Flash和o3-mini;开源模型:Qwen2.5-VL-72B-Instruct、InternVL3-78B和QvQ-72B-Preview;以及GUI动作模型:OS-Atlas-Pro-7B、UGround-V1-7B和UI-TARS-72B-DPO。

观察空间决定了智能体可以访问的状态类型。研究团队主要遵循已建立的设置,包括:(1) 屏幕截图,由人类用户观察的完整桌面屏幕截图组成;(2) a11ytree,一个没有视觉信息的结构化纯文本表示,适用于采用纯文本输入的智能体;(3) 屏幕截图 + a11ytree,一种结合并补充文本和视觉模态的混合方法;以及(4) 标记集(Set-of-Marks),一种旨在通过将图像划分为标记区域来增强视觉基础能力的视觉提示方法。

### 实验结果

研究团队比较了由不同LLM和VLM驱动的计算机使用智能体在SCIENCEBOARD上的表现,如表3所示。研究团队总结了其主要实证发现如下:

首先,性能层次结构。现有智能体远未能有效地协助人类科学家完成真实世界的科学探索任务。即使是像GPT-4o和Claude这样的最先进模型,平均成功率也只有15%。在各种设置中,开源对应模型可以部分匹配专有模型。然而,它们仍然表现出明显较低的整体性能,平均成功率不到12%,在某些任务类别中接近0%。智能体和人类表现之间的差距凸显了现状的局限性,需要进一步研究。

其次,特定领域的性能见解。在不同的科学领域中,研究团队观察到性能不平衡。大多数模型在代数和生物化学任务上取得中等任务成功率,但在GIS和天文任务上表现明显下降。研究团队将此归因于两个关键因素:(1) 接口:大多数代数和生物化学任务支持CLI和GUI执行,而GIS和天文任务主要依赖于通过鼠标和键盘动作的基于GUI的交互。在规划之后,智能体通常发现执行CLI命令比执行细粒度GUI基础(尤其是当需要精确的视觉定位时)更容易。(2) 任务重点:地理和天文任务的性质带来了独特的挑战。地图和星图都包含密集的视觉元素,这使得智能体难以有效识别和推理相关信息。这也表明当前VLM在复杂3D空间推理方面具有非常有限的能力。

最后,不同观察的影响。不同的观察模态有显著影响。总体而言,a11ytree + 屏幕截图设置产生了最佳性能。在其他设置下,Qwen2.5-VL在屏幕截图设置下表现异常出色,这归功于其先进的GUI能力。在a11ytree下,元素的属性信息允许LLM通过仅依赖文本观察来完成某些任务。同时,研究团队观察到SoM有时会引入负面效果。可能的原因是,虽然SoM提供边界框以简化基础,但科学软件通常在屏幕上包含大量元素(例如,密集的天体和复杂的宇宙背景),这引入了大量噪音并增加了视觉推理的难度。

五、深入分析与未来方向

为了进一步调查影响智能体能力的因素,研究团队进行了额外的分析,以了解潜在原因和不同模型之间的行为差异。

### 解耦规划和行动

从失败案例和不同设置下的结果观察表明,一些模型(如GPT-4o)可以有效地规划任务,但缺乏足够的基础能力,导致在SCIENCEBOARD上表现不佳。因此,研究团队探索了分离规划和基础。按照现有实践,研究团队将GPT-4o配置为规划者,并利用各种VLM和GUI动作模型作为基础模型。

表4中的结果表明,模块化方法在处理科学软件工作流中复杂且视觉要求高的任务时,产生了显著的性能改进,展现出很大的前景。

### 纯视觉与混合接口

一些任务本质上支持GUI和CLI作为可互换的方式。例如,ChimeraX通过其GUI和CLI为生物化学任务提供了几乎完全的功能覆盖。为了检查当前计算机使用智能体如何与这种混合接口软件交互,研究团队修改了ChimeraX以禁用CLI访问,从而强制仅使用GUI执行(在a11ytree + 屏幕截图设置下)。如图5所示,当CLI访问被移除时,GPT-4o和InternVL3表现出性能下降。相比之下,Qwen2.5-VL基本上不受影响,表明它很适合通过GUI完成任务。

这些发现表明,未来的智能体设计应该更加适应,并配备更强的GUI能力,以确保在混合和仅视觉接口中的鲁棒性。

### 未来发展方向

SCIENCEBOARD代表了利用自主数字智能体协助科学工作流的重要一步。根据本文提出的发现,研究团队确定了以下几个可能的进一步发展方向:

首先是协调域知识和智能体能力。研究团队的评估表明,当前智能体在科学探索中局限性的一个贡献因素是它们的域知识不足。例如,虽然研究团队研究中涵盖的GUI动作模型可以有效执行自动化,但它们在复杂科学任务所需的特定领域知识方面往往表现出相当大的不足。因此,未来的进展可能集中在增强面向领域的能力上,如增强科学理解,从手册和教程等高度相关的资源中学习,以及使智能体能够根据科学任务的需求检索外部知识。在这些基础上,进一步的挑战在于协调这些领域级能力与智能体能力。

其次是协作和专业化智能体作为解决方案。表4中的分析表明,即使是将规划和行动分离到不同智能体的基本模块化方法也可以在复杂的科学软件工作流中产生显著的性能改进。这一发现指向了一个引人注目的方向:开发多智能体系统,其中具有专门能力的异构智能体被凝聚地整合。例如,责任可以通过将规划分配给能够深度推理的智能体,将动作执行分配给专门的GUI动作模型,将特定领域能力分配给特定学科的模型来分解。这些智能体可以即插即用,允许灵活应用于科学生命周期的更广泛方面,如数据分析,科学绘图和论文修订。虽然有前途,但它也需要更复杂的多智能体设计来管理科学任务的复杂和多方面性质。

最后是将数字智能体扩展到物理实验室。当前AI辅助的科学工作流主要在数字层面,专注于数据分析、模拟和软件控制等任务。自然而有影响力的下一步是将SCIENCEBOARD培育和基准测试的自主智能体的能力扩展到物理实验室环境。这一转变涉及将智能体与机器人系统连接,应用体现AI的原则来感知和与物理世界互动。智能体将操作实验室仪器和样品,执行实验协议,并实时监控物理过程,从而培养一个"实验室中的循环"未来,其中实验和AI驱动的方法相互加强。

六、总结与展望

研究团队提出了SCIENCEBOARD,一种首创的真实环境,设计用于赋能自主智能体进行科学探索,并进行严格的验证。基于这一基础设施,研究团队策划了一个由169个由人类专家精心制作的多样化科学任务的高挑战性基准测试。通过广泛的实验和分析,研究团队发现,即使是最先进的计算机使用智能体也远低于人类水平的熟练程度。尽管实现自主智能体进行科学发现仍然是一个遥远的目标,但这项工作提供了未来发展的可操作见解,研究团队相信它构成了推进AI驱动科学发现的一步。

归根结底,SCIENCEBOARD为评估和发展科学智能体提供了一个崭新的平台。虽然当前的智能体还远未达到能够作为真正科学助手的水平,但这项研究铺设了一条明确的道路,指向未来智能体可能如何革命性地改变科学研究的方式。通过提供详细的评估标准和真实的工作环境,SCIENCEBOARD不仅揭示了当前技术的局限性,还启发了下一代科学智能体的发展方向。

无论你是人工智能研究者还是科学家,这项研究都预示着一个令人兴奋的未来,在这个未来中,人类创造力和智能体效率将协同工作,加速科学发现的步伐。虽然我们可能还需要数年时间才能看到真正自主的科学助手,但SCIENCEBOARD已经为这一旅程奠定了坚实的基础。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-