微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 上海交大团队突破AI代理人技术:让机器像人类科学家一样思考和探索

上海交大团队突破AI代理人技术:让机器像人类科学家一样思考和探索

2025-07-20 11:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-20 11:47 科技行者

这项由上海交通大学人工智能学院的柴静怡、唐朔、叶瑞、杜雨雯等学者,以及DP Technology公司的张玉志和张林峰共同完成的研究发表于2025年7月,论文代码已在GitHub开源。有兴趣深入了解的读者可以通过https://github.com/sjtu-sai-agents/X-Master访问完整的研究资料。

在人工智能飞速发展的今天,一个长久以来的梦想正逐渐成为现实:让AI像人类科学家一样思考、探索和发现。上海交通大学的研究团队在这个方向上取得了重大突破,他们开发的AI代理人系统在"人类最后的考试"(Humanity's Last Exam)这个极具挑战性的测试中获得了32.1%的成绩,这是全球首个突破30%门槛的系统,超越了OpenAI和谷歌的顶级产品。

这项研究的核心在于构建一个名为X-Master的AI代理人,它能够像人类研究者一样,在思考问题的过程中灵活地使用各种工具,从简单的数学计算到复杂的网络搜索,再到科学文献的分析。更重要的是,研究团队还开发了一套名为X-Masters的多代理协作系统,通过让多个AI代理人分工合作,大大提升了解决复杂问题的能力。

一、让AI拥有人类研究者的思维方式

要理解这项研究的重要性,我们可以回想一下人类科学家是如何工作的。当一位生物学家遇到一个复杂的研究问题时,他不会仅仅依赖自己头脑中的知识。相反,他会查阅最新的科学文献,使用各种实验设备,进行数据分析,甚至与其他专家讨论。这种在内部思考和外部工具使用之间的灵活切换,正是人类智慧的核心特征。

传统的AI系统虽然在某些特定任务上表现出色,但它们往往像是"闭门造车"的学者,只能依赖训练时获得的知识来回答问题。当遇到需要最新信息或复杂计算的问题时,它们就显得力不从心。X-Master的创新之处在于打破了这种局限,让AI能够像人类一样"内外兼修"。

这个系统的核心设计理念是将代码作为一种"交流语言"。当X-Master遇到无法仅凭内部知识解决的问题时,它会主动编写Python代码来调用外部工具。这些工具可能是用于数学计算的NumPy库,也可能是研究团队专门开发的网络搜索和文献分析工具。代码执行的结果会反馈给AI,帮助它更好地理解问题并继续推理。

这种设计带来了三个关键优势。首先是通用性,几乎任何功能都可以通过编写代码来实现,让AI能够处理各种各样的任务。其次是准确性,代码语言能够精确地表达AI的需求,确保工具调用的准确性。最后是兼容性,Python代码意味着AI可以访问整个Python生态系统中的丰富资源。

二、创新的引导机制让AI学会使用工具

然而,让AI学会使用工具并不是一件容易的事情。目前最先进的推理模型,如DeepSeek-R1,虽然在推理方面表现出色,但它们本质上仍然是非代理型的,缺乏主动使用工具的能力。传统的提示工程方法在这种情况下往往效果有限。

研究团队开发了一种巧妙的"初始推理引导"机制来解决这个问题。具体来说,他们不是让AI从零开始思考,而是在AI开始推理之前,预先植入一些"自我暗示"的文本。这些文本以第一人称的形式写成,比如"我可以通过使用外部工具来有效解决这个问题"或"每当我需要与外部工具交互时,我会生成用特定标记包围的Python代码"。

这种方法的精妙之处在于,它让AI"相信"自己具备了这些能力,从而在推理过程中自然地生成和执行代码。这就像是给AI进行了一种"心理暗示",让它在遇到问题时能够主动想到使用工具,而不是被动地等待指令。

三、专业的信息搜索和分析工具

为了让X-Master能够像人类研究者一样获取和分析信息,研究团队开发了两个核心工具:网络搜索工具和网页解析工具。这两个工具的设计都体现了对人类信息获取行为的深刻理解。

网络搜索工具利用谷歌搜索引擎,但它不是简单地返回搜索结果列表。相反,它会为每个相关网页提供三种类型的信息。首先是实体相关的事实信息,当问题涉及特定的公司、产品或概念时,工具会从知识图谱中提取结构化的事实,包括名称、描述和关键属性。其次是相关网页的预览信息,包括标题、URL和描述性片段,帮助AI快速判断哪些网页值得进一步探索。最后是相关搜索查询建议,为AI提供后续搜索的方向。

网页解析工具则采用了两种不同的策略来处理不同类型的内容。对于一般网页,它会提取主要内容,并自动识别与查询高度相关的段落。更重要的是,它还会检测并返回相关子页面的链接和简要描述,让AI能够像人类一样深入探索互联网上的信息。对于科学论文,工具采用了更加专业的处理方式,它会首先尝试获取ar5iv网站上的HTML版本,如果失败则下载PDF文档,然后自动提取与问题直接相关的信息。

这种设计让AI的信息搜索过程更加接近人类的行为模式:搜索、浏览、点击、深入探索,而不是简单的关键词匹配。

四、多代理协作的"散布-堆叠"工作流程

单个AI代理人的能力毕竟有限,真正的突破来自于多个代理人的协作。研究团队设计了一个名为X-Masters的工作流程,这个流程的核心思想是"散布-堆叠"(Scattered-and-Stacked)。

这个过程可以用一个现实的例子来理解。假设你要写一篇重要的报告,你可能会先找几个朋友分别写初稿(散布阶段),然后请一个专家对每个初稿进行修改(批评阶段),接着综合所有修改后的版本写出新的版本(重写阶段),最后请一个权威人士选出最好的版本(选择阶段)。

在X-Masters系统中,这个过程被精确地实现了。首先,五个"求解者"代理人并行工作,每个都独立地使用工具增强推理来解决问题,产生五个不同的解决方案。这种并行处理利用了大语言模型解码过程的随机性,确保了解决方案的多样性。

接着,"批评者"代理人对每个解决方案进行评估,识别其中的缺陷并提供改进建议。这个阶段确保了所有解决方案都经过了严格的质量控制。

然后是"重写者"阶段,这里五个代理人会参考所有之前的解决方案,综合其中的优点,重新生成五个改进版本。这个过程不仅保持了解决方案的多样性,还通过知识融合提高了整体质量。

最后,"选择者"代理人会综合评估所有的改进版本,基于逻辑一致性和事实准确性选出最优解。

整个过程体现了强化学习中"探索-利用"的核心思想。散布阶段对应探索,通过并行处理探索多种可能的解决路径;堆叠阶段对应利用,通过综合和选择来利用已有的知识和经验。

五、突破性的测试结果

为了验证X-Masters的能力,研究团队选择了"人类最后的考试"(Humanity's Last Exam,简称HLE)作为测试平台。这个测试由全球近1000名专家从500多个机构共同开发,包含了人类知识前沿的多样化、专家级挑战。能够在HLE上取得好成绩,高度预示着AI系统在处理高级科学研究中复杂问题的能力。

X-Masters在HLE上获得了32.1%的成绩,这是全球首个突破30%门槛的系统。相比之下,OpenAI的深度研究产品得分为26.6%,谷歌的深度研究产品得分为26.9%。这意味着X-Masters的表现分别超出了5.5个百分点和5.2个百分点。

更重要的是,X-Masters在各个类别中都表现出了显著的改进。无论是数学、人文社科、生物医学、化学、物理学、工程学还是计算机科学,X-Masters都比基础的DeepSeek-R1-0528模型有明显提升。这种全面的改进证明了工具增强推理和代理工作流程的广泛适用性。

在专门的生物学测试中,X-Masters的表现同样令人印象深刻。与专门针对生物学问题开发的Biomni系统(17.3%)和STELLA系统(约26%)相比,X-Masters获得了27.6%的准确率。在TRQA-lit生物学基准测试中,X-Masters更是获得了67.4%的最高分,超过了使用500多个专业工具的OriGene系统。

六、系统各组件的贡献分析

通过详细的消融实验,研究团队揭示了系统各个组件的具体贡献。基础的DeepSeek-R1-0528模型在HLE上的得分为17.7%。添加工具增强推理后,得分提升到21.1%,增长了3.4个百分点。加入批评者组件后,得分进一步提升到25.0%。重写者组件的加入带来了最大的提升,得分跃升到30.6%,增长了5.6个百分点。最后,选择者组件的加入使得最终得分达到32.1%。

这些结果清楚地展示了每个组件的价值。工具增强推理为AI提供了获取外部信息的能力,批评者组件通过质量控制提高了解决方案的可靠性,重写者组件通过知识融合实现了质的飞跃,选择者组件通过最优选择确保了最终结果的质量。

研究团队还分析了散布和堆叠两个核心策略的重要性。如果只有堆叠没有散布,系统得分为25.5%;如果只有散布没有堆叠,得分为25.0%。只有两者结合才能达到32.1%的最高得分。这证明了多样性探索和深度改进的协同作用。

七、实际应用案例展示

为了更好地理解X-Masters的工作原理,研究团队提供了几个典型的应用案例。

在一个几何问题中,系统需要找到装入14个单位圆的最小外接圆的半径。X-Master首先意识到这是一个经典的圆形装填问题,应该有已知的最优解。它随即生成代码进行网络搜索,找到了维基百科上的相关页面。当发现一个专业网站的链接无法访问时,它灵活地调整策略,转向其他信息源进行交叉验证。最终,它找到了4.328这个精确到四位有效数字的答案。

在一个光学问题中,系统需要确定构建光谱层析成像系统所需的最少衍射光栅数量。初始的搜索没有返回直接相关的信息,X-Master调整了搜索策略,最终找到了CTIS(计算断层成像光谱仪)的相关文献,发现早期设计需要三个交叉的余弦光栅,但改进的二维光栅技术可以将功能集成到一个物理光栅中。

在一个天体物理问题中,系统需要验证白矮星的光谱辐射测量是否与表面温度一致。X-Master使用普朗克定律进行理论计算,发现测量值与理论值存在显著差异。它进一步分析发现温度测量可能有误,通过反向计算得出了正确的温度值,并进行了验证。

这些案例展示了X-Masters在处理不同类型问题时的灵活性和可靠性。它不仅能够进行复杂的推理,还能够在遇到困难时调整策略,像人类专家一样持续探索直到找到答案。

八、技术创新的深远意义

X-Masters的成功不仅仅是一个技术突破,它代表了AI发展的一个重要转折点。传统的AI系统往往专注于特定任务,而X-Masters展示了通用AI代理人的可能性。这种系统能够像人类一样进行跨领域的推理和探索,为AI在科学研究中的应用开辟了新的道路。

更重要的是,这项研究采用了完全开源的方式,与目前主流的闭源商业产品形成了鲜明对比。研究团队相信,通过开源共享,可以促进更广泛的参与和更快的创新。这种开放的研究方式对于推动整个AI领域的发展具有重要意义。

从技术角度来看,X-Masters的成功验证了推理时计算(inference-time computation)的巨大潜力。通过巧妙的系统设计和工作流程优化,开源模型能够在不需要大量训练的情况下达到甚至超越顶级商业产品的性能。这为资源相对有限的研究机构提供了参与前沿AI研究的可能性。

从应用角度来看,X-Masters为AI辅助科学研究提供了一个可行的框架。随着系统的进一步完善,它有望成为科学家们的得力助手,帮助他们处理复杂的研究问题,加速科学发现的进程。

九、面向未来的发展规划

这项研究只是SciMaster系列研究的第一部分,研究团队已经制定了雄心勃勃的后续计划。未来的工作将显著扩展X-Master的架构基础,开发专门的科学代理人和工具来支持文献分析、科学计算和实验工作流程。

在技术层面,研究团队计划构建端到端训练的代理人系统,将X-Masters展示的复杂推理和工具使用能力完全内化到模型中。这种方法将结合目前基于推理时计算的成功经验和深度学习的强大能力,有望创造出更加强大和高效的AI科学家。

在应用层面,SciMaster系列将逐步扩展到更多的科学领域,包括生物学、化学、物理学、材料科学等。每个领域都将有专门的工具和知识库,使得AI代理人能够像领域专家一样进行深入的研究。

在协作层面,研究团队希望通过开源社区的力量,吸引更多的研究者和开发者参与到这个项目中来。通过众包的方式,可以快速扩展系统的功能和应用范围,加速AI科学助手的发展。

说到底,X-Masters的成功证明了一个重要的观点:AI的未来不在于单纯的模型规模竞赛,而在于如何让AI更像人类一样思考和行动。通过巧妙的系统设计和工作流程优化,相对"小"的模型也能够实现"大"的突破。这种思路不仅为AI研究指明了新的方向,也为普通研究者提供了参与前沿AI研究的机会。

当我们站在人工智能发展的十字路口时,X-Masters向我们展示了一个激动人心的可能性:未来的AI不再是冷冰冰的计算机器,而是能够像人类科学家一样思考、探索和发现的智能伙伴。这样的未来,或许比我们想象的更近。

Q&A

Q1:X-Master是什么?它和普通的AI有什么不同? A:X-Master是一个能够像人类研究者一样使用工具的AI代理人。与普通AI只能依赖训练时的知识不同,X-Master可以主动搜索网络、分析文献、进行计算等,就像人类专家会查资料、做实验一样。它通过编写Python代码来调用各种工具,让AI具备了"内外兼修"的能力。

Q2:X-Masters的"散布-堆叠"工作流程是怎么运作的? A:这个流程就像组织一个专家团队来解决复杂问题。首先让5个AI"求解者"并行工作产生不同解决方案(散布),然后"批评者"对每个方案进行改进,接着"重写者"综合所有方案生成新版本,最后"选择者"挑出最优解(堆叠)。这种方式结合了多样性探索和深度改进。

Q3:这项研究的成果有多厉害?会对我们的生活产生什么影响? A:X-Masters在"人类最后的考试"中获得32.1%的成绩,是全球首个突破30%的系统,超越了OpenAI和谷歌的产品。这意味着AI在处理复杂科学问题方面取得了重大突破。未来它可能成为科学家的得力助手,帮助加速药物发现、材料研发等,最终让科技创新更快地惠及普通人的生活。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-