这项由沙特阿拉伯阿卜杜拉国王科技大学(KAUST)生成式人工智能卓越中心的陈一盟等研究人员领导的研究,于2025年7月发表在预印本网站arXiv上,论文编号为arXiv:2507.15550v1。感兴趣的读者可以通过该编号在arXiv.org上找到完整论文。研究团队还包括来自瑞士人工智能实验室和NNAISENSE公司的研究人员。
当我们看到一个钟摆在摆动时,物理学家的大脑会自动开始思考:摆动周期和绳子长度有什么关系?如果改变重力会怎样?这种从现象到规律的思考过程,正是科学发现的核心。现在,研究人员想知道:人工智能是否也能学会这样的科学思维?
这个问题比想象中复杂得多。目前的大语言模型虽然在很多任务上表现出色,但它们在科学发现方面的能力却很难评估。就像考试一样,如果你给学生提供了所有答案的线索,很难判断他们是真正理解了原理,还是仅仅善于模式匹配。同样,如果AI模型在解决物理问题时已经知道了变量名称(比如"质量"、"重力")和问题背景,那它可能只是在调用训练时见过的知识,而不是真正进行科学推理。
为了解决这个评估难题,KAUST的研究团队开发了一个全新的测试平台,叫做PHYSGYM(物理体育馆)。这个平台的巧妙之处在于,它可以精确控制给AI提供多少"线索",从而真正测试AI的科学推理能力。
PHYSGYM的核心创新在于它的"先验知识控制系统"。研究人员将这种控制比作给侦探不同数量的线索来破案。在最高级别(Level 1)中,AI得到完整的案件描述、所有物理量的详细说明和规范的变量命名。这就像给侦探提供完整的案件档案、所有证人证词和清晰的线索标签。在这种情况下,AI主要需要进行推理和模式匹配。
随着级别的降低,研究团队开始逐渐"剥夺"AI的线索。在Level 2中,AI失去了问题的完整描述,只知道变量的物理含义。这就像侦探失去了案件背景资料,但还能识别每个证据的类型。到了Level 3,变量的物理含义也被隐藏,AI只能看到意义不明的描述。最严苛的Level 4中,甚至连变量的名称都被匿名化为"var1"、"var2"等,AI必须完全靠实验和观察来发现规律,就像侦探在没有任何背景信息的情况下,纯凭现场证据破案。
这个设计理念反映了科学发现的本质区别。当我们拿到一个已知是"简谐振子"的钟摆问题,并且看到"长度"、"重力"这样的变量名时,答案几乎是显而易见的。但如果你不知道这是什么系统,变量也只是神秘的数字编号,那就必须通过大量实验来发现其中的规律,这才是真正的科学发现过程。
PHYSGYM包含了97个精心设计的物理问题,涵盖力学、电学、光学、热力学、现代物理和高级物理六个领域。每个问题都不是静态的题目,而是一个可以互动的虚拟实验环境。AI可以像真正的科学家一样,设计实验、收集数据、提出假设、验证理论。
这个平台的工作原理类似于一个复杂的实验室管理系统。AI研究员可以向系统申请进行特定参数设置的实验,系统会返回相应的观测结果。同时,系统还设置了实验预算限制,就像真实研究中的时间和资源约束一样。AI必须在有限的实验次数内,找出隐藏在数据背后的物理定律。
评估系统也相当严格。PHYSGYM不仅检查AI提出的公式是否在数学上等价于正确答案,还评估这个公式与实验数据的拟合程度。这就像科学期刊的同行评议,不仅要求理论正确,还要求与实验证据吻合。
研究团队选择了三个代表性的大语言模型进行测试:谷歌的Gemini-2.5-flash、OpenAI的o4-mini和Anthropic的Claude-3.7-Sonnet。前两个是具有"推理能力"的模型,而Claude则是传统的对话模型。
实验结果既在意料之中,又颇为令人意外。正如预期,随着先验知识的减少,所有模型的成功率都显著下降。在拥有完整信息的Level 1中,Gemini和o4-mini的成功率分别达到66%和63%,而在最困难的Level 4中,成功率降至31%和28%。这表明当前的AI模型确实严重依赖于先验知识。
更有趣的是,研究人员发现了一些反直觉的现象。有些问题在信息较少的情况下反而被解决了,而在信息更丰富时却失败了。这说明有时候过多的先验信息可能会误导模型,让它过分依赖已有知识而忽视实验证据。
Claude模型的表现尤其值得关注。它的整体成功率较低,但在不同级别间的差异也较小。这暗示着它可能更多地依赖内在偏见,而不是有效利用给定的信息进行推理。
当研究人员按问题复杂度分析结果时,发现了另一个重要规律:对于简单问题,先验知识的作用相对有限;但对于复杂问题(涉及10个或更多变量),模型几乎完全依赖于完整的先验信息。这揭示了当前AI在处理高维复杂系统时的局限性。
从实验设计的角度看,当先验信息减少时,所有模型都增加了实验次数,这是一个积极的信号。这说明它们确实在尝试通过更多的数据收集来弥补信息的不足。Gemini从Level 1的平均10.6次实验增加到Level 4的20.6次,o4-mini从7.2次增加到20.1次。
然而,仅仅增加实验次数是不够的。研究人员发现,模型在实验设计上仍有很大改进空间。以一个相对论性反射镜的问题为例,所有模型都只在Level 1成功解决了问题。在缺少背景信息时,它们无法设计出足够极端的实验条件来观察相对论效应,总是选择保守的参数范围,导致观测到的都是平凡的结果。
另一个有趣的案例涉及电磁学中的管状电场问题。在这个问题中,某些级别的表现竟然比信息更完整的级别更差。研究人员分析发现,这是因为变量命名的偏见。当变量保持物理意义的命名时,模型倾向于构造符合命名习惯的公式,但这些公式可能偏离正确答案。而当变量完全匿名化时,模型反而能更客观地基于数据进行推理。
第三个案例展示了先验知识如何限制创新。在一个旋转速度测控装置的问题中,拥有完整背景信息的模型反而表现更差。研究人员发现,这是因为背景信息让模型过分拘泥于"现实可能"的参数范围,而不敢尝试可能揭示真实规律的极端条件。
这些发现对AI科学发现的未来发展具有重要意义。首先,当前的大语言模型在真正的科学发现任务中仍有很大局限性,尤其是在缺乏先验知识的情况下。其次,先验知识并非总是有益的,有时甚至可能成为创新的障碍。最后,有效的实验设计能力是科学发现的关键,而这正是当前AI模型最需要改进的方面。
PHYSGYM平台的意义不仅在于暴露了当前AI的不足,更在于为改进AI科学家提供了一个标准化的训练和测试环境。就像体育训练需要标准化的测试来衡量运动员的真实水平一样,AI科学家的培养也需要这样的"体育馆"。
研究团队还计划扩展PHYSGYM的功能。目前的问题集虽然覆盖了物理学的主要领域,但仍相对固定。未来他们希望开发自动生成新物理环境的方法,让这个平台能够持续提供新的挑战。同时,他们也在思考如何更好地量化问题复杂度,不仅仅依赖方程长度和变量数量这些简单指标。
这项研究还揭示了一个更深层的哲学问题:什么是真正的科学发现?是基于已有知识的逻辑推演,还是在未知领域的探索和假设验证?PHYSGYM的设计暗示,真正的科学发现更接近后者。这也提醒我们,在开发AI科学家时,不能只关注其存储和调用知识的能力,更要培养其在不确定环境中的探索和推理能力。
从技术角度看,这项研究为评估和改进AI的科学推理能力提供了宝贵的工具。研究人员可以使用PHYSGYM来测试不同AI架构、训练方法和提示策略的效果,从而推动AI科学家技术的发展。
对普通公众而言,这项研究展示了AI发展的一个重要方向:从被动的信息处理者转变为主动的知识发现者。虽然当前的AI在这方面还有很大局限性,但PHYSGYM这样的研究正在为实现真正的AI科学家铺平道路。或许在不远的将来,我们真的能看到AI独立发现新的物理定律,为人类的科学探索开辟全新的道路。
说到底,PHYSGYM不仅仅是一个测试平台,更是对科学发现本质的深刻思考。它提醒我们,真正的科学发现需要的不只是知识的积累,更需要在未知中探索的勇气和智慧。当我们的AI助手能够像优秀的科学家一样,在面对完全陌生的现象时仍能设计巧妙的实验、提出大胆的假设、进行严谨的验证,那才是真正的人工智能科学家的诞生。这个目标或许还需要时间来实现,但PHYSGYM已经为我们指明了方向,让我们看到了AI科学发现的无限可能。
Q&A
Q1:PHYSGYM是什么?它能测试AI的哪些能力? A:PHYSGYM是由KAUST团队开发的AI科学推理测试平台,包含97个物理问题的虚拟实验环境。它能测试AI在不同信息条件下进行科学发现的能力,特别是实验设计、假设形成和规律发现等核心科学推理技能。
Q2:为什么减少先验知识会让AI表现变差?这说明了什么问题? A:减少先验知识让AI无法依赖训练时见过的模式进行匹配,必须真正进行科学推理。结果显示所有模型的成功率都大幅下降,说明当前AI主要靠知识匹配而非真正的科学发现能力,这暴露了AI在创新性思维方面的局限。
Q3:PHYSGYM对未来AI科学家的发展有什么意义? A:PHYSGYM提供了标准化的训练和测试环境,让研究人员能够系统评估和改进AI的科学推理能力。它不仅暴露了当前AI的不足,还为培养真正具备科学发现能力的AI指明了方向,推动AI从信息处理者向知识发现者转变。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。