微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 北大物理学院推出首个物理推理基准测试:AI模型在复杂物理问题面前还是个"学渣"

北大物理学院推出首个物理推理基准测试:AI模型在复杂物理问题面前还是个"学渣"

2025-07-14 09:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-14 09:48 科技行者

这项由北京大学物理学院师生团队联合开发的研究成果于2025年5月发表,论文标题为"PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models"。该研究构建了首个专门评估AI大语言模型物理推理能力的基准测试,有兴趣深入了解的读者可以通过https://www.phybench.cn/访问完整数据集和研究成果。

当我们谈论人工智能的时候,经常会听到一些令人印象深刻的成就:AI能写诗、能画画、能编程,甚至在某些考试中表现得比人类还要出色。然而,当北京大学物理学院的研究团队让目前最先进的AI模型去解决一些物理问题时,结果却让人大跌眼镜。就连被誉为最强大的Gemini 2.5 Pro模型,在面对这些物理题目时,准确率也只有可怜的36.9%,而人类专家的平均准确率却达到了61.9%。

这个发现揭示了当前AI技术一个重要的盲点:尽管这些模型在很多任务上表现优异,但在需要深度物理理解和复杂推理的场景中,它们的表现仍然远不如人类。这就好比一个背书很厉害的学生,在面对需要真正理解和应用物理原理的综合题时,就露出了马脚。

为了深入探究这个问题,北京大学的研究团队开发了一个名为PHYBench的评测基准。这个基准包含了500道精心设计的物理题目,难度从高中物理一直延伸到物理奥林匹克竞赛水平。更重要的是,这些题目都是全新创作的,确保AI模型在训练过程中从未见过这些内容,从而避免了"题海战术"带来的虚假表现。

研究团队总共动员了178名北京大学物理学院的学生参与题目的编写、审核和完善工作。这个过程就像是精心打造一把测量AI真实能力的"尺子"。每道题目都经过了多轮严格的质量控制,确保问题表述清晰、答案唯一、可以通过物理原理求解。最终,从757道候选题目中筛选出了500道最高质量的题目,筛选率达到66.1%。

更有趣的是,研究团队还发明了一种新的评分方法,叫做"表达式编辑距离分数"(EED Score)。传统的评测方法只看答案对错,就像考试只给满分或零分。而这种新方法能够识别出答案中的部分正确性,就好比老师不仅看最终答案,还会根据解题过程给分。这种评分方法的效率比传统方法提高了204%,能够更精确地区分不同模型的能力差异。

一、当AI遇到物理学:一场意料之外的"滑铁卢"

当研究团队开始测试各种AI模型时,结果确实令人意外。在这场"物理大考"中,即使是目前被认为最强大的推理模型,表现也只能用"差强人意"来形容。Gemini 2.5 Pro作为最佳表现者,36.9%的准确率听起来不算太糟,但考虑到人类专家61.9%的表现,这个差距就显得相当明显了。

其他知名模型的表现更是让人大跌眼镜。比如OpenAI的o4-mini模型准确率只有29.4%,而一些规模较小的32B参数模型,如QwQ-32B和DeepSeek-R1-Distill-Qwen-32B,准确率甚至只有1.2%和2.6%。这就好比让一群平时成绩不错的学生去参加物理竞赛,结果发现大部分人连及格线都达不到。

这种表现差距并不是偶然的。研究发现,PHYBench中的题目需要模型生成平均超过10,000个字符的推理过程,远远超过其他基准测试的要求。这说明物理推理确实需要更长的思维链条和更复杂的逻辑关系。

更加值得关注的是,这些AI模型在其他著名的推理基准测试中表现都相当不错。比如DeepSeek-R1在MATH-500数据集上能达到97.3%的准确率,在AIME 2024上也有79.8%的表现。但一到PHYBench这里,成绩就直线下滑。这种反差揭示了一个重要问题:目前的AI模型可能更擅长解决那些有固定模式的数学题目,而在需要真正理解物理概念和灵活应用物理原理的场景中,它们就显得力不从心了。

研究团队通过对比不同基准测试的特点发现,PHYBench的独特之处在于它要求模型具备真正的物理感知和推理能力。每道题目都描述了一个具体的物理场景,模型需要从文字描述中构建出正确的物理图像,然后选择合适的物理定律,最后通过复杂的数学推导得出答案。这个过程就像是要求AI成为一个真正的物理学家,而不仅仅是一个会做题的机器。

二、深入解剖:AI在物理推理中的两大"软肋"

为了找出AI模型在物理推理中的具体问题所在,研究团队进行了一次"解剖手术"式的详细分析。他们发现,AI的错误主要集中在两个关键环节:物理感知(Physical Perception,简称PP)和稳健推理(Robust Reasoning,简称RR)。

物理感知就像是人类看到一道物理题时,首先要在脑海中构建出这个物理场景的"心理模型"。比如看到"三个小球用绳子串联悬挂"这样的描述,人类会自然而然地想象出具体的空间布局、受力情况和运动状态。而稳健推理则是在正确理解物理场景的基础上,能够选择合适的物理定律,建立正确的方程组,并且在漫长的推导过程中保持逻辑的一致性。

有趣的是,研究发现大多数AI模型的问题并不出现在物理感知阶段。数据显示,超过90%的错误都发生在稳健推理环节。这意味着AI模型通常能够正确理解题目描述的物理场景,但在随后的推理过程中却频频出错。这就好比一个学生能够正确理解题目在问什么,但在解题过程中总是算错或者用错公式。

进一步的分析显示,在稳健推理的错误中,超过90%属于"语义推理"错误,而不是"符号推理"错误。语义推理指的是从物理原理出发推导出新的方程,而符号推理则是对已有方程进行数学变换。这个发现很有启发性:AI模型在纯数学运算方面表现还不错,但在需要物理直觉和概念理解的地方就容易犯错。

比如,在一道涉及角动量守恒的题目中,AI模型可能会错误地假设系统角动量守恒,即使题目中明确存在外力矩。又比如在电磁学问题中,模型可能会错误地应用某个定律的适用条件。这些错误表明,AI模型虽然"记住"了很多物理公式和定律,但对于这些定律的适用条件和物理意义的理解还很肤浅。

三、"表面功夫"还是"真才实学":AI推理能力的深度测试

研究团队设计了一个特别巧妙的实验来检验AI模型的推理是否真的可靠,还是只是"表面功夫"。他们在正确的解题过程中故意植入一些错误,然后看模型是否能够发现并纠正这些错误。这就像是在正确的菜谱中故意写错一个步骤,然后看厨师是否能发现问题。

实验结果揭示了一个令人担忧的现象:大部分AI模型都表现出了"表面推理"的特征。当遇到已经包含错误的推理过程时,它们往往会盲目地继续错误的路线,而不是发现并纠正错误。这就好比一个学生看到前面有人解错了题,不仅没有发现错误,反而按照错误的思路继续往下推导。

研究团队将AI模型的表现分为三个层次。最低层次是"表面推理",模型会盲目地延续错误的推理过程,对植入的错误毫无察觉。中等层次是"伪真实推理",模型能够通过一些机械的检查方法(比如量纲分析)发现明显的错误,但对于更深层的概念性错误仍然无能为力。最高层次是"真实推理",模型能够通过物理直觉和概念理解发现并纠正各种类型的错误。

测试结果显示,即使是表现最好的模型,大部分情况下也只能达到"伪真实推理"的水平。它们虽然能发现一些明显的错误,但这种能力更多来自于机械的规则检查,而不是真正的物理理解。当面对更加微妙的概念性错误时,这些模型就显得无能为力了。

这个发现对于AI的发展具有重要意义。它表明,当前的AI模型虽然在许多任务上表现出色,但它们的"推理"很可能更多是模式匹配和规则应用,而不是真正的理解和推理。这就像是一个人能够背诵很多诗词,但并不真正理解其中的意境和情感。

四、数字背后的故事:详细的性能分析

在这场AI与物理的较量中,数字本身就讲述了一个引人深思的故事。研究团队不仅测试了模型的准确率,还深入分析了它们在不同方面的表现差异。

首先是输出长度的对比。在PHYBench上,AI模型平均需要生成超过10,000个字符的推理过程,这远远超过了其他基准测试的要求。相比之下,在MATH-500上只需要1,857个字符,在GPQA上需要6,308个字符。这个差异说明了物理推理的复杂性:它不仅需要正确的答案,更需要完整的推理链条。

更有趣的是推理模型和通用模型之间的表现差异。在PHYBench上,专门针对推理优化的模型(如DeepSeek-R1、o3系列)明显优于通用模型(如GPT-4o、Claude),这种差异比在其他基准测试上更加明显。这说明物理推理确实需要更强的逻辑思维能力,而不仅仅是记忆和模式识别。

研究团队还进行了"测试时扩展"实验,让模型对同一道题目尝试多次,然后取最好的结果。结果显示,随着尝试次数的增加,模型的表现确实有所提升,但这种提升有明显的上限。比如Gemini 2.5 Pro从单次尝试的36.9%准确率可以提升到多次尝试后的大约75%,但仍然难以达到人类专家的水平。

这种现象类似于让一个学生反复做同一道题,虽然可能会偶然做对,但这并不代表真正掌握了解题方法。更重要的是,当使用"多数投票"的方式(即选择多次尝试中出现频率最高的答案)时,模型的提升非常有限,这进一步证明了它们缺乏稳定的推理能力。

五、EED评分系统:让评价更加精准和公平

传统的评分方法就像是非黑即白的判断:答案对了就是满分,错了就是零分。但这种方法在评价复杂推理任务时显得过于粗糙。北京大学的研究团队开发的EED评分系统就像是一个更加细致的老师,能够识别出学生答案中的部分正确性。

EED的工作原理可以用修改文档的过程来比喻。如果把正确答案和模型生成的答案都看作是数学表达式的"家族树",那么EED就是计算把一棵树改造成另一棵树需要多少步操作。操作越少,说明两个答案越相似,得分就越高。

比如,如果正确答案是"2mg + 4mv?/l",而模型给出的答案是"2mg + 2mv?/l",传统方法会认为这是完全错误的,给零分。但EED系统会发现这个答案在结构上基本正确,只是系数有误,因此会给出一个中等分数,比如47分(满分100分)。

这种评分方法的优势在数据上得到了充分体现。研究发现,使用EED评分的500道题目能够提供的区分度,相当于使用传统二元评分的1500道题目。换句话说,EED评分将评测效率提高了204%。这意味着研究人员可以用更少的题目获得更可靠的评测结果。

EED系统还考虑了物理公式的特殊性。在物理学中,一个完整的表达式往往包含多个具有不同物理意义的项。比如电势公式可能包含外电场项、电荷分布项和电偶极子项。如果模型只算对了其中一部分,EED系统会给予相应的部分分数,而不是简单地判定为错误。

六、人类专家vs AI:差距究竟在哪里

为了建立可靠的比较基准,研究团队邀请了81名北京大学物理学院的学生参与测试,其中50名是中国物理奥林匹克竞赛的金牌获得者。这些人类专家的平均准确率达到61.9%,EED分数为70.4分,远超目前最好的AI模型。

更值得注意的是,人类专家成绩的上四分位数达到了71.4%的准确率和80.4的EED分数,这表明确实有相当一部分人类专家能够稳定地解决这些问题。这与AI模型的表现形成了鲜明对比:即使是最好的AI模型,其表现也存在较大的不稳定性。

通过分析人类专家和AI模型的解题过程,研究团队发现了一个关键差异:人类在解题过程中会不断进行自我检查和纠错,而AI模型一旦走上错误的道路,往往会一错到底。这就好比人类司机在开车时会不断观察路况并调整方向,而AI司机一旦选错了路线,就会坚持错误地走下去。

人类专家的另一个优势在于对物理概念的深度理解。当遇到复杂的物理场景时,人类能够快速识别出关键的物理过程和主要矛盾,然后有针对性地应用相关定律。而AI模型往往会被各种次要因素干扰,导致问题复杂化。

七、错误分析:AI模型的典型"失误模式"

通过对大量错误案例的分析,研究团队发现了AI模型在物理推理中的几种典型失误模式。这些失误就像是学生在考试中经常犯的错误类型,具有一定的规律性。

第一种失误是"概念混淆"。AI模型有时会错误地应用物理定律的适用条件。比如在一个存在外力矩的系统中,模型可能仍然假设角动量守恒。这就好比一个学生记住了"在没有外力的情况下动量守恒"这个结论,但却忘记了"没有外力"这个前提条件。

第二种失误是"计算链断裂"。在需要多步推导的问题中,AI模型往往在某个中间步骤出现错误,然后这个错误会传播到最终答案。更糟糕的是,模型通常不会回头检查之前的步骤,导致错误累积。

第三种失误是"物理直觉缺失"。有些时候,AI模型会给出在数学上正确但在物理上不合理的答案。比如计算出负的温度或者超光速的速度,而模型对这些明显不合理的结果缺乏敏感性。

第四种失误是"近似处理不当"。物理问题中经常需要在特定条件下进行合理的近似,但AI模型往往不知道何时该使用近似,以及如何正确地进行近似。这就像是不知道在什么时候可以忽略空气阻力,什么时候必须考虑相对论效应。

八、对未来的启示:AI还需要走多远

这项研究揭示的问题不仅仅局限于物理学,它实际上反映了当前AI技术的一个根本性挑战:如何让机器真正"理解"而不仅仅是"记忆"和"模仿"。

当前的大语言模型主要通过学习大量文本数据中的模式来工作,这种方法在处理语言任务时表现出色,但在需要深度概念理解和复杂推理的科学问题上就显得力不从心。这就好比一个人能够流利地背诵莎士比亚的十四行诗,但却不能理解其中的情感和意境。

研究团队认为,要让AI在物理推理上达到人类水平,需要在几个方面取得突破。首先是需要更好的物理概念表示方法,让AI真正"理解"什么是力、能量、动量等基本概念。其次是需要更强的因果推理能力,让AI能够理解物理现象之间的因果关系。最后是需要更好的自我监控和纠错机制,让AI能够像人类一样在推理过程中发现和纠正错误。

这项研究还表明,仅仅通过增加模型参数或训练数据可能还不足以解决这些根本性问题。我们可能需要从架构、训练方法和评价体系等多个方面进行创新,才能让AI获得真正的推理能力。

九、实际应用:这对我们的生活意味着什么

虽然这项研究主要关注的是AI在学术物理问题上的表现,但其意义远远超出了学术范围。在现实生活中,我们越来越依赖AI来帮助我们解决各种复杂问题,从工程设计到医疗诊断,从金融分析到气候预测。

这项研究的发现提醒我们,在涉及复杂推理和深度理解的领域,当前的AI技术还存在明显的局限性。这并不意味着AI无用,而是提醒我们需要更加谨慎地使用这些工具,特别是在关键决策场景中。

对于教育领域来说,这项研究也有重要启示。它表明,尽管AI可以在很多方面协助教学,但在培养学生的深度思维和推理能力方面,人类教师仍然不可替代。真正的学习不仅仅是记忆和模仿,更需要理解和创新。

对于AI研究者来说,PHYBench提供了一个新的挑战和目标。就像国际象棋和围棋曾经激励了游戏AI的发展一样,物理推理可能会成为推动下一代AI技术发展的新战场。

总的来说,这项研究让我们对AI的能力和局限性有了更清醒的认识。它告诉我们,通向真正智能的道路还很漫长,但这正是科学研究的魅力所在:每一个发现都让我们更接近真理,每一个挑战都推动我们向前发展。

当我们站在人工智能发展的这个关键节点上,北京大学的这项研究就像是一面镜子,让我们看清了AI技术的真实面貌。它既不是万能的神器,也不是一无是处的工具,而是一个正在成长中的"学生",需要在更多的挑战中不断学习和进步。说到底,这项研究最大的价值可能不在于揭示了AI的不足,而在于为我们指明了前进的方向。毕竟,只有知道自己的不足,才能找到改进的方法。而对于我们普通人来说,这提醒我们在享受AI便利的同时,也要保持独立思考的能力。因为在这个智能化的时代,真正的智慧不是被机器替代,而是学会如何更好地与机器协作。

Q&A

Q1:PHYBench是什么?它和其他AI测试有什么不同? A:PHYBench是北京大学开发的专门测试AI物理推理能力的基准,包含500道原创物理题目。与其他测试不同,它要求AI真正理解物理概念并进行复杂推理,而不是简单的模式匹配,因此能更准确地反映AI的真实推理能力。

Q2:AI模型在物理问题上表现这么差,会不会影响实际应用? A:确实需要谨慎。这项研究表明AI在需要深度推理的复杂问题上还有明显局限,特别是在工程设计、科学研究等需要物理推理的领域。不过这不意味着AI无用,而是提醒我们要合理使用,在关键决策时仍需人类专家把关。

Q3:为什么连最先进的AI模型准确率都只有36.9%? A:主要问题在于AI缺乏真正的物理理解能力。虽然它们能记住很多公式和模式,但在面对需要灵活应用物理原理、进行多步推理的复杂问题时,往往会在中间步骤出错,而且缺乏自我纠错能力,导致错误累积到最终答案。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-