微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 PHYSICO任务:让AI模型接受物理概念的"真理考验"——腾讯WeChat AI、香港科技大学与约翰·霍普金斯大学联合研究

PHYSICO任务:让AI模型接受物理概念的"真理考验"——腾讯WeChat AI、香港科技大学与约翰·霍普金斯大学联合研究

2025-08-25 14:27
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-25 14:27 科技行者

这项由腾讯WeChat AI的余默研究员、刘乐茂研究员,香港科技大学的吴俊杰、钟梓庭,以及约翰·霍普金斯大学的张顺驰等人共同完成的研究发表于2025年2月,已上传至arXiv预印本服务器(论文编号:arXiv:2502.08946v1)。有兴趣深入了解的读者可以通过https://physico-benchmark.github.io访问完整的研究资料和数据集。

近年来,大型语言模型在各种任务上的表现让人惊叹,甚至在某些测试中超越了人类。但是,一个根本性的问题始终困扰着研究者们:这些AI模型真的理解它们在说什么吗?还是只是像"随机鹦鹉"一样,基于统计规律重复着训练数据中的内容?

为了回答这个问题,研究团队设计了一个巧妙的"双重考试"——PHYSICO任务。这个名字来源于"PHYSICal cOncept understanding"(物理概念理解),就像给AI模型设置了两道关于同一个物理概念的考题:第一道是用自然语言描述的"记忆题",第二道是用抽象网格图案表示的"理解题"。

研究的核心思想非常直观:如果AI模型真正理解一个物理概念,那么无论这个概念以何种形式出现,模型都应该能够识别出来。就像一个真正理解"重力"概念的人,既能用文字准确描述重力定律,也能在看到苹果从树上掉下来的图画时立即认出这是重力的作用。

研究团队选择物理概念作为测试对象有两个重要原因。首先,物理概念是人类理解世界的基础,对于AI系统与现实世界的交互至关重要。其次,物理概念具有丰富的表现形式,既可以用抽象的定义描述,也可以通过具体的现象展示,这为设计多层次的理解测试提供了理想条件。

PHYSICO任务涵盖了52个高中阶段的基础物理概念,从重力、惯性到光的反射、电流等等。研究团队精心设计了两个子任务来测试AI模型的不同理解层次。低层次理解任务考查的是模型的记忆和复述能力,包括根据维基百科定义识别物理概念、从真实照片中识别物理现象,以及生成概念的完整描述。高层次理解任务则更加考验模型的抽象思维能力,需要模型从抽象的网格图案中识别出对应的物理概念。

这些网格图案的设计灵感来自于抽象推理挑战(ARC),每个图案都是由彩色方格组成的输入-输出对,抽象地表示着某个物理概念的核心特征。比如,重力概念可能通过一系列显示物体向下移动的图案来表示,而反射现象则可能通过显示光线改变方向的图案来呈现。

一、AI模型的"记忆课"表现优异

在低层次理解任务中,主流AI模型的表现令人印象深刻。当面对用自然语言表述的物理概念时,这些模型几乎都能给出完美的答案。

以概念识别任务为例,研究团队将维基百科中的物理概念定义进行巧妙的处理,把概念名称替换为"现象"占位符,把相关人名替换为"掩码"占位符,然后让AI模型从四个选项中选择正确答案。在这项测试中,GPT-4系列模型的准确率达到了95%以上,GPT-3.5也达到了97.3%。即使是开源模型,表现也相当不错,Llama-3达到了88.5%的准确率。

更令人惊讶的是概念生成任务的结果。当研究团队直接要求AI模型描述某个物理概念时,几乎所有先进模型都能生成准确、完整的描述。人工评估结果显示,除了Mistral模型偶尔出现事实错误外,GPT系列模型的生成描述准确率达到了100%。这些描述不仅事实正确,还涵盖了概念的核心属性和典型例子。

为了进一步验证生成描述的质量,研究团队设计了一个"自我对话"测试:让同一个AI模型先生成概念描述,然后再根据这个描述来识别对应的概念。结果显示,所有模型都能完美识别自己生成的描述,证明了它们确实掌握了这些物理概念的表层知识。

这些结果表明,在传统的自然语言理解任务中,当前的AI模型确实具备了强大的知识记忆和表述能力。它们不仅能够准确识别物理概念,还能生成高质量的概念描述,涵盖了PHYSICO测试中所需的大部分知识点。

二、人类在"抽象理解课"中的卓越表现

在进入AI模型的高层次理解测试之前,研究团队首先验证了人类在这些抽象图案任务中的表现能力。毕竟,如果连人类都无法很好地完成这些任务,那么用它们来评估AI模型就失去了意义。

人类被试的表现证明了这些抽象图案确实能够有效地传达物理概念。在PHYSICO-CORE任务中,人类的准确率超过了90%。这些任务包括从抽象网格图案中识别重力、惯性、反射等基本物理概念。即使是更具挑战性的PHYSICO-ASSOCIATIVE任务,人类的平均准确率也达到了77.8%。

PHYSICO-ASSOCIATIVE任务的设计更加巧妙。研究团队从原始的ARC数据集中筛选出那些能够唤起人们对特定物理概念联想的图案,然后重新标记为对应的物理概念。这类任务更加主观,因为不同的人可能会从同一个抽象图案中联想到不同的物理概念。

为了深入了解人类在这类任务中的表现,研究团队进行了详细的分析。他们发现,当人类被试认为四个候选答案都无法很好地解释输入图案时,会出现10.4%的分歧率。在这些存在分歧的例子中,人类的准确率降至33.3%,这解释了整体表现下降的主要原因。

值得注意的是,参与测试的人类被试都具有大学教育背景,并且在遇到不熟悉的概念时,还被允许咨询GPT-4o来获取概念定义的帮助。这样的设置确保了测试的公平性,也证明了这些抽象图案任务对于具备相应知识背景的人来说是可以完成的。

人类的优秀表现为后续的AI模型评估提供了重要的基准。它表明,这些基于抽象网格图案的任务确实能够有效地测试对物理概念的深层理解,而不仅仅是表面的模式匹配。

三、AI模型在"抽象理解课"中的困境

当AI模型面对高层次理解任务时,情况发生了戏剧性的变化。这些在自然语言任务中表现近乎完美的模型,在抽象网格图案面前却显得力不从心。

在文本输入的PHYSICO任务中,即使是最先进的GPT-4模型,在PHYSICO-CORE测试集上的准确率也只有28.2%,远低于人类的89.5%。更令人震惊的是,GPT-3.5的表现几乎与随机猜测无异,准确率仅为24.4%。开源模型的表现更是惨不忍睹,Mistral和Llama-3的准确率都在25%左右,基本等同于随机选择。

研究团队还测试了最新的推理模型,包括o1、o3-mini和Gemini 2.0 Flash Thinking等。这些专门设计用于复杂推理任务的模型确实比普通模型表现稍好,但仍然远远落后于人类。例如,o3-mini在PHYSICO-CORE开发集上达到了46%的准确率,但在测试集上又回落到46.5%。

多模态模型的表现也类似。当研究团队将抽象网格图案转换为图像输入时,GPT-4o在PHYSICO-CORE测试集上的表现提升到了45.2%,但这个成绩相比人类的89.5%仍然相差甚远。有趣的是,GPT-4o在视觉输入上的表现明显优于文本输入,这可能是因为它在训练过程中见过更多直接展示物理概念的图像。

为了进一步探索模型的推理能力,研究团队还尝试了思维链提示(Chain-of-Thought)方法。他们首先让模型描述每个候选概念,然后再做出选择。然而,这种方法不仅没有带来改善,反而在某些情况下导致了性能下降。这个结果特别令人深思,因为它表明即使模型能够正确描述相关的物理概念,它们仍然无法将这种知识应用到抽象图案的理解中。

最令人印象深刻的对比是同一个模型在不同任务上的表现差异。以GPT-3.5为例,它在自然语言概念识别任务中达到了97.3%的准确率,堪称完美,但在抽象图案理解任务中却几乎是在随机猜测。这种巨大的性能落差生动地展示了"随机鹦鹉"现象的存在。

四、深入探究:是格式不熟悉还是理解缺失?

面对AI模型在抽象理解任务中的糟糕表现,一个自然的疑问是:这是因为模型不熟悉网格格式,还是真的缺乏深层理解能力?研究团队设计了一系列巧妙的实验来回答这个关键问题。

首先,研究团队测试了GPT-4o对网格图案的基础视觉理解能力。他们选择了60个网格图案,让三名标注者评估GPT-4o是否能正确识别其中的基本视觉元素,包括物体的形状、颜色和位置变化。这些任务相当于计算机视觉中的基础任务,如目标检测和图像分割。结果显示,GPT-4o在这类基础视觉理解任务中达到了86.7%的准确率,远高于它在物理概念理解任务中的表现。这个结果表明,模型确实具备了解析网格图案的基本能力,问题出在更高层次的概念理解上。

接下来,研究团队尝试通过增加训练数据来提升模型的格式熟悉度。他们进行了三种不同类型的训练实验。第一种是上下文学习(In-Context Learning),即在测试时提供一些其他概念的示例。第二种是在合成的矩阵数据上进行微调,让模型更熟悉网格格式。第三种是在原始ARC数据集上进行微调,确保PHYSICO-ASSOCIATIVE任务中的所有输入格式都在训练中出现过。

然而,所有这些尝试都没有带来显著的改善。例如,GPT-4在使用3个示例的上下文学习后,PHYSICO-CORE任务的准确率从41.3%略微下降到39.5%。在ARC数据集上微调后的Llama-3模型,表现也基本没有变化。这些结果强有力地证明了,模型的困难不在于格式不熟悉,而在于缺乏真正的概念理解能力。

更进一步,研究团队还进行了一个极端的测试:让模型在PHYSICO-CORE数据上训练,然后在包含相同概念的PHYSICO-ASSOCIATIVE子集上测试。这相当于让学生先学习标准答案,再去做相关的变形题。令人意外的是,即使在这种情况下,模型的表现也没有提升,甚至略有下降。GPT-4的准确率从42.9%下降到40.0%,Llama-3从22.1%下降到20.9%。

这个结果特别重要,因为它表明模型似乎只是记住了训练数据中的表面模式,而没有真正理解底层的物理概念。当面对同一概念的不同表现形式时,模型无法进行有效的泛化。研究团队认为,这种现象表明模型学到了一些不能很好泛化的表面关联,进一步证实了"随机鹦鹉"现象的存在。

五、不同模型的表现分析与思考

在深入分析各种AI模型的表现时,研究团队发现了一些有趣的模式和差异。这些发现不仅揭示了当前AI技术的局限性,也为未来的发展方向提供了重要线索。

在开源模型中,Mistral和Llama-3在所有高层次理解任务中的表现都接近随机水平,这可能与它们相对较小的模型规模和训练数据量有关。有趣的是,在视觉输入任务中,多模态开源模型InternVL和LLaVA的表现甚至不如GPT模型的文本版本,这提示了多模态能力的获得需要大量高质量的视觉-语言配对数据。

最新的推理模型展现了一些独特的特征。DeepSeek-R1在PHYSICO-ASSOCIATIVE任务中表现相对较好,达到了55%的准确率,但在PHYSICO-CORE任务中却表现糟糕,只有29.5%。深入分析发现,R1模型倾向于基于物理概念制定变换规则,然后应用这些规则来预测输出。这种策略在具有确定性变换规律的ARC任务中效果不错,但在PHYSICO-CORE任务中却不适用,因为这些任务通常缺乏严格的确定性变换模式。

思维链提示技术的失败也值得深思。研究团队尝试让模型先用低层次理解的结果作为中间步骤,再进行高层次推理,但这种方法仍然没有带来改善。在PHYSICO-CORE开发集上,这种方法的准确率为50.7%,仅比普通提示方法略有提升。这表明,即使模型能够正确描述物理概念,它们也无法将这种描述性知识与抽象图案中的模式建立有效连接。

更令人担忧的是监督学习的失效。在机器学习领域,当模型在某项任务上表现不佳时,通常可以通过增加标注数据和监督训练来改善。然而,在PHYSICO任务中,即使是在相同概念的数据上进行训练,模型的表现也没有显著提升,甚至出现了轻微的过拟合现象。这种现象暗示着问题的根源可能在于预训练阶段,而不是简单的数据不足或训练策略问题。

研究团队还观察到一个有趣的现象:模型在某些特定概念上的表现差异很大。例如,在光学相关概念(如光谱滤波器、衍射)上,多个模型都表现相对较好,而在力学概念(如杠杆、惯性)上则普遍表现较差。这可能反映了不同物理概念在抽象表示中的固有难度差异,也可能与模型训练数据中不同领域知识的分布有关。

六、研究成果的深远意义

PHYSICO研究的发现对AI领域产生了深远的影响,不仅验证了学界长期以来的担忧,也为未来的研究方向指明了道路。

首先,这项研究首次通过严格的定量实验验证了"随机鹦鹉"现象的存在。过去几年中,虽然许多研究者都质疑大型语言模型是否真正理解它们处理的内容,但缺乏系统性的实证研究。PHYSICO通过精心设计的对比实验,清楚地展示了AI模型在记忆型任务和理解型任务之间的巨大性能差距,为这一争议提供了确凿的证据。

其次,研究结果揭示了当前AI技术的根本性局限。即使是最先进的GPT-4o和推理模型,在需要真正理解的任务中仍然远远落后于人类。这种差距不是通过简单的模型扩大或数据增加就能解决的,而是需要在AI系统的基础架构和训练范式上进行根本性的创新。

特别值得注意的是,传统的改进方法在这类任务中都失去了效力。无论是增加训练数据、改进提示技术,还是使用更复杂的推理模型,都无法显著缩小与人类的性能差距。这表明问题的根源在于当前语言模型的基本工作原理,即基于统计相关性的模式匹配,而非真正的概念理解。

从教育心理学的角度来看,这项研究证实了布鲁姆分类法(Bloom's Taxonomy)在AI评估中的有效性。通过区分低层次的记忆技能和高层次的理解、应用、分析技能,研究团队成功地设计出了能够区分"知道"和"理解"的测试。这种评估框架不仅适用于物理概念,也可以推广到其他知识领域。

对于AI安全和可信度而言,这些发现也具有重要意义。如果AI系统只是在重复训练数据中的模式,而没有真正理解底层概念,那么它们在面对新情况或需要创造性思维的任务时可能会表现不佳,甚至产生危险的结果。这对于AI在关键领域(如医疗诊断、自动驾驶、科学研究)的应用提出了严肃的警示。

同时,研究也为评估AI理解能力提供了新的方法论。PHYSICO任务的设计原则可以推广到其他领域,为开发更全面、更深入的AI评估基准提供了思路。通过将同一概念的不同表现形式结合起来,研究者可以更准确地评估AI系统的真实理解水平,而不是仅仅依靠传统的语言理解测试。

七、未来展望与思考

PHYSICO研究开启了AI理解能力评估的新篇章,同时也引发了对AI技术发展方向的深入思考。

从技术发展的角度来看,这项研究表明,仅仅通过增大模型规模或扩充训练数据可能无法解决AI理解能力的根本问题。未来的AI研究需要探索新的架构设计和训练方法,可能包括结合符号推理的混合系统、基于因果关系的学习方法,或者更好地模拟人类认知过程的神经架构。

研究结果也为多模态AI的发展提供了重要启示。虽然GPT-4o在视觉输入上的表现略优于文本输入,但这种改善仍然有限。这提示我们,真正的多模态理解不仅仅是将不同模态的信息融合,更重要的是建立跨模态的概念表示和推理能力。

从评估方法学的角度来看,PHYSICO为AI能力评估提供了新的范式。传统的AI评估往往关注于特定任务的性能,而忽略了对底层理解能力的深入检验。PHYSICO的成功表明,通过精心设计的对比实验,我们可以更深入地了解AI系统的真实能力和局限性。

教育领域也可以从这项研究中获得启发。PHYSICO的设计理念体现了深度学习的重要性——不仅要让学生记住知识点,更要培养他们在不同情境中应用和迁移知识的能力。这种评估思路可以推广到人类教育中,帮助设计更有效的学习评估方法。

对于AI产业发展而言,这项研究提醒我们需要对当前AI技术的能力和局限性保持清醒的认识。在部署AI系统时,特别是在需要真正理解和推理的关键应用中,我们需要建立适当的保障措施和人工监督机制。

研究团队也指出了一些值得进一步探索的方向。例如,可以将PHYSICO的评估框架扩展到其他学科领域,如化学、生物学、数学等,以更全面地评估AI的概念理解能力。同时,也可以研究不同年龄段人类在这类任务中的表现,为AI的认知发展提供更多参考。

另一个有趣的研究方向是探索什么样的训练数据和方法能够真正提升AI的概念理解能力。虽然传统的监督学习在这类任务中效果有限,但可能存在其他的学习范式,如强化学习、自监督学习或元学习,能够帮助AI模型获得更深层的理解能力。

说到底,PHYSICO研究为我们揭开了AI"智能"表象下的真实面貌。这些看似聪明的AI助手,在很多情况下可能只是高度精密的"复读机",能够流利地重复训练数据中的内容,却无法真正理解其含义。这个发现既是对当前AI技术局限性的警醒,也是对未来AI研究的挑战和机遇。只有直面这些局限性,我们才能开发出真正智能、可靠的AI系统,让技术更好地服务于人类社会。

Q&A

Q1:PHYSICO任务具体是怎么测试AI模型理解能力的?

A:PHYSICO任务设计了一个"双重考试"来测试AI模型。低层次测试让模型用自然语言描述物理概念,就像传统的文字题;高层次测试则让模型从抽象的彩色网格图案中识别物理概念,就像看图识概念。通过对比同一模型在这两类任务上的表现差异,就能判断模型是真正理解概念还是只会"背书"。

Q2:为什么AI模型在自然语言任务中表现完美,在抽象图案任务中却很差?

A:这正是"随机鹦鹉"现象的体现。AI模型在训练中见过大量自然语言描述的物理概念,所以能够很好地重复和重组这些内容,准确率达到95%以上。但面对抽象网格图案时,模型缺乏真正的概念理解,无法识别出相同概念的不同表现形式,准确率只有25-45%,远低于人类的90%。

Q3:这项研究对AI技术发展有什么重要意义?

A:这项研究首次用严格的实验证明了AI模型存在"随机鹦鹉"现象,揭示了当前AI技术的根本局限。研究表明,仅仅增大模型规模或训练数据无法解决真正的理解问题,需要在AI架构和训练方法上进行根本性创新。这对AI在医疗、自动驾驶等关键领域的安全应用具有重要警示意义。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-