
这项由独立研究者发表的预印本论文于2026年5月13日上传至arXiv,编号为arXiv:2605.14040v1,归类于计算机科学·计算与语言(cs.CL)方向。有兴趣深入阅读原文的读者可通过上述编号在arXiv平台查询完整内容。
当AI模型在物理考试中拿了高分,我们真的应该相信这个成绩吗?这篇论文的答案是:不一定。一位独立研究者花了大量时间,像一名专业审计员一样,把整个AI物理推理评测的流程从头到尾检查了一遍,结果发现了三个长期被忽视、却实实在在扭曲了评测结果的问题。更重要的是,他不光找到了问题,还亲手造了四套工具来弥补这些漏洞,并训练了一个名为Physics-R1的模型来验证这些工具的实际价值。
**一、先搞清楚"考试系统"是怎么运作的**
要理解这项研究,得先了解一件事:AI模型是怎么被测试物理能力的。大体上,研究人员会先收集一批物理题目作为"训练数据",让AI在这些题目上学习;然后再用另一批题目作为"考试题",测验AI的真实水平。这和人类备考的逻辑完全一样——你不能用考试原题来练习,否则成绩没有参考价值。
然而,现实中这套系统出现了裂缝。研究者把问题归结为三类:训练题和考试题之间悄悄"串通"了(专业说法叫"训练-评测数据污染");考试题被翻译成英文之后,题意发生了微妙的偏差;以及现有的考试题格式太简单,顶尖AI早已"卷"到了天花板,根本区分不出强弱。这三个问题叠加在一起,导致我们对AI物理能力的判断,很可能一直是失真的。
**二、第一个暗坑:考试题早已被"剧透"**
研究者首先着手调查的,是训练数据和评测数据之间是否存在重叠。这个问题本来有一个看起来很合理的检测方法——"五字组相似度"(5-gram Jaccard),简单说就是:把两道题的文字打碎成五个字一组的片段,看这些片段有多少是一样的。如果重叠率超过40%,就认为这道题可能被"剧透"了。
这个方法对完全照抄的情况很有效,但面对换了几个词、改了几个数字的"改头换面版"就完全失灵了。研究者对三个主流训练数据集(UGPhysics-Train、SciInstruct、MMK12)做了这个检测,结果是零命中——看起来训练数据和六套公开评测题之间没有任何重叠,干干净净。
但研究者没有就此停手。他引入了第二道检测:用一个叫做mxbai-embed-large的语义嵌入模型,把每道题转换成一个数学向量,然后计算向量之间的"余弦相似度"——这个方法能发现那些意思相同但说法不同的题目对。结果,SciInstruct这个训练集里一下子冒出了4846对"可疑题目组合"。
光发现"可疑"还不够,因为物理题里经常有相同主题但本质不同的题,比如同样讨论动量守恒,但具体情境完全不一样。研究者于是引入了第三道检测:让一个AI法官(Claude Haiku 4.5)逐对阅读这些可疑题目,判断它们是"实质相同的换皮题"还是"只是话题相近的不同题"。最终裁定:4846对里有134对是货真价实的重复题,其中部分题目在字义上完全不同,但实际上就是同一道题换了个说法。
这个发现的意义在于:一个余弦相似度超过0.95的题对,100%被判定为重复题;而余弦相似度在0.85到0.87之间的题对,只有1.5%是真正的重复。这说明单凭字面检测远远不够,必须要三道关卡联合使用才能把问题揪出来。研究者把这套流程打包成了一个开源工具audit_three_stage.py,任何人都可以拿去检查自己的数据集。
**三、第二个暗坑:翻译会"偷走"一部分题意**
第二个发现更有意思,涉及语言本身的问题。爱沙尼亚物理奥林匹克竞赛的题目最初是用爱沙尼亚语写的,后来被翻译成英语。研究者手头有59道题同时保留了爱沙尼亚语原版和英语译版,他用同一个模型(Claude Sonnet 4.5)分别作答两个版本,然后对比成绩。
结果出乎预料:做爱沙尼亚语原题时,模型答对了30.5%;做英语译题时,只答对了13.6%,足足差了17个百分点。这不是随机误差——研究者做了三种统计检验(符号检验、麦克尼马尔检验、配对自举置信区间),三种方法都指向同一个结论:这个差距在统计意义上是真实存在的,不是运气使然。
从逐题对照矩阵来看,有13道题是"爱沙尼亚语答对、英语答错",只有3道题是反过来的。这种不对称性说明,对于Sonnet 4.5这个英语能力极强的模型来说,爱沙尼亚语原题反而更容易答对——原因可能是翻译过程中,物理术语的精确含义、语法格的指代关系以及问题的微妙限定条件,都在翻译中悄悄流失了一部分。
这个发现的实际意义是:当我们在英语版评测集上比较各个AI模型的成绩时,我们实际上是在比较它们对翻译版题目的理解能力,而非对原始物理问题的理解能力。对于英语训练数据丰富的模型,英语译版可能会系统性地低估它的真实能力;对于英语训练数据薄弱的模型,情况则可能相反。这意味着"谁的分高谁就更聪明"这个判断,可能因评测语言的选择而产生系统性偏差。
**四、第三个暗坑:考试太简单,高分都挤在一起**
第三个发现最直观。研究者在同一周用完全相同的Sonnet 4.5模型,在三套不同的物理评测集上测试,得到了三个截然不同的分数:PhyX(四选一选择题)79.7分,OlympiadBench-Physics(开放式解答)50.4分,他自己构建的PHYSOLYM-A(开放式解答,题目来源更新颖)33.4分。
模型没有变,只有考试形式和题目来源变了,分数却相差了46分。这46分的差距说明了什么?选择题格式本身就给了模型巨大的优势——哪怕对题目不太确定,也有25%的概率蒙对。更重要的是,当大量模型都能在选择题上得到70%以上的分数时,这张考卷就失去了区分能力——它无法告诉我们,70分的模型和80分的模型在真实物理推理上究竟谁更强。
这就像用小学数学题来区分大学生和研究生的数学能力——所有人都能得满分,成绩完全失去了参考价值。研究者把这个现象叫做"MCQ饱和",即选择题(MCQ,Multiple Choice Question)格式已经被当前的顶尖模型"卷"到了天花板。
**五、为了解决这三个问题,研究者造了四套工具**
知道问题在哪还不够,研究者进一步动手造了四件东西来正面应对这些缺陷。
第一件是PHYSCORP-A,一个包含6432道题目的多模态物理训练数据集,全部经过三阶段审计,确认与六套公开评测集之间没有任何重复。这些题目来自九个不同来源,包括爱沙尼亚物理奥林匹克竞赛(418道题,附带官方难度标注1-10分)、Kevin Zhou的奥林匹克物理讲义(692道题,附版权授权)、七个国际物理竞赛(IPhO、NBPhO、EuPhO、APhO、USAPhO、INPhO、IYPT),以及OpenStax教材、Physics Stack Exchange等重新整理的来源。
第二件是PHYSR1CORP,从PHYSCORP-A中挑出的2268道"答案格式规整"的题目,专门用于强化学习训练。这些题目的答案要么是选择题字母,要么是数值,便于程序自动判断对错。
第三件是PHYSOLYM-A,500道来自奥林匹克竞赛的开放式解答题,专门用作评测集,且经过三阶段审计确认没有与训练数据重叠。其中99.8%的题目是全新题源(唯一一道例外是EuPhO 2020的一道题恰好也出现在OlympiadBench-Physics里,研究者选择如实披露而非悄悄删掉)。这套评测集还包含一个英语-爱沙尼亚语双语子集,以及官方难度标注,使得按难度分层分析成为可能。
第四件是Physics-R1本身——一个训练好的视觉语言模型,证明上述数据集确实"有用"、不是只是在自我欣赏。
**六、Physics-R1是怎么训练出来的**
Physics-R1的训练起点是一个叫Qwen3-VL-8B-Thinking的基础模型,这是阿里巴巴开源的一个能"思考"的视觉语言模型,参数规模是80亿。研究者采用的训练算法是GSPO加DAPO的组合——GSPO(群体序列策略优化)的核心思路是让模型同时回答同一道题16次,然后根据这16次回答的整体表现来调整模型,而不是逐字逐句地计算每个词的得分;DAPO则通过"解耦截断"技术让训练过程更稳定。
在训练过程中,研究者引入了一个难度筛选机制:如果某道题对当前模型来说太容易(16次都答对)或太难(16次都答错),就暂时跳过这道题。这个做法借鉴自MM-Eureka,道理很简单——太简单的题学不到新东西,太难的题只会产生无效噪音,最有学习价值的是那些"有时对有时错"的题目。
奖励信号的设计也有讲究。研究者比较了两种方案:简单的二元奖励(答对得1分,答错得0分)和复杂的五维奖励(在二元奖励的基础上,额外奖励答案格式规范、单位表达正确、包含分数形式的中间步骤、不违反能量守恒或动量守恒)。实验结果明确支持简单方案——二元奖励在所有开放式评测上都胜出,五维奖励只在选择题上略有优势。
这个结果背后有理论解释。在GSPO的群体归一化机制下,奖励信号的绝对大小并不重要,重要的是它能不能正确区分"对的回答"和"错的回答"。五维奖励的问题在于,它会给"格式漂亮但答案错误"的回答打出比"格式混乱但答案错误"更高的分——模型因此学会了"努力把错误包装得更好看",而不是"努力把问题真正解决"。这就是所谓的"古德哈特陷阱":当一个代理指标被当作目标来优化时,它就不再是好的代理指标了。从每组16次回答的数据来看,五维奖励改变了14.3%的组内排名,其中87%的翻转发生在"全组都答错"的情况下——正是这种情况最容易让模型走向格式代理。
**七、训练出来的模型,成绩究竟如何**
Physics-R1在三个随机种子(42、17、23)上各训练了一次,然后取平均成绩作为最终报告值。这是为了验证结果的稳定性——如果只跑一次,可能恰好走运或倒霉,三次平均则更可靠。
在选择题评测集PhyX上,基础模型得73.7分,Physics-R1提升到77.8分,提升了4.1分。这个提升不算惊人,因为这类题目对基础模型来说本来就不难。
真正的考验在开放式解答题上。在PhysReason(1200道步骤分级的物理推理题)上,基础模型得23.9分,Physics-R1提升到39.6分,提升了15.7分,还超过了参数规模是它四倍的Qwen3-VL-32B(只得25.1分)以及谷歌的Gemini 2.5 Pro(只得38.8分)。在OlympiadBench-Physics上,提升了6.9分,达到46.2分。
最关键的是PHYSOLYM-A这套全新的、没有被训练数据污染的评测集。基础模型在这里只得8.0分——这个低分恰好反映了它在真正未见过题目上的真实能力。Physics-R1把这个分数提升到了26.3分,提升了18.3分。这18.3分的提升是整个实验中最大的提升,也最能说明问题:这套新颖题目正是让"刷题技巧"失效的地方,模型在这里的进步,才是真实推理能力的进步。
作为对比,Claude Sonnet 4.5在PHYSOLYM-A上得33.4分,Physics-R1还落后7.1分。换句话说,训练出来的8B模型已经超过了GPT-4o(19.5分)和Gemini 2.5 Pro(12.2分),但距离Sonnet这个闭源顶尖模型还有一段距离——这个定位是诚实的。
研究者还手工检查了30道题,分析Physics-R1究竟在什么地方帮了基础模型的忙。发现主要是三类问题得到了修复:第一类是"推理过程全对,但最后没有给出明确的最终答案",训练后模型学会了在箱号(\boxed{})里规范地写出答案;第二类是"用量纲合法的走捷径",比如凑出单位正确但物理错误的表达,训练后模型通过难度筛选机制减少了这类行为;第三类是"面对多张图片时只看第一张",训练后模型开始整合多张图片的信息。
**八、难度真的有意义:从爱沙尼亚奥林匹克题的表现说起**
研究者特别强调了PHYSOLYM-A里爱沙尼亚题目的一个特殊价值:官方难度标注。全世界几乎没有其他物理奥林匹克竞赛像爱沙尼亚这样,给每道题都附上一个由出题人亲自标定的1-10难度分,而不是事后由AI猜测或人工回溯。
把Sonnet 4.5的正确率按难度分组后,可以看到一条近乎单调递减的曲线:难度1的题答对率是62.5%,难度2降到20%,难度3直接掉到0%,之后虽然有一些小波动,但难度6、8、10都是0%。这种分布有两层含义:第一,PHYSOLYM-A不是那种"顶尖模型一来就能刷满分"的饱和题库,它在高难度段有真实的区分力;第二,即便是最简单的爱沙尼亚奥林匹克题(难度1,62.5%正确率),也还没有达到Sonnet在PhyX选择题上的水平(79.7%),说明这套题的整体难度确实高于一般物理评测集。
**九、评测本身的诚实度:研究者披露了哪些局限**
这篇研究在诚实度上值得单独提一提。研究者没有把成绩包装得好看,而是主动披露了一系列局限和不确定性。
PHYSOLYM-A里有13.9%的题目是"无法判断"的——这些题目的参考答案是评分细则、管理说明或只有图片,没有可供对照的明确数值或表达式,因此无法用AI法官来判断对错。研究者没有把这些题目悄悄删掉,而是把这13.9%作为一个"已知噪声底限"如实公开。
在AI法官的可信度上,研究者同时用Sonnet 4.5和GPT-4o对50道题做了独立判分,结果发现两者88%的时候意见一致(Cohen's κ = 0.44,属于"中等一致"水平),但GPT-4o比Sonnet更宽松——Sonnet判"错"的有5道题被GPT-4o翻成了"对",而Sonnet判"对"只有1道被GPT-4o翻成"错"。这意味着Sonnet作为法官是偏保守的,Physics-R1的真实成绩可能比报告的数字还要高一点,而不是被自我偏袒地抬高了。
在数据集的授权问题上,研究者也做了完整的书面授权追踪。Kevin Zhou的物理讲义通过邮件确认了CC BY-NC 4.0授权(邮件档案以SHA-256哈希值留存);爱沙尼亚物理奥林匹克题目依据竞赛政策属于公开教育资源;其余国际竞赛题目同样遵循竞赛政策公开原则。每条记录都携带了它原始的授权信息,方便下游用户判断是否可以用于自己的项目。
说到底,这篇研究干了一件听起来不那么"耀眼"但其实极为重要的事:它没有提出一个革命性的新算法,而是把评测系统里长期存在的隐患用严格的数据和方法学论证——三阶段审计发现134对真实重复题、17分钟的翻译差距、46分的格式梯度——一一摆上台面,然后配套提供了解决方案。
对于普通读者来说,这项研究提醒了一件事:当你看到某个AI模型"在物理考试中得了高分"的新闻时,值得多问一句——这道考题之前它见过吗?考题是用原始语言出的吗?考题是选择题还是需要完整推导的开放题?这三个问题,可能会让那个高分看起来大不一样。如有兴趣深入了解,可通过arXiv编号2605.14040v1查阅原始论文,所有数据集和代码也已在HuggingFace和GitHub上公开发布。
---
Q&A
Q1:三阶段审计方法和普通的重复检测有什么区别?
A:普通的五字组相似度检测(5-gram Jaccard)只能发现几乎一字不差的复制题,遇到改了几个词或换了数字的"改头换面版"就会漏掉。三阶段审计在此基础上增加了语义嵌入相似度比对(能发现意思相同但表达不同的题对),再用AI法官逐对判断是真正重复还是只是话题相近。三者联合使用,才能在SciInstruct训练集里发现134对真实重复题——而单靠第一阶段检测,结果是零命中。
Q2:爱沙尼亚语原题比英语译题得分高,是因为Claude特别擅长爱沙尼亚语吗?
A:部分原因是Claude对爱沙尼亚语的掌握本来就不差,但更关键的是翻译本身造成了信息损失。爱沙尼亚语的格变化系统能精确表达动作发生的方向、参与者的角色等信息,翻译成英语时这些细节往往被简化或模糊,导致题目的物理条件在英语版里不够清晰。这个发现对弱势语言方向是反过来的:研究者预注册了一个跟进实验,预期对爱沙尼亚语训练数据稀少的开源模型,英语译题会比爱沙尼亚语原题得分更高。
Q3:Physics-R1训练中为什么选择二元奖励而不是包含单位、守恒律等物理信号的复杂奖励?
A:训练算法GSPO使用的是"组内归一化"机制——它只关心同一组16次回答里谁更好,而不关心绝对分值。复杂奖励的问题在于,它会给"格式漂亮但答案错误"的回答打高分,导致模型学会把错误包装得更好看,而不是把问题真正解决,这就是"古德哈特陷阱"。实验数据也支持这个判断:二元奖励在所有开放式题目上都比复杂奖励高出4到9分,只在选择题这种已近饱和的格式上略低0.3分。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。