微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

独立研究者揭开AI物理评测的三大"暗坑"：你以为的高分，可能只是幻觉

人工智能强化学习数据审计

独立研究者揭开AI物理评测的三大"暗坑"：你以为的高分，可能只是幻觉

作者：科技行者

2026-05-27 11:45

分享至：

这项独立研究发表于2026年5月（arXiv:2605.14040），揭示了AI物理评测中的数据污染、翻译失真和格式饱和三大问题，并构建了审计工具和新型评测集，训练的Physics-R1模型在开放题上超越同规模基线。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-27 11:45 • 科技行者

这项由独立研究者发表的预印本论文于2026年5月13日上传至arXiv，编号为arXiv:2605.14040v1，归类于计算机科学·计算与语言（cs.CL）方向。有兴趣深入阅读原文的读者可通过上述编号在arXiv平台查询完整内容。

当AI模型在物理考试中拿了高分，我们真的应该相信这个成绩吗？这篇论文的答案是：不一定。一位独立研究者花了大量时间，像一名专业审计员一样，把整个AI物理推理评测的流程从头到尾检查了一遍，结果发现了三个长期被忽视、却实实在在扭曲了评测结果的问题。更重要的是，他不光找到了问题，还亲手造了四套工具来弥补这些漏洞，并训练了一个名为Physics-R1的模型来验证这些工具的实际价值。

**一、先搞清楚"考试系统"是怎么运作的**

要理解这项研究，得先了解一件事：AI模型是怎么被测试物理能力的。大体上，研究人员会先收集一批物理题目作为"训练数据"，让AI在这些题目上学习；然后再用另一批题目作为"考试题"，测验AI的真实水平。这和人类备考的逻辑完全一样——你不能用考试原题来练习，否则成绩没有参考价值。

然而，现实中这套系统出现了裂缝。研究者把问题归结为三类：训练题和考试题之间悄悄"串通"了（专业说法叫"训练-评测数据污染"）；考试题被翻译成英文之后，题意发生了微妙的偏差；以及现有的考试题格式太简单，顶尖AI早已"卷"到了天花板，根本区分不出强弱。这三个问题叠加在一起，导致我们对AI物理能力的判断，很可能一直是失真的。

**二、第一个暗坑：考试题早已被"剧透"**

研究者首先着手调查的，是训练数据和评测数据之间是否存在重叠。这个问题本来有一个看起来很合理的检测方法——"五字组相似度"（5-gram Jaccard），简单说就是：把两道题的文字打碎成五个字一组的片段，看这些片段有多少是一样的。如果重叠率超过40%，就认为这道题可能被"剧透"了。

这个方法对完全照抄的情况很有效，但面对换了几个词、改了几个数字的"改头换面版"就完全失灵了。研究者对三个主流训练数据集（UGPhysics-Train、SciInstruct、MMK12）做了这个检测，结果是零命中——看起来训练数据和六套公开评测题之间没有任何重叠，干干净净。

但研究者没有就此停手。他引入了第二道检测：用一个叫做mxbai-embed-large的语义嵌入模型，把每道题转换成一个数学向量，然后计算向量之间的"余弦相似度"——这个方法能发现那些意思相同但说法不同的题目对。结果，SciInstruct这个训练集里一下子冒出了4846对"可疑题目组合"。

光发现"可疑"还不够，因为物理题里经常有相同主题但本质不同的题，比如同样讨论动量守恒，但具体情境完全不一样。研究者于是引入了第三道检测：让一个AI法官（Claude Haiku 4.5）逐对阅读这些可疑题目，判断它们是"实质相同的换皮题"还是"只是话题相近的不同题"。最终裁定：4846对里有134对是货真价实的重复题，其中部分题目在字义上完全不同，但实际上就是同一道题换了个说法。

这个发现的意义在于：一个余弦相似度超过0.95的题对，100%被判定为重复题；而余弦相似度在0.85到0.87之间的题对，只有1.5%是真正的重复。这说明单凭字面检测远远不够，必须要三道关卡联合使用才能把问题揪出来。研究者把这套流程打包成了一个开源工具audit_three_stage.py，任何人都可以拿去检查自己的数据集。

**三、第二个暗坑：翻译会"偷走"一部分题意**

第二个发现更有意思，涉及语言本身的问题。爱沙尼亚物理奥林匹克竞赛的题目最初是用爱沙尼亚语写的，后来被翻译成英语。研究者手头有59道题同时保留了爱沙尼亚语原版和英语译版，他用同一个模型（Claude Sonnet 4.5）分别作答两个版本，然后对比成绩。

结果出乎预料：做爱沙尼亚语原题时，模型答对了30.5%；做英语译题时，只答对了13.6%，足足差了17个百分点。这不是随机误差——研究者做了三种统计检验（符号检验、麦克尼马尔检验、配对自举置信区间），三种方法都指向同一个结论：这个差距在统计意义上是真实存在的，不是运气使然。

从逐题对照矩阵来看，有13道题是"爱沙尼亚语答对、英语答错"，只有3道题是反过来的。这种不对称性说明，对于Sonnet 4.5这个英语能力极强的模型来说，爱沙尼亚语原题反而更容易答对——原因可能是翻译过程中，物理术语的精确含义、语法格的指代关系以及问题的微妙限定条件，都在翻译中悄悄流失了一部分。

这个发现的实际意义是：当我们在英语版评测集上比较各个AI模型的成绩时，我们实际上是在比较它们对翻译版题目的理解能力，而非对原始物理问题的理解能力。对于英语训练数据丰富的模型，英语译版可能会系统性地低估它的真实能力；对于英语训练数据薄弱的模型，情况则可能相反。这意味着"谁的分高谁就更聪明"这个判断，可能因评测语言的选择而产生系统性偏差。

**四、第三个暗坑：考试太简单，高分都挤在一起**

第三个发现最直观。研究者在同一周用完全相同的Sonnet 4.5模型，在三套不同的物理评测集上测试，得到了三个截然不同的分数：PhyX（四选一选择题）79.7分，OlympiadBench-Physics（开放式解答）50.4分，他自己构建的PHYSOLYM-A（开放式解答，题目来源更新颖）33.4分。

模型没有变，只有考试形式和题目来源变了，分数却相差了46分。这46分的差距说明了什么？选择题格式本身就给了模型巨大的优势——哪怕对题目不太确定，也有25%的概率蒙对。更重要的是，当大量模型都能在选择题上得到70%以上的分数时，这张考卷就失去了区分能力——它无法告诉我们，70分的模型和80分的模型在真实物理推理上究竟谁更强。

这就像用小学数学题来区分大学生和研究生的数学能力——所有人都能得满分，成绩完全失去了参考价值。研究者把这个现象叫做"MCQ饱和"，即选择题（MCQ，Multiple Choice Question）格式已经被当前的顶尖模型"卷"到了天花板。

**五、为了解决这三个问题，研究者造了四套工具**

知道问题在哪还不够，研究者进一步动手造了四件东西来正面应对这些缺陷。

第一件是PHYSCORP-A，一个包含6432道题目的多模态物理训练数据集，全部经过三阶段审计，确认与六套公开评测集之间没有任何重复。这些题目来自九个不同来源，包括爱沙尼亚物理奥林匹克竞赛（418道题，附带官方难度标注1-10分）、Kevin Zhou的奥林匹克物理讲义（692道题，附版权授权）、七个国际物理竞赛（IPhO、NBPhO、EuPhO、APhO、USAPhO、INPhO、IYPT），以及OpenStax教材、Physics Stack Exchange等重新整理的来源。

第二件是PHYSR1CORP，从PHYSCORP-A中挑出的2268道"答案格式规整"的题目，专门用于强化学习训练。这些题目的答案要么是选择题字母，要么是数值，便于程序自动判断对错。

第三件是PHYSOLYM-A，500道来自奥林匹克竞赛的开放式解答题，专门用作评测集，且经过三阶段审计确认没有与训练数据重叠。其中99.8%的题目是全新题源（唯一一道例外是EuPhO 2020的一道题恰好也出现在OlympiadBench-Physics里，研究者选择如实披露而非悄悄删掉）。这套评测集还包含一个英语-爱沙尼亚语双语子集，以及官方难度标注，使得按难度分层分析成为可能。

第四件是Physics-R1本身——一个训练好的视觉语言模型，证明上述数据集确实"有用"、不是只是在自我欣赏。

**六、Physics-R1是怎么训练出来的**

Physics-R1的训练起点是一个叫Qwen3-VL-8B-Thinking的基础模型，这是阿里巴巴开源的一个能"思考"的视觉语言模型，参数规模是80亿。研究者采用的训练算法是GSPO加DAPO的组合——GSPO（群体序列策略优化）的核心思路是让模型同时回答同一道题16次，然后根据这16次回答的整体表现来调整模型，而不是逐字逐句地计算每个词的得分；DAPO则通过"解耦截断"技术让训练过程更稳定。

在训练过程中，研究者引入了一个难度筛选机制：如果某道题对当前模型来说太容易（16次都答对）或太难（16次都答错），就暂时跳过这道题。这个做法借鉴自MM-Eureka，道理很简单——太简单的题学不到新东西，太难的题只会产生无效噪音，最有学习价值的是那些"有时对有时错"的题目。

奖励信号的设计也有讲究。研究者比较了两种方案：简单的二元奖励（答对得1分，答错得0分）和复杂的五维奖励（在二元奖励的基础上，额外奖励答案格式规范、单位表达正确、包含分数形式的中间步骤、不违反能量守恒或动量守恒）。实验结果明确支持简单方案——二元奖励在所有开放式评测上都胜出，五维奖励只在选择题上略有优势。

这个结果背后有理论解释。在GSPO的群体归一化机制下，奖励信号的绝对大小并不重要，重要的是它能不能正确区分"对的回答"和"错的回答"。五维奖励的问题在于，它会给"格式漂亮但答案错误"的回答打出比"格式混乱但答案错误"更高的分——模型因此学会了"努力把错误包装得更好看"，而不是"努力把问题真正解决"。这就是所谓的"古德哈特陷阱"：当一个代理指标被当作目标来优化时，它就不再是好的代理指标了。从每组16次回答的数据来看，五维奖励改变了14.3%的组内排名，其中87%的翻转发生在"全组都答错"的情况下——正是这种情况最容易让模型走向格式代理。

**七、训练出来的模型，成绩究竟如何**

Physics-R1在三个随机种子（42、17、23）上各训练了一次，然后取平均成绩作为最终报告值。这是为了验证结果的稳定性——如果只跑一次，可能恰好走运或倒霉，三次平均则更可靠。

在选择题评测集PhyX上，基础模型得73.7分，Physics-R1提升到77.8分，提升了4.1分。这个提升不算惊人，因为这类题目对基础模型来说本来就不难。

真正的考验在开放式解答题上。在PhysReason（1200道步骤分级的物理推理题）上，基础模型得23.9分，Physics-R1提升到39.6分，提升了15.7分，还超过了参数规模是它四倍的Qwen3-VL-32B（只得25.1分）以及谷歌的Gemini 2.5 Pro（只得38.8分）。在OlympiadBench-Physics上，提升了6.9分，达到46.2分。

最关键的是PHYSOLYM-A这套全新的、没有被训练数据污染的评测集。基础模型在这里只得8.0分——这个低分恰好反映了它在真正未见过题目上的真实能力。Physics-R1把这个分数提升到了26.3分，提升了18.3分。这18.3分的提升是整个实验中最大的提升，也最能说明问题：这套新颖题目正是让"刷题技巧"失效的地方，模型在这里的进步，才是真实推理能力的进步。

作为对比，Claude Sonnet 4.5在PHYSOLYM-A上得33.4分，Physics-R1还落后7.1分。换句话说，训练出来的8B模型已经超过了GPT-4o（19.5分）和Gemini 2.5 Pro（12.2分），但距离Sonnet这个闭源顶尖模型还有一段距离——这个定位是诚实的。

研究者还手工检查了30道题，分析Physics-R1究竟在什么地方帮了基础模型的忙。发现主要是三类问题得到了修复：第一类是"推理过程全对，但最后没有给出明确的最终答案"，训练后模型学会了在箱号（\boxed{}）里规范地写出答案；第二类是"用量纲合法的走捷径"，比如凑出单位正确但物理错误的表达，训练后模型通过难度筛选机制减少了这类行为；第三类是"面对多张图片时只看第一张"，训练后模型开始整合多张图片的信息。

**八、难度真的有意义：从爱沙尼亚奥林匹克题的表现说起**

研究者特别强调了PHYSOLYM-A里爱沙尼亚题目的一个特殊价值：官方难度标注。全世界几乎没有其他物理奥林匹克竞赛像爱沙尼亚这样，给每道题都附上一个由出题人亲自标定的1-10难度分，而不是事后由AI猜测或人工回溯。

把Sonnet 4.5的正确率按难度分组后，可以看到一条近乎单调递减的曲线：难度1的题答对率是62.5%，难度2降到20%，难度3直接掉到0%，之后虽然有一些小波动，但难度6、8、10都是0%。这种分布有两层含义：第一，PHYSOLYM-A不是那种"顶尖模型一来就能刷满分"的饱和题库，它在高难度段有真实的区分力；第二，即便是最简单的爱沙尼亚奥林匹克题（难度1，62.5%正确率），也还没有达到Sonnet在PhyX选择题上的水平（79.7%），说明这套题的整体难度确实高于一般物理评测集。

**九、评测本身的诚实度：研究者披露了哪些局限**

这篇研究在诚实度上值得单独提一提。研究者没有把成绩包装得好看，而是主动披露了一系列局限和不确定性。

PHYSOLYM-A里有13.9%的题目是"无法判断"的——这些题目的参考答案是评分细则、管理说明或只有图片，没有可供对照的明确数值或表达式，因此无法用AI法官来判断对错。研究者没有把这些题目悄悄删掉，而是把这13.9%作为一个"已知噪声底限"如实公开。

在AI法官的可信度上，研究者同时用Sonnet 4.5和GPT-4o对50道题做了独立判分，结果发现两者88%的时候意见一致（Cohen's κ = 0.44，属于"中等一致"水平），但GPT-4o比Sonnet更宽松——Sonnet判"错"的有5道题被GPT-4o翻成了"对"，而Sonnet判"对"只有1道被GPT-4o翻成"错"。这意味着Sonnet作为法官是偏保守的，Physics-R1的真实成绩可能比报告的数字还要高一点，而不是被自我偏袒地抬高了。

在数据集的授权问题上，研究者也做了完整的书面授权追踪。Kevin Zhou的物理讲义通过邮件确认了CC BY-NC 4.0授权（邮件档案以SHA-256哈希值留存）；爱沙尼亚物理奥林匹克题目依据竞赛政策属于公开教育资源；其余国际竞赛题目同样遵循竞赛政策公开原则。每条记录都携带了它原始的授权信息，方便下游用户判断是否可以用于自己的项目。

说到底，这篇研究干了一件听起来不那么"耀眼"但其实极为重要的事：它没有提出一个革命性的新算法，而是把评测系统里长期存在的隐患用严格的数据和方法学论证——三阶段审计发现134对真实重复题、17分钟的翻译差距、46分的格式梯度——一一摆上台面，然后配套提供了解决方案。

对于普通读者来说，这项研究提醒了一件事：当你看到某个AI模型"在物理考试中得了高分"的新闻时，值得多问一句——这道考题之前它见过吗？考题是用原始语言出的吗？考题是选择题还是需要完整推导的开放题？这三个问题，可能会让那个高分看起来大不一样。如有兴趣深入了解，可通过arXiv编号2605.14040v1查阅原始论文，所有数据集和代码也已在HuggingFace和GitHub上公开发布。

---

Q&A

Q1：三阶段审计方法和普通的重复检测有什么区别？

A：普通的五字组相似度检测（5-gram Jaccard）只能发现几乎一字不差的复制题，遇到改了几个词或换了数字的"改头换面版"就会漏掉。三阶段审计在此基础上增加了语义嵌入相似度比对（能发现意思相同但表达不同的题对），再用AI法官逐对判断是真正重复还是只是话题相近。三者联合使用，才能在SciInstruct训练集里发现134对真实重复题——而单靠第一阶段检测，结果是零命中。

Q2：爱沙尼亚语原题比英语译题得分高，是因为Claude特别擅长爱沙尼亚语吗？

A：部分原因是Claude对爱沙尼亚语的掌握本来就不差，但更关键的是翻译本身造成了信息损失。爱沙尼亚语的格变化系统能精确表达动作发生的方向、参与者的角色等信息，翻译成英语时这些细节往往被简化或模糊，导致题目的物理条件在英语版里不够清晰。这个发现对弱势语言方向是反过来的：研究者预注册了一个跟进实验，预期对爱沙尼亚语训练数据稀少的开源模型，英语译题会比爱沙尼亚语原题得分更高。

Q3：Physics-R1训练中为什么选择二元奖励而不是包含单位、守恒律等物理信号的复杂奖励？

A：训练算法GSPO使用的是"组内归一化"机制——它只关心同一组16次回答里谁更好，而不关心绝对分值。复杂奖励的问题在于，它会给"格式漂亮但答案错误"的回答打高分，导致模型学会把错误包装得更好看，而不是把问题真正解决，这就是"古德哈特陷阱"。实验数据也支持这个判断：二元奖励在所有开放式题目上都比复杂奖励高出4到9分，只在选择题这种已近饱和的格式上略低0.3分。

人工智能强化学习数据审计

分享至