
这项由西北大学、加州大学圣克鲁兹分校、杜克大学、伯明翰大学、罗彻斯特大学等七所顶尖学府联合完成的突破性研究,于2026年2月发表在权威学术期刊上(论文编号:arXiv:2602.19517v1),首次用真正的大学课堂试卷来测试当今最强AI的实际能力。研究结果令人意外:即便是最新发布的Gemini-3.1-pro-preview这样的顶级AI模型,在面对真实的大学STEM(科学、技术、工程、数学)课程考试时,准确率也仅有59.69%,刚刚及格。
这就像是让一个号称"学霸"的学生去参加真正的期末考试,结果发现他只能拿到60分的及格分数。更有趣的是,研究团队深入分析了AI"考试失利"的原因,发现了一个出人意料的现象:这些AI其实具备解决单个问题步骤的能力,但在需要多步推理的复杂题目中,它们经常在中途"掉链子",无法保持推理的连续性和准确性。
这项研究的独特之处在于,它没有使用人工编造的测试题,而是直接采用了大学教授们在真实课堂中反复使用、经过时间检验的考试题目。研究团队从20多个STEM领域收集了449道题目,涵盖了物理、数学、工程、计算机科学、化学、生物等多个学科。为了确保评分的客观性,研究人员还开发了一套全新的"变量提取"评分系统,就像是给AI的答案做"成分分析",看它是否真正理解和解决了问题的核心。
更令人深思的是,研究团队通过精巧的实验设计发现,这些AI模型在推理过程中表现出了一种"效率不高"的特点:它们往往需要比人类专家更多的步骤来解决同一个问题,就像是绕了很多弯路才到达终点,这种冗余不仅降低了效率,还增加了在推理过程中出错的机会。
一、考场般严格:用真实大学试卷测试AI
传统的AI测试往往像是在实验室里进行的"模拟考试",题目都是研究人员专门设计的,虽然看起来很难,但和真实的学习环境还是有差距。这就好比一个学生平时只做模拟题,突然面对真正的期末考试时可能会不适应。
这次研究的创新之处就在于,研究团队决定让AI直接面对真正的"期末考试"。他们从各大学的公开课程资源中收集了449道题目,这些题目都有一个共同特点:它们都是大学教授在实际教学中反复使用的,经过了多年的课堂检验。换句话说,这些题目已经被无数学生"实战检验"过了,教授们也根据学生的反馈对题目进行了完善。
研究团队将这些题目分成了两大类:305道纯文字题目和144道需要看图表、电路图或几何图形的多模态题目。这样的分类就像是把考试分成了"填空题"和"看图作答题"两种类型。题目覆盖的学科范围极其广泛,从最基础的物理力学问题,到复杂的工程设计,再到高深的数学推导,应有尽有。
更重要的是,研究团队还邀请了17位拥有硕士以上学历的专家,对每一道题目进行了严格的审核。这些专家就像是"考试委员会",确保每道题目都有明确的标准答案,不会出现歧义或争议。他们总共投入了945个工作小时,相当于一个人全职工作半年的时间,足见这项工作的严谨程度。
为了让评分更加公正客观,研究团队还开发了一套独特的"变量提取"评分系统。传统的AI评测往往是把AI生成的长篇答案和标准答案进行对比,就像是比较两篇作文,很容易被华丽的词藻或者逻辑清晰的表述所迷惑,而忽略了答案是否真正正确。新的评分系统则像是"化学成分分析",专门提取答案中的关键变量和数值,然后与标准答案进行精确比对。
这种评分方法的优势在于,它能够有效避免"部分正确"的假象。比如,一个AI可能写出了一大段看起来很有道理的推理过程,但最终的关键数值却是错误的。传统评分方法可能会因为推理过程的"合理性"而给出较高分数,但新的评分系统会直接指出:关键答案错了,这题就是不对。
二、成绩单揭晓:顶级AI勉强及格
当研究团队公布测试结果时,连他们自己都有些意外。在参与测试的众多AI模型中,表现最好的是谷歌最新发布的Gemini-3.1-pro-preview,但即便是这个"尖子生",在综合考试中也只拿到了59.69%的分数。这个成绩放在大学里,基本上就是勉强及格的水平。
更有趣的是,当研究团队把成绩单按照"开源模型"和"商业模型"分类后,发现了一个明显的差距。商业模型普遍表现更好,这就像是私立学校的学生和公立学校学生的差异,虽然不绝对,但趋势是明显的。在开源模型中,表现最好的是Qwen3.5,得分为47.44%,虽然和顶尖商业模型还有差距,但在开源领域已经算是佼佼者了。
特别值得注意的是,当题目从纯文字变成需要看图解答时,所有AI的表现都出现了明显下滑。这种现象就像是一个擅长文科的学生突然要去考理科实验题,即便是最强的AI模型,在多模态题目上的表现也只能维持在48%左右的水平。这说明,让AI"看懂"图表、电路图或几何图形,然后进行推理,仍然是一个巨大的挑战。
研究团队发现了一个有趣的现象:AI模型在"变量准确率"和"题目准确率"之间存在明显差距。变量准确率是指AI能正确计算出多少个关键数值,而题目准确率则要求所有关键数值都必须正确。这就像是一道数学题有三个步骤,AI可能前两个步骤都做对了,但第三个步骤出错,导致整道题被判为错误。这种现象表明,AI在解决复杂问题时,经常是"功败垂成"。
当研究团队将文字题目和多模态题目的成绩进行综合统计后发现,即便是最强的AI模型,综合准确率也没有超过60%。这个结果对整个AI行业来说是一个重要的提醒:虽然AI在很多标准测试中表现出色,但在面对真实世界的复杂问题时,仍然有很大的提升空间。
三、解剖AI大脑:推理过程哪里出了问题
为了弄清楚AI为什么会"考砸",研究团队做了一件前所未有的事情:他们把专家的标准解题过程拆分成了一个个小步骤,就像是把一道复杂的菜谱分解成一个个具体的操作指令,然后测试AI在每个步骤上的表现能力。
这种分析方法就像是给AI做"认知体检"。研究团队想要回答三个关键问题:第一,AI是否具备解决单个步骤的基础能力?第二,AI在需要多步骤推理时是否会"掉链子"?第三,如果给AI提供一些中间步骤的正确答案,它能否更好地完成后续推理?
令人惊讶的是,当研究团队测试AI解决单个推理步骤的能力时,发现它们的表现相当不错,准确率通常能达到80%-90%。这就像是发现一个考试失利的学生其实具备了解决每个知识点的基础能力。那么问题出在哪里呢?
答案逐渐浮出水面。当研究团队测试AI进行多步骤推理时,发现了一个关键问题:AI在推理的中间环节经常会产生错误的中间结果,而这些错误会像滚雪球一样越滚越大,最终导致整个推理过程的崩塌。这就像是多米诺骨牌效应,一个环节的小错误会导致后续所有环节都出问题。
更有趣的发现是,当研究团队故意给AI提供一些正确的中间步骤答案时,AI的最终表现会显著提升。这个现象就像是给迷路的人提供了几个关键的路标,他们就能更容易地找到最终目的地。但问题在于,在真实的考试场景中,没有人会给AI提供这些"路标",它必须自己推导出正确的中间结果。
研究团队还发现了一个值得深思的现象:即便只给AI提供一个关键的中间步骤答案,其效果几乎等同于提供一长串的推理指导。这说明,真正制约AI推理能力的不是它不知道该怎么分解问题,而是它无法准确地计算出关键的中间结果。这就像是一个学生知道解题的大致思路,但在具体计算时经常出错。
四、效率问题:AI的"弯路"太多
除了准确性问题,研究团队还发现了AI推理过程中的另一个重要问题:效率低下。当他们比较AI生成的解题步骤和专家提供的标准解题步骤时,发现AI通常需要更多的步骤来解决同一个问题。
在文字题目中,AI平均需要12.20个步骤来解决问题,而专家只需要10.73个步骤。在多模态题目中,这个差距更加明显:AI需要13.86个步骤,专家只需要11.72个步骤。这种现象就像是两个人从同一个起点走到同一个终点,专家走的是直线距离,而AI走的是曲折的小路。
这种效率问题不仅仅是"多走几步路"那么简单。每多一个推理步骤,就意味着多一个出错的机会。就像是在搭积木,积木块越多,整个结构就越不稳定,倒塌的可能性也越大。AI的这种"啰嗦"的推理方式,实际上增加了自己犯错的风险。
研究团队通过对比不同难度题目的推理步骤发现,这种效率问题在中等难度的题目中最为明显。简单题目由于步骤本身就不多,效率差距不大。而在极难的题目中,即便是专家也需要很多步骤,所以差距相对较小。但在中等难度的题目中,专家和AI的推理路径差异最为突出,这正是大多数实际应用场景中遇到的题目类型。
五、深层次启示:AI推理的瓶颈在哪里
通过这次大规模的"AI期末考试",研究团队得出了三个重要的结论,这些结论不仅对AI研究领域具有重要意义,对于普通人理解AI的能力边界也很有帮助。
首先,AI的基础能力其实是够用的。当面对单个的、明确定义的问题时,AI通常能给出正确答案。这就像是一个学生具备了扎实的基础知识,单独考察任何一个知识点都能答对。问题不在于AI不懂基础概念,而在于它无法将这些基础能力有机地串联起来。
其次,AI在推理过程中最大的问题是无法准确地维护和传递中间状态。这个问题有点像是一个人在做多步计算时,经常忘记前面计算的结果,或者记错了中间的数值。当研究团队给AI提供正确的中间结果时,AI的表现会显著改善,这说明问题的关键在于中间环节的准确性,而不是最终的推理能力。
第三,AI当前的推理方式还不够优雅和高效。就像是一个初学者解题时会写很多冗余的步骤,而专家则能直击要害,用最少的步骤解决问题。AI的这种"笨拙"不仅影响效率,更重要的是增加了出错的概率。
这些发现对AI技术的发展方向提供了重要指导。未来的AI系统可能需要更多地关注如何准确地维护推理过程中的中间状态,以及如何学习更加简洁高效的推理路径。这就像是培养学生不仅要掌握知识点,更要学会优雅地运用这些知识解决复杂问题。
说到底,这项研究揭示了一个重要事实:虽然AI在很多标准化测试中表现出色,但在面对真实世界的复杂问题时,仍然存在明显的局限性。这并不意味着AI技术不够先进,而是提醒我们,AI的能力边界和人类认知还有很大差异。对于普通用户来说,了解这些局限性有助于更好地使用AI工具,既不过度依赖,也不低估其价值。
这项研究也为AI技术的未来发展指出了明确的方向:不仅要提升AI在单一任务上的表现,更要关注AI在复杂、多步骤推理任务中的稳定性和效率。只有解决了这些根本性问题,AI才能真正成为人类在各个领域的可靠助手。感兴趣的读者可以通过论文编号arXiv:2602.19517v1查找完整的研究报告,深入了解这项开创性工作的更多细节。
Q&A
Q1:CFE-BENCH是什么?
A:CFE-BENCH是由西北大学等七所顶尖学府联合开发的AI测试基准,它收集了449道真实的大学STEM课程考试题目,用来测试AI在真实学术环境中的推理能力,而不是使用人工编造的测试题。
Q2:为什么顶级AI在CFE-BENCH上只能拿60分?
A:研究发现AI虽然具备解决单个问题步骤的能力,但在多步推理过程中经常在中间环节出错,这些错误会累积并影响最终答案。同时,AI的推理路径比专家更冗长,增加了出错概率。
Q3:这个研究对普通人使用AI有什么启示?
A:这项研究提醒我们AI在处理复杂、需要多步推理的任务时仍有局限性,普通用户应该了解AI的能力边界,在使用时既不过度依赖,也要充分发挥其在单一任务上的优势。
好文章,需要你的鼓励
南华科技大学等顶尖院校联合发布的对角蒸馏技术实现了AI视频生成的重大突破,通过"前重后轻"的智能资源分配策略,在保持高质量的同时将生成速度提升277倍。该技术能在2.61秒内生成5秒视频,达到每秒31帧的流畅效果,有效解决了长视频生成中的质量衰减问题,为视频制作、教育内容创作等领域的实用化应用铺平了道路。
KRAFTON与KAIST联合研究揭示,当前最先进的AI视觉模型在识别图像间微妙差异方面存在显著不足。研究团队开发的VLM-SubtleBench测试平台显示,即使最好的AI模型准确率也仅有77.8%,远低于人类的95.5%。这一发现对医疗诊断、工业质检等需要精细视觉判断的关键应用领域具有重要警示意义。
南开大学联合字节跳动、清华大学团队发布视频理解新突破ASID-1M,创建包含100万精细化描述的数据集,将视频内容分解为八个详细属性。采用三阶段渐进训练法,让AI从单属性理解逐步发展到复杂长视频分析。在七项基准测试中表现优异,小规模模型性能可媲美大型商业系统,为视频内容创作、教育培训、娱乐媒体等领域提供强大技术支撑。
这项Google DeepMind的研究提出了"智能委托"框架,让AI助手学会像优秀项目经理一样分析任务、选择合作伙伴、监控进度和应对变化。通过建立信任体系和多重安全防护,该框架能够协调多个AI和人类专家高效协作,在个人助手、企业管理、科研合作等领域展现巨大应用潜力,代表了AI从被动工具向主动协作伙伴的重要转变。