这项令人瞩目的研究由来自美国AI安全中心、斯坦福大学、Scale AI等全球顶尖机构的近千名研究者共同完成,论文于2025年4月发表,题目为《Humanity's Last Exam》。有兴趣深入了解的读者可以通过https://lastexam.ai访问完整的研究内容和数据集。
想象一下这样的场景:你正在参加一场史上最难的考试,考题涵盖了数学、物理、化学、生物学、哲学、法律等几十个学科的最前沿问题,而且每一道题都需要研究生甚至博士级别的知识才能解答。现在,世界上最先进的AI系统也要坐下来参加同样的考试。结果会如何呢?答案可能会让你大吃一惊。
这场"人类最后的考试"并不是为了刁难AI,而是为了准确测量当今最强AI系统的真实能力边界。就像医生需要精确的体温计来诊断病情一样,AI研究人员也需要一个可靠的"温度计"来测量AI智能水平。然而,现有的AI测试基准已经变得过于简单了。原本被认为极具挑战性的MMLU等测试,现在对顶级AI系统来说就像小学数学题一样简单,准确率超过90%。这就好比用小学试卷去测试大学生的学习能力,显然无法得到有意义的结果。
正是在这种背景下,研究团队决定创造一个真正能够挑战AI极限的测试基准。他们把这个项目称为"人类最后的考试",寓意这可能是AI在闭合式学术问题上需要通过的最后一道门槛。一旦AI能够在这样的考试中表现出色,就意味着它们在封闭式学术问题上已经达到了人类专家的水平。
这项研究的创新之处在于,它不是由少数研究者闭门造车制作的,而是汇集了来自全球50个国家、500多个机构的近1000名学科专家的智慧。这些专家大多是教授、研究员或拥有高级学位的专业人士,他们像众包协作一样,每人贡献自己专业领域内最具挑战性的问题。最终形成的数据集包含2500道题目,覆盖了人类知识的方方面面。
更重要的是,这些题目都经过了严格的筛选过程。每道题在被收录之前,都必须先"击败"当前最先进的AI系统。换句话说,只有那些能让GPT-4、Claude等顶级AI模型"摸不着头脑"的题目,才有资格进入最终的考试题库。这就像是为AI量身定制的"地狱模式"考试。
一、AI遇上学霸级难题:结果让人意外
当研究团队让当今最强的AI系统参加这场"史上最难考试"时,结果确实令人惊讶。即便是被誉为最强大的AI模型,它们的表现也可以用"惨不忍睹"来形容。
具体来看,GPT-4o这个被认为是目前最强大的通用AI模型之一,在这场考试中的准确率只有2.7%。这意味着,在100道题中,它只能答对不到3道。Grok 2的表现稍好一些,但也只有3.0%。Claude 3.5 Sonnet达到了4.1%,Gemini 1.5 Pro为4.6%。
即便是专门为复杂推理设计的"推理模型",表现也好不到哪里去。OpenAI的o1模型达到了8.0%,DeepSeek的R1模型为8.5%,而最新的o3-mini模型虽然在高计算模式下达到了13.4%,但这也意味着它在86.6%的题目上仍然无能为力。
这种表现水平相当于什么概念呢?可以这样理解:如果把这场考试比作攀登珠穆朗玛峰,那么现在最强的AI系统还停留在山脚下的大本营附近。它们确实比普通人走得更远一些,但距离登顶还有非常遥远的距离。
更令人担忧的是AI系统在回答这些问题时表现出的"盲目自信"。研究团队发现,即使在完全不知道答案的情况下,AI系统仍然会以很高的置信度给出错误答案。这就像一个学生在考试中遇到完全不会的题目,但仍然信心满满地写下答案,甚至还对自己的答案很有把握。
在测量AI系统的"校准误差"时,研究人员发现所有模型的校准误差都超过了70%。校准误差是什么意思呢?简单来说,就是AI系统说自己有80%把握答对一道题,但实际上它只有20%的真实准确率。这种现象在AI研究中被称为"幻觉"或"虚假自信",是当前AI系统面临的一个严重问题。
这些发现揭示了一个重要事实:尽管AI系统在许多常见任务上表现出色,甚至超越人类,但在面对真正需要深度专业知识和复杂推理的问题时,它们仍然存在巨大的能力缺口。这就好比一个人可能在日常对话中表现得很聪明,但一旦面对专业的学术问题,就会露出知识的局限性。
二、史上最严格的AI考试是如何诞生的
创造这样一场"史上最难AI考试"并不是一件简单的事情。研究团队采用了一个极其严格和创新的方法来确保每道题目的质量和挑战性。整个过程就像是为AI量身定制一场"地狱级"考试,每一个环节都经过精心设计。
首先,题目的来源本身就不同寻常。与传统的学术测试不同,这些题目不是从现有的教科书或考试题库中选取的,而是由全球近1000名学科专家原创提交的。这些专家来自50个国家的500多个机构,其中大多数都是拥有博士学位的教授、研究员或在各自领域有深厚造诣的专业人士。他们被要求在自己最擅长的领域内,设计出能够难倒当前最强AI系统的题目。
每个题目的提交都需要满足极其严格的标准。题目必须是原创的,不能通过简单的网络搜索找到现成答案。题目必须有明确、无歧义的标准答案,这样才能进行客观评判。题目需要具备研究生甚至博士级别的难度,或者涉及高度专业化的知识点。题目还必须能够被准确验证,并附带详细的解答说明。
更关键的是,每道题目在正式被收录之前,都必须通过一个被研究团队称为"AI难度检查"的环节。具体来说,题目会被送给当前最强的多个AI系统进行测试,包括GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet和OpenAI的o1等。对于精确匹配类型的题目,所有AI系统都必须答错才能通过筛选。对于选择题,AI系统的平均表现必须不超过随机猜测的水平。只有通过这道"AI关卡"的题目,才有资格进入下一轮人工审核。
人工审核过程同样严格细致。研究团队建立了两轮审核制度。第一轮由多名研究生级别的同行专家进行评分和反馈,每道题目都会收到1到3次详细的专业评审。评审者会从题目的原创性、难度、准确性、表述清晰度等多个维度进行评估,并提供具体的修改建议。通过第一轮筛选的题目会进入第二轮,由经验丰富的组织者和高级审核员进行最终评估和批准。
这种多重筛选机制确保了最终题库的极高质量。据统计,整个收集过程中产生了超过7万次AI测试记录,约1.3万道题目通过了初步的AI难度检查,但最终只有2500道题目成功入选最终的测试数据集。这个筛选比例相当于千里挑一,确保了每道题目都具备真正的挑战性。
题目的形式也经过精心设计,包括两种主要类型:精确匹配题和选择题。精确匹配题要求给出完全准确的答案,比如一个具体的数值或专有名词。选择题则提供多个选项供选择。约14%的题目还包含图像内容,测试AI系统的多模态理解能力。
为了进一步保证题目质量,研究团队在正式发布数据集后,还开展了社区反馈计划和专业审计活动。他们招募顶尖大学的学生对题目进行全面解答验证,并建立了错误报告机制,及时发现和修正可能存在的问题。
通过这样一个极其严格的创建过程,研究团队最终构建出了一个真正具有挑战性的AI测试基准。这个基准不仅在技术上具有创新性,在方法论上也为未来的AI评估研究提供了宝贵的经验。
三、AI在不同学科的表现:数学依然是最大挑战
当AI系统面对涵盖十几个学科领域的专家级问题时,它们在不同领域的表现差异颇为有趣。这种差异就像是观察一个全才学生参加各科考试时的强弱分布,能够揭示AI系统在知识结构和推理能力方面的特点。
数学依然是AI系统面临的最大挑战。这个结果或许让很多人感到意外,因为在普通人的认知中,计算机最擅长的应该就是数学计算。然而,这里的数学题并不是简单的四则运算,而是需要深度数学洞察力的高级问题。这些题目涉及高等代数、拓扑学、数论、微分几何等前沿数学分支,需要的不仅仅是计算能力,更需要数学直觉和创新思维。
举个例子来说明这种差异:普通的数学计算就像是按照食谱做菜,每个步骤都很明确,只要按部就班就能得到结果。而高级数学问题更像是要求厨师在没有食谱的情况下,用有限的食材创造出一道全新的美味佳肴。这需要的不仅是烹饪技巧,更需要创意、直觉和对食材特性的深度理解。
在生物医学领域,AI系统的表现相对较好一些。这可能是因为生物医学知识更多依赖于事实记忆和模式识别,而这正是当前AI系统的优势所在。但即便如此,顶级AI系统在这个领域的准确率也只有10%左右,这说明即使是相对"简单"的领域,专家级的问题仍然对AI构成巨大挑战。
物理学题目的表现介于数学和生物学之间。物理问题通常需要将抽象概念与现实世界联系起来,需要良好的空间想象能力和物理直觉。对于AI系统来说,理解物理现象背后的本质规律比简单记忆物理公式要困难得多。
令人意外的是,在人文社科领域,AI系统的表现并没有明显优于理工科。尽管这些问题看起来更"文科化",似乎更适合基于语言模型的AI系统,但专家级的人文问题同样需要深度的批判思维、历史洞察力和文化理解力,这些都是当前AI系统的薄弱环节。
计算机科学和人工智能领域的题目表现也值得关注。有趣的是,即使是在自己的"老本行",AI系统也没有表现出明显的优势。这些题目涉及算法复杂度分析、计算理论、系统设计等深度技术问题,需要的不仅是对编程语言的熟悉,更需要对计算本质的理解。
化学和工程学科的表现大致相当,都处于较低水平。这些领域的问题往往需要将理论知识与实际应用相结合,需要对复杂系统的整体把握和细节控制,这对AI系统来说是个不小的挑战。
值得注意的是,即使是表现最好的推理模型o3-mini,在各个学科的表现也都没有超过20%。这意味着即使在AI"相对擅长"的领域,它们仍然有80%以上的题目无法正确回答。这种全面性的困难表明,达到专家级学术能力需要的不仅仅是在某个特定领域的深度,更需要跨领域的知识整合能力和灵活的问题解决策略。
这些发现对AI发展的启示是深刻的。它们表明,尽管AI系统在许多标准化测试上表现出色,但在面对需要真正专业洞察力的问题时,它们与人类专家之间仍然存在巨大的差距。这种差距不仅仅是知识量的差异,更是认知方式和思维深度的根本性不同。
四、推理模型的计算成本:智能提升的代价
当研究团队深入分析那些表现相对较好的"推理模型"时,发现了一个引人深思的现象:这些AI系统为了获得略微提升的准确率,付出了极其昂贵的计算代价。这就好比为了让汽车多跑几公里,却需要消耗几倍的燃油,这种"智能提升"的经济性值得深入思考。
推理模型与传统AI模型的最大区别在于,它们在给出最终答案之前会进行大量的"内部思考"。这个过程类似于一个人在解决复杂问题时会在心里默默推演各种可能性,权衡不同方案的优劣,最后才给出答案。从技术角度来说,这意味着模型需要生成大量的中间推理过程,然后再基于这些推理得出最终结论。
具体数据显示,这种"深度思考"的代价是惊人的。以Gemini 2.0 Flash Thinking为例,它在回答数学问题时平均需要生成超过8000个token(可以理解为单词或符号),而传统模型可能只需要几百个token就能给出答案。OpenAI的o1和DeepSeek的R1模型同样需要生成数千个token的推理过程。
这种计算成本的激增在不同学科间存在有趣的差异。数学问题往往需要最长的推理过程,因为复杂的数学证明需要多个步骤的逻辑推演。生物医学问题的推理长度相对较短,可能是因为这类问题更多依赖事实知识而非复杂推理。物理和化学问题的推理长度介于两者之间,反映了这些学科既需要事实知识又需要逻辑推演的特点。
从经济角度来看,这种计算成本的增加是非常显著的。如果把计算资源比作电费,那么使用推理模型就像是开着大功率的电器,虽然效果可能稍好一些,但电费账单会让人心疼不已。对于实际应用来说,这意味着使用推理模型的成本可能是传统模型的5到10倍。
更重要的是,这种巨大的计算投入换来的性能提升相对有限。即使是表现最好的o3-mini模型,也只是将准确率从个位数提升到了13.4%。这意味着,即使付出了几倍的计算成本,AI系统仍然有86.6%的题目无法正确回答。这种投入产出比引发了对AI发展方向的深层思考。
这个现象暴露了当前AI技术发展中的一个重要矛盾:为了获得边际性的智能提升,需要付出指数级增长的计算资源。这就像是爬山,越接近山顶,每向上迈进一步都变得愈发困难和昂贵。这种规律被称为"收益递减规律",在AI发展中表现得尤为明显。
从另一个角度来看,这也揭示了人类智能的高效性。人类专家在解决复杂问题时,虽然也需要深度思考,但这种思考过程是高度优化和结构化的。人类不需要像AI那样穷举所有可能性,而是能够基于经验和直觉快速锁定关键问题,这种效率是当前AI系统远远无法企及的。
这些发现对AI产业的发展具有重要指导意义。它们提醒我们,单纯增加计算资源并不是提升AI智能的可持续路径。未来的AI发展需要在算法创新、架构优化和效率提升方面投入更多努力,而不是简单地通过"暴力计算"来解决问题。这就像是汽车工业从追求马力转向追求燃油效率一样,AI产业也需要从追求原始计算能力转向追求智能效率。
五、AI的"虚假自信"问题:不知道自己不知道
在分析AI系统的表现时,研究团队发现了一个特别令人担忧的现象:这些AI系统在面对完全不会的问题时,仍然表现出极高的自信心。这就像是一个学生在考试中遇到完全陌生的题目,但仍然信心满满地写下答案,甚至还坚信自己的答案是正确的。这种现象在AI研究中被称为"校准误差"或"虚假自信",是当前AI技术面临的一个严重挑战。
为了更好地理解这个问题,我们可以用一个日常生活的例子来类比。假设你问一个朋友:"明天会下雨吗?"如果这个朋友对天气预报一无所知,一个理性的回应应该是:"我不知道,我没有看天气预报。"但如果这个朋友总是信心满满地给出答案,比如"我有80%的把握明天会下雨",而实际上他的预测准确率只有20%,那么这个朋友就存在严重的"虚假自信"问题。
AI系统的校准误差正是如此。研究数据显示,所有测试的AI模型都存在超过70%的校准误差。具体来说,当AI系统声称自己对答案有80%把握时,实际上它可能只有30%的真实准确率。这种巨大的差距揭示了AI系统对自身能力边界认知的严重不足。
这种"虚假自信"的危害是多方面的。首先,它会误导用户对AI能力的判断。如果用户看到AI系统信心满满地给出答案,很容易被这种表面的确定性所迷惑,从而对错误答案产生不必要的信任。这就像是相信一个总是表现得很自信但经常出错的顾问,最终可能导致严重的决策失误。
其次,这种现象表明AI系统缺乏真正的"认知谦逊"。人类专家在面对超出自己专业范围的问题时,通常会承认自己的知识局限,说出"我不知道"或"这超出了我的专业范围"。但现在的AI系统似乎还没有发展出这种重要的认知能力,它们往往会对任何问题都试图给出看似权威的答案。
从技术角度来看,这个问题的根源在于现在的AI系统是基于统计模式学习的。它们学会了生成看起来合理的答案,但并没有真正理解自己知识的边界在哪里。这就像是一个人学会了模仿专家的说话方式,但并不真正具备专家的判断能力。
更深层的问题在于,这种虚假自信可能会阻碍AI系统的进一步改进。如果一个系统总是认为自己的答案是正确的,它就很难从错误中学习和改进。这就像是一个永远不承认错误的学生,很难在学习过程中取得真正的进步。
研究团队通过对比不同模型的校准误差发现,即使是表现相对较好的推理模型,也存在类似的问题。这表明,仅仅增加计算资源或改进推理过程,并不能根本解决AI系统的自我认知问题。
这个发现对AI的实际应用具有重要启示。在高风险领域,如医疗诊断、法律咨询或金融决策中,AI系统的虚假自信可能带来严重后果。因此,开发更好的不确定性估计方法,教会AI系统说"我不知道",可能比简单提高准确率更为重要。
从长远来看,解决这个问题需要在AI系统的设计理念上有根本性的转变。未来的AI系统不仅需要能够给出正确答案,更需要能够诚实地评估自己的知识边界。这种"认知谦逊"的品质,可能是AI系统走向真正智能的重要标志之一。这就像是从一个总是不懂装懂的学生,成长为一个能够坦诚面对自己知识局限的成熟学者。
六、这场考试对AI未来发展的深远影响
这项研究的影响远远超出了单纯的学术测试范畴,它为我们理解AI的真实能力水平和未来发展方向提供了重要的参考坐标。就像医生需要准确的诊断工具来评估病人的健康状况一样,AI研究人员和政策制定者也需要可靠的测量工具来判断AI技术的发展阶段。
从技术发展的角度来看,这项研究揭示了一个重要事实:尽管AI系统在许多日常任务上已经达到甚至超越人类水平,但在需要深度专业知识和创新思维的领域,它们与人类专家之间仍然存在巨大鸿沟。这种发现有助于纠正公众和投资者对AI能力的过度期待,促进更加理性和务实的技术发展规划。
研究团队预测,按照目前AI技术的快速发展步伐,先进的AI系统可能在2025年底就能在这个测试上达到50%以上的准确率。这个预测基于AI技术发展的历史规律:许多看似困难的测试往往在短期内就被AI系统"攻破"。如果这个预测成真,那将标志着AI在闭合式学术问题上达到了接近人类专家的水平。
然而,研究团队也特别强调,即使AI系统在这个测试上表现出色,也不意味着它们具备了全面的"人工通用智能"。这个测试主要评估的是在结构化学术问题上的表现,而真正的智能还包括创造性思维、开放性问题解决、情感理解、常识推理等多个维度。这就像是一个学生在标准化考试中取得高分,并不一定意味着他在实际工作中就能表现出色。
对于AI安全和治理领域,这项研究提供了宝贵的评估工具。政策制定者可以使用这样的测试来监控AI技术的发展进程,制定相应的监管政策和安全措施。当AI系统在这类高难度测试中表现出色时,可能需要更加严格的安全评估和使用限制。
从教育角度来看,这项研究也引发了深层思考。如果AI系统最终能够在专家级学术问题上表现出色,那么我们的教育体系应该如何调整?传统的基于知识传授和标准化测试的教育模式可能需要根本性的变革,更多地关注创造力、批判思维、人际交往等AI难以替代的能力。
研究团队将这个测试称为"人类最后的考试",并非表示这是AI需要通过的终极测试,而是暗示这可能是AI在闭合式学术能力上需要跨越的最后一道重要门槛。一旦跨越这道门槛,AI在很多需要专业知识的任务上可能就能够协助甚至替代人类专家。
同时,这项研究也为AI研究指明了改进方向。目前AI系统的主要短板不仅在于知识的深度,更在于推理的灵活性、知识的整合能力以及对自身能力边界的认知。未来的AI研发可能需要在这些方面投入更多努力,而不是简单地增加参数数量或计算资源。
值得注意的是,这个测试基准的公开发布本身也具有重要意义。它为全球AI研究社区提供了一个公共的评估平台,有助于促进技术进步的透明度和可比较性。同时,研究团队还保留了一部分题目作为私有测试集,以防止AI系统通过"背题"的方式提高分数。
最终,这项研究提醒我们,AI的发展仍然充满挑战和未知。尽管技术进步的速度令人惊叹,但真正理解和模拟人类智能的复杂性仍然是一个长期的科学挑战。这场"最后的考试"或许不是终点,而是AI走向更高智能水平道路上的一个重要里程碑。
说到底,这项研究最重要的价值可能不在于为AI设置了一个新的挑战,而在于为我们提供了一面镜子,让我们更清楚地看到AI技术的现状和人类智能的珍贵。当我们看到最先进的AI系统在面对专家级问题时仍然表现得像初学者一样时,我们不禁要感叹人类专家知识和智慧的深度。同时,这也提醒我们,在AI技术快速发展的过程中,保持理性和谦逊的态度是多么重要。无论技术如何发展,对其能力和局限性的准确认知都是我们做出正确决策的基础。这场考试或许真的是"人类最后的考试",但它更可能是AI走向成熟道路上的第一次真正的成年礼。
Q&A
Q1:Humanity's Last Exam测试包含哪些内容?有多难?
A:这个测试包含2500道涵盖数十个学科的专家级题目,包括数学、物理、化学、生物学、哲学、法律等领域。题目难度达到研究生甚至博士水平,都是由全球近1000名学科专家原创设计,并且必须能够"难倒"当前最强的AI系统才能被收录。可以说是目前最具挑战性的AI学术能力测试。
Q2:为什么最强的AI模型在这个测试中表现这么差?
A:主要原因是这些题目需要的不仅仅是知识记忆,更需要深度的专业洞察力、创新思维和跨领域知识整合能力。即使是GPT-4o这样的顶级模型准确率也只有2.7%,这说明AI系统与真正的人类专家在认知深度和思维灵活性方面还存在巨大差距。
Q3:AI系统的"虚假自信"问题是什么意思?
A:指的是AI系统在回答问题时会表现出很高的置信度,但实际准确率却很低的现象。比如AI说自己有80%把握答对某题,但实际上可能只有20%的真实准确率。所有测试模型的校准误差都超过70%,这意味着它们缺乏对自身能力边界的正确认知,不知道什么时候应该说"我不知道"。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。