这项由谷歌DeepMind的卢卡斯·哈斯博士领导、联合谷歌研究院共同完成的研究于2025年9月发表,论文题为"SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge"。有兴趣深入了解的读者可以通过arXiv:2509.07968v1访问完整论文,相关数据集和评估代码已在Kaggle平台公开发布。
当我们和ChatGPT、Claude这样的AI助手聊天时,你是否曾经怀疑过它们说的某些"事实"可能是编造的?比如当你问一个冷门历史人物的生日,或者某个小众电影的导演是谁,AI可能会非常自信地告诉你一个听起来很合理但实际上完全错误的答案。这就是AI研究界头疼的"幻觉"问题——AI模型会编造出看似真实的虚假信息。
为了检测AI模型到底有多容易"胡编乱造",科学家们就像给学生出考试题一样,设计各种基准测试来评估AI的事实准确性。然而,现有的这些"考试"存在很多问题,就像一份出题不严谨的考卷——有些题目重复,有些答案错误,有些题目偏向某些特定领域,导致无法真正反映AI的实际水平。
谷歌DeepMind的研究团队就像严格的教务处,发现了目前最流行的AI事实性测试工具SimpleQA存在诸多缺陷后,决定重新制作一份更加可靠和公平的"标准化考试"。他们的新版本叫做SimpleQA Verified,就像是经过多轮校对和优化的高考试卷,能够更准确地测试AI模型是否真的掌握了可靠的知识。
经过这个新标准的检验,谷歌自家的Gemini 2.5 Pro模型表现最佳,就像班级里的学霸,在这场"诚实度测试"中获得了55.6%的综合分数,超越了包括最新版GPT-5在内的其他顶级AI模型。这个分数意味着什么呢?简单来说,即使是目前最先进的AI,在回答事实性问题时也只有一半多一点的准确率,还有很大的提升空间。
一、现有AI事实性测试的"考试作弊"问题
当我们想要了解一个学生的真实学习水平时,最好的方法是给他出一份公平、全面的考试。同样道理,要评估AI模型的事实准确性,我们也需要一套标准化的测试题库。在AI研究领域,这种测试工具被称为"基准",就像是标准化考试中的试卷。
早期的AI事实性测试工具,比如TriviaQA、Natural Questions和TruthfulQA,就像是多年前的高考题目。虽然在当时很有用,但随着AI技术的快速发展,这些"老题目"已经变得太简单了,现在的AI模型都能轻松答对,就像让大学生做小学算术题一样,无法真正区分出不同模型的实际能力差异。
为了解决这个问题,OpenAI在2024年底发布了SimpleQA,这是一个专门设计来挑战AI模型的高难度事实性测试。SimpleQA就像是专门为尖子生设计的竞赛题目,里面都是一些相对冷门、需要精确记忆的知识点,比如"1949年2月16日到5月27日期间阿萨姆邦的总督是谁?"这类问题。
SimpleQA确实比之前的测试更有挑战性,很快成为了AI行业的标准评估工具。然而,谷歌研究团队在深入分析后发现,这个看似严格的"考试"实际上存在很多问题,就像一份出题不够严谨的试卷。
最主要的问题是"出题老师"——也就是负责编写问题的人类评估员——存在明显的偏好倾向。就像某个老师特别喜欢出历史题而不出数学题,SimpleQA的题目分布很不均匀。研究团队发现,32.8%的问题都要求回答日期,24.1%的问题要求回答人名,而在主题分布上,科学技术类问题占了过多比重。
更严重的是,同一个评估员似乎会重复出类似的题目。举个例子,整个数据集中居然有119道题(占总数的2.7%)都在问哥伦比亚不同市镇的建立日期,比如"博亚卡省蒂帕科克市是什么时候建立的?""博亚卡省莫塔维塔市是哪一年建立的?"这就像考试中出现了大量近似重复的题目,降低了测试的有效性。
除了题目重复和分布不均,SimpleQA还存在一个更根本的问题:答案错误。研究团队发现,有些题目的"标准答案"本身就是错误的,或者不同来源给出了相互矛盾的答案。这就像考试试卷上的参考答案印错了,学生答对了反而被判错分。
还有一个技术性问题是题目来源受限。SimpleQA中的许多问题来源于那些限制AI训练使用的网站,这意味着AI模型在训练时可能从未接触过这些信息,这样的测试更像是考察AI能否"猜对"从未学过的内容,而不是真正评估其知识储备。
二、打造史上最严格的AI"诚实度考试"
面对SimpleQA存在的种种问题,谷歌研究团队决定亲自动手,制作一份真正可靠的AI事实性测试工具。这个过程就像重新编写一套标准化考试试卷,需要经过多轮严格的审查、筛选和验证。
整个制作过程可以比作精工细作的手工艺品制造。研究团队从原始的4326道SimpleQA题目开始,经过层层筛选,最终精选出1000道最具代表性和挑战性的题目。这个过程就像从海量的原材料中,仔细挑选出最优质的材料,再经过精心加工制作成精品。
第一步是确保题目来源的多样性。研究团队发现,原版SimpleQA中有很多问题都引用相同的网页作为信息源,这就像多道考试题都来自同一本教科书的同一章节。为了确保测试的全面性,他们规定任何两道题目都不能引用相同的网页链接。经过这一步筛选,题目数量从4326道减少到3095道。
第二步是消除重复和相似的题目。研究团队使用了两种方法来识别过于相似的问题:一种是基于语义理解的方法,就像让AI读懂题目的实际含义后判断是否重复;另一种是基于关键词匹配的方法,专门找出那些用词几乎相同的题目。
在语义去重过程中,团队使用了Gemini嵌入技术来计算问题之间的相似度。当两道题目的相似度超过0.77这个阈值时,就被认为是过度相似需要去重。比如前面提到的119道关于哥伦比亚市镇建立日期的问题,在这个环节中被大量筛除,最终只保留了一道最具代表性的。
在关键词去重环节,研究团队使用了传统的TF-IDF方法,这种方法专门擅长发现那些用词高度重叠的题目。经过这两轮去重,题目数量进一步减少到2664道。
第三步是尊重网站发布者的选择。许多网站通过技术手段明确表示不希望自己的内容被用于AI训练。研究团队尊重这些选择,删除了那些引用受限制网站的问题。这一步虽然大幅减少了题目数量(从2664道降至1855道),但确保了测试的伦理合规性。
第四步是平衡题目类型和主题分布。就像制作一份综合性考试需要涵盖各个知识领域,研究团队重新调整了题目的分布,确保不同类型的问题(如日期类、人物类、地点类、数字类)和不同主题领域(如艺术、体育、地理、音乐等)都有合适的代表性。最终保留了1218道题目。
第五步是核实答案的准确性。研究团队使用多个搜索增强的AI模型来验证每道题目的标准答案是否正确。对于非数字类答案,他们删除了那些明显有歧义或信息源相互矛盾的题目。对于数字类答案,他们设定了5%的误差范围,删除了所有信息源都指向不同答案的题目。
最后一步是确保足够的挑战性。为了让这个测试能够真正区分不同AI模型的能力,研究团队专门选择了那些连最先进的AI模型都难以正确回答的问题。他们测试了GPT-4o、Gemini 2.0 Flash和Claude 3.7 Sonnet这三个顶级模型,优先保留那些三个模型都回答错误的题目。
经过这个精心制作过程,最终的SimpleQA Verified包含了1000道经过严格筛选和验证的题目。每道题目都配有详细的元数据标注,包括题目类型、主题分类、是否需要推理能力、是否涉及多步骤思考等信息。
三、开发更智能的AI答案判定系统
制作高质量的测试题目只是成功的一半,另一半挑战在于如何准确判断AI的回答是否正确。这就像考试中的阅卷工作,需要既严格又公平的评分标准。
传统的人工阅卷显然不适用于大规模的AI测试,因此研究团队开发了一个自动评分系统,用AI来给AI的答案打分。这个评分AI就像一个非常有经验的阅卷老师,能够理解答案的语义含义,而不仅仅是进行简单的文字匹配。
然而,原版SimpleQA的自动评分系统存在一个关键问题:它经常在判断答案正误时出现分歧。为了找出问题所在,研究团队设计了一个巧妙的实验。他们让评分系统对同一个答案反复打分10次,每次都调整一些随机参数,然后观察哪些类型的答案最容易导致评分不一致。
通过这个实验,团队发现了几个典型的"阅卷难点"。第一种是答案正确但包含额外信息的情况。比如问题是"谁是1949年阿萨姆邦的总督",标准答案是"斯里·普拉卡萨",但AI可能回答"1949年阿萨姆邦的总督是斯里·普拉卡萨,他从2月16日上任,一直任职到1950年5月27日"。这个答案核心内容正确,但包含了额外的时间信息,容易让评分系统产生混淆。
第二种难点是近似正确的数字答案。比如问题是"天文学家安妮·坎农在1913年每小时能分类多少颗星星",标准答案是200颗,但AI回答"每分钟3颗,相当于每小时180颗"。从数学角度看,180和200很接近,但原有的评分系统有时会严格按照精确匹配来判断。
第三种难点是AI声称找不到信息的情况。有时AI会说"我在数据库中没有找到这个信息",但实际上标准答案是存在的。评分系统需要判断这种回答应该算作"未尝试回答"还是"回答错误"。
第四种难点是AI给出模糊或间接拒绝的回答。比如AI可能说"虽然剧集没有明确说明,但暗示这个角色工作了很长时间",当标准答案是"7年"时,评分系统需要判断这种回答的性质。
针对这些问题,研究团队对自动评分系统进行了全面升级。最重要的改进是对数字类答案的处理方式。他们不再要求AI的答案必须与标准答案完全匹配,而是为每个数字问题设定了合理的误差范围。
具体的误差设定遵循了一套科学的分类标准。对于小于50的整数(比如某个团队的成员数量),要求精确匹配,因为这类数字通常是可以准确计数的。对于51到10000之间的数值(比如建筑物的高度、城市人口等),允许大约1%的误差。对于超过10000的大数字(比如国家人口、公司营收等),允许大约5%的误差,因为这类数字本身就存在统计误差和时间变化。
例如,对于问题"2019年有多少联合国志愿者在54个联合国任务、机构、基金和项目中服务",标准答案是8282人,新的评分系统会接受8199到8365之间的任何答案作为正确回答。
除了数字处理的改进,新评分系统还加强了对答案核心内容的识别能力。它被明确指示只关注直接回答问题的部分,忽略额外的背景信息或解释。这就像阅卷老师被告知要抓住答案的核心要点,不要因为学生写了过多解释而扣分。
系统还改进了对"犹豫式回答"的处理。新规则规定,如果AI的回答包含多个可能答案但最终倾向于其中一个,那就按照那个倾向性答案来判分。但如果AI只是列举多种可能性而不做选择,就被视为"未尝试回答"。
四、揭示AI模型真实的"知识诚信度"
当这个经过精心设计的新测试工具准备就绪后,研究团队开始了一场大规模的AI能力摸底考试。他们邀请了当前最先进的13个AI模型参加这场"诚实度测试",包括谷歌的Gemini系列、OpenAI的GPT系列、Anthropic的Claude系列,以及最新的DeepSeek R1模型。
测试过程就像一场标准化考试,所有模型都在相同条件下回答同样的1000道问题,不允许使用搜索工具或外部帮助,纯粹依靠其内部储存的知识来回答。这种设置确保了测试的公平性,就像让所有考生在相同时间、相同环境下进行闭卷考试。
测试结果令人深思。即使是表现最好的Gemini 2.5 Pro,综合得分也只有55.6%,这意味着即使是目前最先进的AI,在面对事实性问题时也有接近一半的概率会给出错误或无法回答。这个分数虽然在所有参测模型中排名第一,但距离人类期望的高可靠性标准还有相当距离。
排在第二位的是OpenAI的GPT-5,得分52.3%,与Gemini 2.5 Pro的差距并不算太大。值得注意的是GPT家族内部的表现差异:最新的o3模型得分51.9%,而较早的GPT-4o只有34.9%。这反映出AI技术的快速迭代确实在提升模型的事实准确性。
Anthropic的Claude系列表现相对较弱,Opus 4得分28.3%,Sonnet 4得分18.7%。有趣的是,这两个模型在"尝试回答率"上表现出了不同策略:Opus 4只尝试回答35.5%的问题,但在尝试回答的问题中有54.1%答对了;而Sonnet 4尝试回答33.9%的问题,答对率为36.9%。这反映出不同模型在面对不确定性时采取了不同的保守策略。
从测试结果可以看出几个重要趋势。首先,所有模型在事实准确性方面都还有很大提升空间,最好的模型也只是刚刚超过及格线。其次,不同模型展现出了不同的回答策略:有些模型比较"大胆",愿意尝试回答更多问题但准确率相对较低;有些模型比较"谨慎",只在有把握时才回答但准确率较高。
研究团队还分析了模型在不同类型问题上的表现差异。在数字类问题上,由于新评分系统允许合理的误差范围,模型的表现普遍有所提升。在人物类问题上,模型表现相对较好,可能因为人名在训练数据中出现频率较高。在日期类问题上,模型普遍表现较差,可能反映出AI在处理时间信息时的固有困难。
有趣的是,当研究团队对比新版SimpleQA Verified和原版SimpleQA的测试结果时发现,大多数模型在两个测试上的得分非常接近。这证明了新测试工具确实保持了原有的挑战性,同时提供了更可靠的评估结果。
这次全面测试的一个重要发现是,即使是最先进的AI模型,在没有外部工具辅助的情况下,其事实准确性仍然有限。当为这些模型提供搜索工具时,它们的表现会显著提升,接近完美水平。这说明问题不在于AI缺乏推理能力,而在于其内部知识储存的完整性和准确性仍有不足。
五、为AI研究指明新方向的里程碑工作
SimpleQA Verified的发布不仅仅是一个新测试工具的诞生,更像是为整个AI研究领域树立了一个新的质量标准。这项工作的意义远超出了技术层面,它为我们理解AI能力的真实边界提供了更可靠的测量工具。
从技术发展角度看,这个新基准为AI模型的改进指明了具体方向。现有的AI模型在事实准确性方面显然还有很大提升空间,这为研究人员提供了明确的努力目标。特别是在处理数字信息、时间概念和冷门知识方面,AI模型还需要显著改进。
更重要的是,SimpleQA Verified建立了一套更科学、更公正的评估方法论。在AI研究领域,评估基准的质量直接影响研究方向和进展速度。一个有偏见或不准确的基准可能会误导整个研究社区,就像用一把不准的尺子去测量会导致所有后续工作出现偏差。新基准的严格制作过程为其他研究者提供了宝贵的方法论参考。
对于普通用户来说,这项研究提供了一个重要提醒:即使是最先进的AI助手,在回答事实性问题时也可能出错。用户在使用AI获取重要信息时,仍需要保持适当的谨慎态度,特别是涉及专业决策或重要事实时,最好通过其他渠道进行验证。
从行业竞争角度看,这个新基准为不同AI公司提供了一个公平的比较平台。Gemini 2.5 Pro在测试中的领先表现为谷歌在AI竞赛中加分,但这种领先优势并不绝对,随着其他公司模型的不断改进,排名随时可能发生变化。
研究团队的开放策略也值得赞赏。他们不仅发布了完整的数据集和评估代码,还在Kaggle平台上建立了公开的排行榜。这种开放共享的做法有助于推动整个AI研究社区的进步,让更多研究者能够基于统一标准进行研究和比较。
这项工作还突出了AI研究中一个重要但常被忽视的问题:评估工具本身的质量。在追求AI模型性能突破的热潮中,人们往往关注算法创新和模型架构改进,但忽略了评估方法的科学性。SimpleQA Verified的制作过程提醒我们,可靠的评估工具是推动AI进步的基础设施,值得投入足够的时间和精力来完善。
对于AI安全和可信度研究,这个新基准也具有重要价值。事实准确性是AI可信度的重要组成部分,一个经常编造信息的AI系统显然无法获得用户信任。SimpleQA Verified为量化AI的"诚实度"提供了标准工具,有助于推动更值得信赖的AI系统开发。
说到底,这项研究就像是给AI行业提供了一面更清晰的镜子,让我们能够更准确地看到当前AI技术的真实水平。虽然结果显示即使最先进的AI在事实准确性方面仍有不足,但这种认知本身就是进步的开始。只有准确了解现状,才能制定合适的改进策略。
归根结底,SimpleQA Verified代表了AI研究走向成熟的重要标志。它不仅为当前的AI能力提供了更可靠的评估,更为未来的AI发展设立了更高的标准。随着这个新基准的普及使用,我们有理由期待AI在事实准确性方面会有更显著的提升,最终为用户提供更可靠、更值得信赖的AI助手。
Q&A
Q1:SimpleQA Verified和原来的SimpleQA有什么区别?
A:SimpleQA Verified是谷歌研究团队对原版SimpleQA的全面改进版本。主要区别包括:题目数量从4326道精选至1000道,消除了重复和相似问题,平衡了不同主题和答案类型的分布,修正了错误答案,改进了自动评分系统特别是数字答案的判定标准。新版本提供了更可靠和公正的AI事实准确性评估。
Q2:目前最先进的AI模型在事实准确性方面表现如何?
A:根据SimpleQA Verified的测试结果,即使是表现最好的AI模型也只有约55%的准确率。谷歌Gemini 2.5 Pro以55.6%的得分排名第一,GPT-5得分52.3%排名第二。这意味着即使是最先进的AI,在回答事实性问题时也有接近一半的概率会出错或无法回答,距离人类期望的高可靠性标准还有相当距离。
Q3:普通用户使用AI助手时应该注意什么?
A:这项研究提醒我们,AI助手在回答事实性问题时可能出错,用户应保持适当谨慎。特别是涉及重要决策或专业信息时,建议通过其他可靠渠道进行验证。AI助手更适合作为信息获取的起点而非最终答案来源。当AI提供具体数字、日期或冷门知识时,用户需要特别留意其准确性。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。