这项由OpenAI的Adam Tauman Kalai领导,联合Georgia Tech的Santosh S. Vempala等研究者共同完成的重要研究,发表于2025年9月4日。论文题目为《Why Language Models Hallucinate》,详细探讨了大语言模型产生幻觉现象的根本原因。有兴趣深入了解的读者可以通过arXiv:2509.04664v1访问完整论文。
你有没有遇到过这样的情况:向ChatGPT或其他AI助手询问一个具体问题,比如某个人的生日,结果它非常自信地给出了一个完全错误的答案?这种现象在AI圈被称为"幻觉",就像AI在做白日梦一样,编造出听起来很合理但实际上完全错误的信息。
这个问题困扰着所有使用大语言模型的人。即使是最先进的AI系统,比如GPT-4或Claude,也经常会出现这种情况。研究团队做了一个简单的测试:他们问一个600亿参数的顶级开源语言模型Adam Tauman Kalai的生日,要求只有确定知道才回答,否则就说不知道。结果这个AI在三次尝试中给出了三个完全不同的错误日期:"03-07"、"15-06"和"01-01",而正确答案应该是秋天的某个日期。
更有趣的是,当研究者问"DEEPSEEK这个词里有几个字母D"时,AI的回答从2到7不等,而正确答案其实很简单:只有1个。这就好比你问一个人"苹果"这个词有几个字,他们却给出了各种离谱的答案。
这种现象不是偶然的bug,而是有着深层次的数学和统计学原理。这项开创性研究首次从理论角度完整解释了为什么AI会产生幻觉,以及为什么这个问题至今难以根除。研究团队不仅揭示了问题的根源,还指出了现有评估方法的缺陷,并提出了可行的改进方案。
一、AI幻觉的根本原因:就像学生面临难题时的猜题行为
当我们深入观察学生在考试中的行为时,会发现一个有趣的现象。面对不确定的题目,大部分学生会选择猜一个看似合理的答案,而不是诚实地写"不知道"。这种行为背后有着很现实的考虑:在传统的评分体系中,留空白或写"不知道"通常得零分,而猜对了就能得满分,猜错了也不会比空白更糟。
AI的幻觉现象本质上就是这种"猜题"行为的技术版本。当大语言模型遇到它不确定的问题时,它会基于训练过程中学到的模式,生成一个听起来最合理、最符合语言规律的答案。就像一个学生在历史考试中不知道某个事件的具体日期,可能会猜一个听起来合理的年份一样。
研究团队通过数学分析证明,这种现象有着深层的统计学根源。在AI的训练过程中,存在两个关键阶段:预训练和后训练。在预训练阶段,AI学习如何理解和生成语言;在后训练阶段,AI学习如何更好地回应人类的问题。问题就出现在这两个阶段中。
在预训练阶段,AI需要学习识别什么是有效的回答,什么是无效的回答。研究者把这个问题转化为一个更简单的数学问题:给定一段文字,判断它是否是一个合理的回答。这就像教一个孩子区分哪些句子是有意义的,哪些是胡言乱语。
然而,生成合理回答比简单地识别合理回答要困难得多。这就好比识别一道菜是否好吃比自己做出一道好菜要容易得多。当AI无法准确识别某些事实的真伪时,它在生成阶段就会不可避免地产生错误。
研究团队通过严格的数学证明发现,即使训练数据完全正确,AI仍然会产生幻觉。这是因为在学习过程中,AI必须从有限的训练样本中推断出更广泛的规律。当训练数据中某些事实只出现过一次或很少出现时,AI就很难准确掌握这些信息。
例如,如果Einstein的生日在训练数据中出现了很多次,AI就能准确记住。但如果某个不太知名人物的生日只在一篇讣告中提到过一次,AI就很可能在回答时产生错误。研究发现,AI的幻觉率至少等于训练数据中那些只出现过一次的事实所占的比例。
二、评估体系的问题:为什么AI不愿意说"不知道"
现在我们来看看为什么AI宁愿猜测也不愿意诚实地说"不知道"。这个问题的根源在于我们如何评估AI的表现。
想象一下两个学生参加同一场考试。学生A很诚实,遇到不确定的题目就写"不知道",最终答对了7道题,空了3道题。学生B比较"聪明",遇到不确定的题目就猜答案,最终答对了7道题,猜对了2道题,猜错了1道题。在传统的评分体系中,学生B会得到更高的分数,尽管学生A更诚实。
这就是当前AI评估体系的核心问题。绝大多数用来评估大语言模型的基准测试都采用这种"对错二分法"的评分方式。在这种体系下,一个回答要么得满分(如果正确),要么得零分(如果错误或表示不知道)。这种评分方式天然地鼓励AI进行猜测。
研究团队分析了当前最具影响力的十个AI评估基准,包括GPQA、MMLU-Pro、SWE-bench等。令人震惊的是,其中九个基准都完全不给"不知道"类型的回答任何分数,只有WildBench给予了有限的部分分数。这就好比所有的考试都在说:"宁可猜错,也不要承认无知。"
这种评估体系创造了一种恶性循环。由于主流评估都惩罚不确定性的表达,AI开发者自然会优化模型来最大化这些评估的分数。结果就是,即使技术上可能让AI更诚实地表达不确定性,现有的激励机制也会推动AI朝着"善于猜测"而不是"诚实可信"的方向发展。
研究者做了一个有趣的思想实验:假设有两个AI模型,模型A总是在不确定时诚实地说"不知道",从不胡编乱造;模型B和A差不多,但会在不确定时猜测答案。在当前的评估体系下,模型B几乎总是会获得更高的分数,即使它可能会误导用户。
这种现象研究者称为"惩罚不确定性的流行病"。由于少数几个有影响力的基准测试主导了整个行业的发展方向,这些测试的评分偏见就被放大到了整个AI生态系统中。
三、数学原理:为什么幻觉是不可避免的
为了更深入地理解这个问题,研究团队建立了一套严密的数学框架。他们把AI幻觉问题转化为一个经典的统计学问题:二元分类。
这个转化很巧妙。他们把生成合理回答的问题重新表述为:给定一个问题和一个候选回答,判断这个回答是否正确。如果AI能够完美地解决这个判断问题,那它就能完美地生成正确回答。但如果AI在判断阶段就会犯错,那它在生成阶段必然也会出错。
研究者证明了一个重要的数学关系:AI的生成错误率至少是其判断错误率的两倍。这意味着,如果AI在区分正确和错误信息时有20%的错误率,那么它在生成信息时的错误率将至少达到40%。
这个结果解释了为什么即使是最先进的AI系统也会产生幻觉。在现实世界中,很多事实很难从训练数据中学到准确的模式。比如个人生日、具体的历史日期、不太知名的人物信息等。对于这些"任意事实",AI本质上是在进行有根据的猜测。
研究团队还分析了几种导致AI犯错的具体情况。第一种是"任意事实幻觉",当训练数据中缺乏足够信息时就会出现。如果某个人的生日在整个训练语料中只出现过一次,AI就很难准确记住这个信息,更可能在回答时产生错误。
第二种是"模型缺陷"导致的错误。有些任务对于当前的AI架构来说本质上是困难的。比如精确的字母计数问题,由于现代语言模型是基于词汇单元而不是单个字符进行处理的,它们在这类任务上表现很差。这就像让一个习惯了整词阅读的人去数具体字母数量一样困难。
第三种是计算复杂性导致的问题。有些问题即使对人类来说也是困难的,比如解密问题或复杂的数学计算。AI在这些任务上的错误是可以理解的,因为它们确实超出了当前技术的能力范围。
研究者通过分析发现,AI幻觉的程度与训练数据中"单例事实"(只出现一次的事实)的比例高度相关。如果训练数据中20%的生日事实只出现一次,那么AI在生日相关问题上的幻觉率至少会达到20%。
四、真实案例分析:当AI遇到具体问题时会发生什么
为了验证他们的理论,研究团队进行了大量的实际测试。这些测试结果生动地展示了AI幻觉现象的普遍性和严重性。
在询问Adam Tauman Kalai的博士论文标题时,三个主流语言模型都给出了完全错误的答案。ChatGPT说是"Boosting, Online Algorithms, and Other Topics in Machine Learning",DeepSeek说是"Algebraic Methods in Interactive Machine Learning",Llama说是"Efficient Algorithms for Learning and Playing Games"。这些回答听起来都很专业,很有说服力,但都不是正确答案。实际的论文标题和年份都与AI的回答不符。
在字母计数测试中,问题更加明显。当被问及"DEEPSEEK"这个词中有多少个D时,同一个AI模型在不同尝试中给出了从2到7的各种答案,而正确答案是1。更有趣的是,研究者发现DeepSeek-R1推理模型能够正确回答这个问题,因为它会逐字母分析:"让我拼写出来:D-E-E-P-S-E-E-K。第一个字母:D——这是一个D。第二个字母:E——不是D..."这表明问题不在于AI的基本能力,而在于处理方式。
这些例子说明了一个重要问题:AI的错误往往不是随机的胡言乱语,而是看起来很合理、很专业的错误信息。这使得这些错误特别危险,因为用户很难通过常识来判断答案的正确性。
研究团队还测试了一些看似简单但实际复杂的问题。比如"一磅羽毛和一磅铅哪个更重?"这类问题在训练数据中可能很少出现,AI可能会基于对"羽毛轻,铅重"的一般理解给出错误答案,而忽略了"一磅"这个关键信息。
通过这些案例分析,研究者发现AI幻觉有几个显著特点:首先,错误信息往往看起来很合理,符合语言和逻辑规范;其次,AI通常会表现出过度自信,不会表达任何不确定性;第三,同样的问题在不同时候可能得到不同的错误答案;最后,这些错误往往集中在那些训练数据覆盖不足或AI架构不适合处理的问题类型上。
五、解决方案:如何让AI更诚实可信
面对AI幻觉这个看似无解的难题,研究团队提出了一系列切实可行的解决方案。这些方案不是要完全消除幻觉(这在技术上可能无法实现),而是要改变激励机制,让AI更愿意承认不确定性。
核心解决思路是改革评估体系。研究者提出了"显式置信度目标"的概念,就像在考试说明中明确告知学生评分规则一样。比如,可以在问题后面添加这样的说明:"只有在你超过75%确信时才回答,因为错误答案会被扣3分,正确答案得1分,而'不知道'得0分。"
这种方法的数学原理很简单:如果AI对某个答案的确信度只有60%,而评分规则要求75%的确信度才值得回答,那么理性的AI就应该选择说"不知道"。通过调整这个置信度阈值,可以在准确性和完整性之间找到合适的平衡点。
研究团队建议对现有的主流评估基准进行修改,而不是创建全新的评估方法。这是因为现有基准已经具有很大影响力,创建新的评估方法很可能会被边缘化。他们提出可以为现有基准添加不同的置信度版本,比如t=0.5(需要50%确信度)、t=0.75(需要75%确信度)、t=0.9(需要90%确信度)等。
在实际应用中,这种方法可以让用户根据具体场景选择合适的AI行为模式。在高风险应用(如医疗诊断辅助)中,可以设置较高的置信度阈值,让AI只在非常确信时才给出答案;在低风险应用(如娱乐聊天)中,可以设置较低的阈值,让AI更愿意尝试回答。
研究者还提出了"行为校准"的概念,即AI不需要输出具体的概率数字,只需要根据不同的置信度要求调整自己的回答行为。这比要求AI准确估算概率更现实,也更容易实现。
另一个重要建议是在AI训练过程中加入更多表达不确定性的示例。当前的训练数据往往偏向于给出明确答案,缺乏"不知道"类型的回答。通过平衡训练数据,可以让AI学会在适当的时候表达不确定性。
对于技术开发者,研究团队建议在系统设计中加入不确定性检测机制。比如,当AI对多个可能答案的信心度都不高时,系统可以自动提示"我对这个问题不太确定,建议你查询更可靠的信息源"。
六、对未来的启示:重塑AI评估的新标准
这项研究的意义远远超出了技术层面,它揭示了整个AI行业在评估和发展方向上的根本性问题。当前的AI竞赛更像是在比较谁更擅长"考试技巧",而不是谁更值得信赖。
研究团队指出,如果不改变现有的评估体系,AI幻觉问题将持续存在,甚至可能随着模型变得更加"聪明"而变得更加难以察觉。未来的AI可能会编造出更加精致、更难识破的虚假信息,这将对社会造成更大的风险。
改革的关键在于行业共识。由于少数几个有影响力的基准测试主导了整个行业的发展方向,只要这些基准开始重视不确定性的表达,整个行业就会跟进。这需要学术界、工业界和政策制定者的共同努力。
研究者还强调了"务实主义"的重要性。完美的AI系统在技术上可能无法实现,但我们可以创造出在特定场景下足够可靠的系统。关键是要根据应用场景的风险等级来调整AI的行为模式。
从长远来看,这项研究可能推动AI向更加透明、可解释的方向发展。当AI开始承认自己的不确定性时,用户就能更好地理解AI的局限性,做出更明智的决策。这种"诚实的AI"可能比"无所不知的AI"更有价值。
研究团队的工作还为AI安全研究提供了新的理论基础。通过数学方法量化AI的可靠性边界,可以为高风险应用的AI部署提供更科学的指导。
说到底,AI幻觉问题反映的是我们对AI系统期望与现实能力之间的错配。这项研究帮助我们更清楚地认识了这个问题的本质,并提供了切实可行的改进路径。虽然我们可能永远无法让AI变得完美无缺,但我们可以让它变得更诚实、更值得信赖。归根结底,一个会说"不知道"的AI,可能比一个总是给出看似正确答案的AI更有价值。这项研究为我们指明了构建下一代可信AI系统的方向,其影响将在未来很多年里持续显现。
Q&A
Q1:大语言模型的幻觉是什么意思?为什么会出现这种现象?
A: 大语言模型的幻觉是指AI生成看似合理但实际错误的信息,就像做白日梦一样编造内容。这种现象的根本原因是AI在面对不确定问题时会选择猜测而不是承认无知,类似学生在考试中遇到不会的题目选择猜答案而不是留空白。数学分析表明,即使训练数据完全正确,AI仍会因统计学原理产生幻觉。
Q2:为什么AI不愿意说"不知道",总是要给出答案?
A: 这主要是因为现有的AI评估体系问题。研究发现,主流的9个评估基准中,几乎所有都采用"对错二分法"评分,不给"不知道"类型回答任何分数。这种评估方式天然鼓励AI进行猜测,因为猜对了能得分,猜错了也不比说"不知道"更糟。这创造了一个恶性循环,让AI开发者优化模型去最大化评估分数而不是提高诚实度。
Q3:有什么方法可以减少AI的幻觉现象吗?
A: 研究团队提出了"显式置信度目标"解决方案,即在问题中明确告知AI只有在达到特定确信度时才回答。比如设置"只有75%确信时才回答,错误答案扣3分,正确答案得1分,不知道得0分"。通过调整置信度阈值,可以在准确性和完整性间找到平衡。关键是要改革现有评估基准,让它们开始重视不确定性表达,而不是惩罚诚实的"不知道"。
好文章,需要你的鼓励
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。
北京交通大学与阿里巴巴AMAP团队合作开发FE2E框架,首次将图像编辑模型应用于单目深度估计任务。该方法仅用71K训练图像就在ETH3D数据集上实现35%性能提升,超越了使用100倍数据的DepthAnything系列。通过重新设计训练目标、采用对数量化和联合估计策略,FE2E证明了选择合适基础模型比单纯增加数据量更有效,为资源受限环境下的高精度几何估计开辟了新路径。