微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI遇到"健忘症":芝加哥大学团队如何让智能助手不再胡编乱造

当AI遇到"健忘症":芝加哥大学团队如何让智能助手不再胡编乱造

2025-12-24 17:58
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-24 17:58 科技行者

在人工智能飞速发展的今天,我们已经习惯了与智能助手的日常对话。但你有没有遇到过这样的情况:明明问了一个简单的问题,AI却信誓旦旦地给出了完全错误的答案,而且说得特别自信?这种现象被研究者们称为"AI幻觉",就像一个健忘的朋友,不记得某件事的时候却不愿意承认,反而编造出一个听起来很合理的故事。

来自芝加哥伊利诺伊大学、纽约大学和莫纳什大学的研究团队最近发表了一项突破性研究,题为《QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation》。这项研究发表于2024年12月,论文编号为arXiv:2512.19134v1。研究团队由芝加哥伊利诺伊大学的闵德海(Dehai Min)和程璐(Lu Cheng)领导,与纽约大学的张凯麟(Kailin Zhang)以及莫纳什大学的吴童童(Tongtong Wu)合作完成。

这个研究团队发现了一个有趣的现象:当前的AI系统就像一个过分自信的学生,即使不知道答案也要硬着头皮回答,而且往往表现得特别确定。更糟糕的是,传统的检测AI是否在"撒谎"的方法就像通过观察学生的表情来判断他们是否在说真话一样不可靠。这些方法主要依赖AI内部的信号,比如它说话时的"犹豫程度"或"紧张程度",但研究发现这些信号并不能准确反映AI是否真的知道答案。

研究团队提出了一个全新的解决方案,叫做QuCo-RAG(Quantifying uncertainty via pre-training Corpus for Retrieval-Augmented Generation)。这个方法的核心思想特别巧妙:与其试图从AI的"表情"判断它是否在撒谎,不如直接检查它的"记忆库"——也就是训练它时用的所有资料。

想象一下,如果你想知道一个朋友是否真的了解某个历史事件,最好的方法不是看他说话时是否紧张,而是检查他曾经读过的所有历史书籍中是否提到过这个事件。QuCo-RAG就是基于这样的逻辑:如果AI在训练时很少见到某个概念,或者从来没有看到过两个概念同时出现,那它很可能对相关问题不太了解,这时就应该让它去"查资料"再回答。

这项研究的创新之处在于,它首次将AI的不确定性检测从主观的内部信号转向了客观的统计数据。研究团队开发了一套两阶段的检测系统:第一阶段在AI开始回答之前,检查问题中提到的概念在训练资料中出现的频率;第二阶段在AI生成答案的过程中,实时验证它所声称的事实关联是否在训练资料中得到支持。

一、传统方法的困境:为什么AI的"表情"不可信

现有的动态检索增强生成方法就像试图通过观察演员的微表情来判断他们是否在演戏一样困难。这些方法主要依赖AI内部的各种信号,包括词汇生成的概率、信息熵、注意力权重等等。然而,这种做法存在一个根本性的问题:AI系统本身就缺乏良好的"自我认知"能力。

研究团队通过大量实验发现,当前主流的不确定性检测方法,比如DRAGIN系统,经常会出现令人啼笑皆非的错误判断。在一个典型的案例中,当被问及"《诱惑者》和《圣女贞德的审判》的导演是否来自同一个国家"时,DRAGIN对问题中的普通词汇"Il"(意大利语中的冠词)表现出高度不确定性,却对完全虚构的导演名字"马里奥·卡梅里尼"表现出极高的信心。这就像一个学生对简单的语法感到困惑,却对自己编造的历史事实深信不疑。

这种现象的根源在于AI训练过程中的一个内在矛盾。为了让AI更好地服务用户,研究者们通常会对它进行所谓的"监督微调"和"强化学习"训练,让它尽量给出确定的答案,避免说"不知道"。这就像训练一个销售员永远要表现得对产品很了解一样,结果是AI学会了即使不确定也要装作很确定的样子。

更加麻烦的是,理论研究表明,即使是完美校准的AI模型,在面对罕见事实时也必须选择性地"撒谎"以维持统计一致性。这就像一个诚实的占卜师:如果他总是说"我不知道",人们就不会相信他的预测能力;但如果他对每个问题都给出确定答案,就不可避免地会出错。

传统方法的另一个问题是它们过于依赖模型内部的复杂信号。比如,有些方法会观察AI生成文本时的"注意力分布",就像试图通过观察一个人眼球的转动来判断他在想什么一样。这些信号不仅难以解释,而且在不同的模型和任务中表现很不稳定。一个在某种情况下表现良好的不确定性指标,在另一种情况下可能完全失效。

二、QuCo-RAG的创新思路:从"读心术"到"查档案"

QuCo-RAG的核心创新在于彻底改变了检测AI不确定性的思路。传统方法就像试图通过观察一个人的面部表情来判断他是否在说谎,而QuCo-RAG则选择直接查看这个人曾经接触过的所有信息,以此来判断他是否可能知道某个特定的事实。

这种方法基于一个简单而深刻的洞察:AI的知识完全来自于它的训练数据。如果某个概念在训练数据中很少出现,那么AI对它的理解就可能不够深入;如果两个概念从来没有在训练数据中同时出现过,那么AI声称它们之间存在某种关系就很可能是在"编故事"。

研究团队将这个思路具体化为两个阶段的检测机制。第一个阶段发生在AI开始生成答案之前,就像老师在学生答题前先检查题目的难度一样。系统会提取问题中的关键实体(比如人名、地名、事件名等),然后查询这些实体在训练语料库中出现的频率。如果平均频率低于某个阈值,系统就会判断这个问题涉及"长尾知识"——也就是那些相对冷门、AI可能掌握不好的知识领域。

这就像一个图书管理员在读者询问某本书的信息时,首先检查这本书在图书馆的借阅记录。如果这本书很少被借阅,那么管理员可能需要花更多时间去查找详细信息,而不是凭记忆回答。当QuCo-RAG检测到低频实体时,它会触发检索机制,让AI在回答前先"查阅资料"。

第二个阶段更加精妙,它发生在AI生成答案的过程中,就像一个实时的事实核查员。每当AI生成一个句子,系统就会自动提取其中的知识三元组——包括主体、关系和客体。比如,如果AI说"爱因斯坦出生于德国",系统就会提取出(爱因斯坦,出生于,德国)这样的三元组。

然后,系统会检查主体和客体(在这个例子中是"爱因斯坦"和"德国")是否曾经在训练语料库中共同出现过。这种"共现检查"的逻辑很直观:如果两个概念在大规模语料库中从来没有一起出现过,那么AI声称它们之间存在某种关系很可能是无中生有。

值得注意的是,这种检查是不对称的。如果两个概念曾经共同出现,不能保证AI的说法是正确的(因为它们可能在不同的语境中出现,或者以不同的关系连接);但如果两个概念从来没有共同出现过,那么AI的说法很可能是错误的。这就像法庭上的证据:有证据不一定证明有罪,但没有证据通常意味着指控站不住脚。

为了实现这种实时的语料库查询,研究团队使用了一个叫做Infini-gram的先进工具。这个工具可以在几毫秒内处理对数万亿个词汇的查询请求,就像一个超级高效的搜索引擎。通过这种技术,QuCo-RAG能够在不影响对话流畅性的前提下,实时验证AI生成内容的可靠性。

当系统检测到潜在的幻觉风险时,它会构造一个针对性的查询,然后从外部知识库检索相关信息,并要求AI根据这些可靠信息重新生成答案。这就像给一个健忘的朋友提供了一本随身参考书,让他在不确定时可以随时查阅。

三、实验验证:从理论到实践的跨越

为了验证QuCo-RAG方法的有效性,研究团队设计了一系列全面的实验。他们首先选择了OLMo-2模型系列作为主要测试对象,这个选择很有战略意义:OLMo-2是一个开源模型,研究者可以完全访问其4万亿词汇的训练语料库,这为精确的统计验证提供了可能。

实验在两个广泛认可的多跳问答数据集上进行:2WikiMultihopQA和HotpotQA。这两个数据集的问题都需要AI进行多步推理,比如"谁比较年长,《电影A》的导演还是《电影B》的导演?"这类问题要求AI首先找到两部电影的导演,然后比较他们的年龄。这种复杂性正好测试了动态检索系统在复杂推理过程中的表现。

实验结果令人印象深刻。在OLMo-2-7B模型上,QuCo-RAG在2WikiMultihopQA数据集上达到了32.7%的精确匹配率,比最强的基线方法提高了7.4个百分点。在HotpotQA上的表现同样出色,达到了35.3%的精确匹配率,比基线提高了5.6个百分点。随着模型规模的增大,这种优势变得更加明显:在OLMo-2-13B上,QuCo-RAG在2WikiMultihopQA上的提升达到了惊人的12个百分点。

更有意思的是,QuCo-RAG在效率方面也表现优异。虽然它需要进行额外的语料库查询,但由于其精准的触发机制,平均每个问题只需要1.7次检索操作,远少于那些频繁触发检索的基线方法。一些基线方法虽然进行了更多的检索操作,但由于缺乏准确的不确定性判断,反而取得了更差的结果。

为了进一步验证方法的普适性,研究团队进行了跨模型转移实验。他们使用OLMo-2的训练语料库来为其他模型(如Llama-3、Qwen2.5和GPT系列)提供统计信息。这种做法基于一个重要假设:大规模的网络语料库之间存在substantial overlap(大量重叠)。实验结果证实了这个假设的正确性:即使使用"代理语料库",QuCo-RAG仍然能够显著提升这些模型的表现。

在Qwen2.5-32B上,QuCo-RAG在2WikiMultihopQA上的提升达到了14.1个百分点,这是一个非常显著的进步。即使是在GPT-4.1和GPT-5这样的先进模型上,QuCo-RAG也能带来4-8个百分点的提升。有趣的是,这些GPT模型自带的网络搜索功能反而表现不佳,往往比不使用任何检索的baseline还要差,这说明简单的网络搜索并不能有效解决复杂推理中的幻觉问题。

四、深入分析:方法的精妙之处

为了更深入理解QuCo-RAG的工作机制,研究团队进行了详细的消融实验。他们发现,两个检测阶段都对最终性能有重要贡献,但作用方式不同。预生成知识评估(第一阶段)主要帮助系统识别那些涉及冷门知识的问题,平均能带来2.5个百分点的提升。而运行时声明验证(第二阶段)的贡献更大,能带来5.1个百分点的提升,这表明实时的幻觉检测是系统成功的关键。

研究团队还分析了不同实体频率范围内的表现差异。他们将测试问题按照其中实体的平均频率分成几个区间,结果发现了一个有趣的模式。在低频实体区间(频率0-10),QuCo-RAG的优势最为明显,比无检索基线提升了10-17个百分点。这正好验证了方法的核心假设:实体频率确实是预测AI知识可靠性的有效指标。

更令人惊讶的是,在高频实体区间(频率>1000),QuCo-RAG仍然能够持续改进,而许多基线方法的表现反而出现下降。研究团队分析认为,这种现象源于两个原因:首先,传统方法在面对熟悉概念时容易过度自信,即使生成错误内容也不会触发检索;其次,高频实体在语料库中有更丰富的关系文档,使得共现统计更加可靠。

为了测试方法的领域泛化能力,研究团队在生物医学问答数据集PubMedQA上进行了额外实验。这个领域的知识高度专业化,与通用语料库的重叠相对较少。尽管如此,QuCo-RAG仍然取得了最佳的准确率(66.4%),同时保持了很高的效率(平均每问题0.93次检索,54.9个词汇消耗)。

有趣的是,传统的内部信号方法在这个专业领域表现出了两种截然不同的失败模式。FLARE方法出现了过度检索的问题,平均每个问题触发2.79次检索,大大增加了计算成本。而DRAGIN和ETC方法则出现了检索不足的问题,它们的表现甚至不如完全不使用检索的基线。这说明内部信号方法难以适应领域变化,而基于语料库统计的方法具有更好的鲁棒性。

五、技术实现的巧思

QuCo-RAG系统的技术实现体现了研究团队的巧妙设计。为了最小化系统开销,他们开发了一个轻量级的知识三元组抽取器。这个抽取器基于GPT-4o-mini进行蒸馏训练,使用4万个精心标注的样本,最终得到一个只有5亿参数的专用模型。这个模型可以高效地从生成的句子中提取形如(主体,关系,客体)的知识三元组。

抽取器的训练策略很有针对性。对于包含事实性知识的陈述句,它会提取完整的知识三元组;对于问句,它会提取部分三元组(因为答案未知);对于推理结论性的句子(如"因此"、"所以"开头的句子),它会返回空结果,因为这些句子通常不包含新的可验证事实。

在共现验证方面,系统选择检查主体和客体的共现而不是包含关系的完整三元组。这个设计决策基于一个重要观察:关系表达具有高度的词汇变异性(比如"就职于"vs"工作在"vs"受雇于"),而命名实体相对稳定。因此,检查实体对的共现既保持了验证的准确性,又避免了关系表达变化带来的困扰。

系统设置了合理的阈值参数:实体频率阈值设为1000,共现阈值设为1。研究团队发现,这些参数在相当大的范围内都表现稳定。实体频率阈值可以在10^3到10^7之间变化而不显著影响性能;而共现阈值为1具有清晰的语义:零共现强烈提示潜在幻觉。

为了保证实时性能,系统充分利用了Infini-gram这一先进的索引工具。Infini-gram使用后缀数组技术,能够在毫秒级时间内处理针对万亿词汇语料库的n-gram查询。这种高效性使得QuCo-RAG可以在不明显影响对话流畅性的情况下进行实时验证。

六、现实意义与局限性

QuCo-RAG方法的成功不仅仅是学术上的进步,更具有重要的现实意义。在当前AI系统广泛部署的背景下,如何确保AI生成内容的可靠性成为一个迫切的社会问题。传统的后验事实检查往往为时已晚,而QuCo-RAG提供了一种前瞻性的解决方案。

这种方法特别适用于那些对准确性要求较高的应用场景。比如在医疗咨询、法律分析、教育辅助等领域,AI的错误信息可能导致严重后果。通过实时检测和纠正潜在的幻觉内容,QuCo-RAG可以显著提高这些关键应用的可靠性。

同时,这项研究还为AI安全性提供了新的视角。不同于试图让AI"学会说不知道"的传统方法,QuCo-RAG提供了一个客观、可验证的不确定性量化机制。这种外部化的验证方式更加透明和可解释,也更容易被监管和审计。

然而,研究团队也诚实地承认了方法的局限性。首先是词汇匹配的限制。当前的共现验证依赖于精确的词汇匹配,可能会错过那些使用不同表述但指向同一实体的情况。比如"纽约市"和"NYC"指向同一地点,但在系统看来它们是不同的实体。这种限制可能导致一些误报。

其次是静态语料库的时间局限性。预训练语料库通常有一个固定的截止时间,无法包含更新的信息。因此,对于那些在语料库创建之后出现的新实体或新事件,系统可能无法提供准确的统计信息。这个问题需要通过定期更新语料库索引来解决。

尽管存在这些局限性,研究团队认为这些都是可以通过技术改进来解决的问题。比如,可以引入实体链接和标准化技术来解决词汇变异问题;可以建立动态更新机制来保持语料库的时效性。更重要的是,当前方法的保守策略(宁可多检索也不愿意错过幻觉)在大多数应用场景中是合适的,因为多余检索的代价通常远小于错误信息的代价。

七、未来展望与启示

QuCo-RAG的成功开启了AI可靠性研究的新方向。这项研究表明,与其试图让AI系统"内省"自己的知识状态,不如建立外部的、客观的验证机制。这种思路可能对整个AI领域产生深远影响。

研究团队展望了几个值得探索的方向。首先是多语言验证,通过跨语言的统计信息来增强验证的鲁棒性。其次是时间动态建模,考虑知识的时间演化特性。第三是扩展到事件、关系和数值声明的验证,而不仅仅是实体关系。

从更广泛的角度看,这项研究体现了一个重要趋势:从推理时干预转向数据驱动的AI改进。通过精确识别模型的知识gaps,研究者不仅可以在推理时进行补偿,还可以指导训练数据的收集和模型的进一步优化。这种数据中心的思维方式可能会重新定义AI系统的开发和部署流程。

QuCo-RAG还为AI的可解释性提供了新的思路。传统的可解释性方法通常关注模型的内部机制,而QuCo-RAG提供了一种基于外部证据的解释框架。当系统判断某个生成内容不可靠时,它可以明确指出缺乏哪些统计证据支持,这种解释更加直观和可验证。

最后,这项研究对AI治理和监管也有重要启示。随着AI系统在社会中扮演越来越重要的角色,如何确保其输出的可靠性成为一个治理难题。QuCo-RAG提供的客观验证机制可能成为AI审计和监管的重要工具。监管者可以要求AI服务提供商实施类似的验证机制,以确保其系统的可靠性达到一定标准。

总的来说,这项由芝加哥伊利诺伊大学团队领导的研究不仅解决了一个重要的技术问题,更为AI的可靠性和安全性研究开辟了新的道路。它提醒我们,有时候解决复杂问题的最好方法不是让系统变得更聪明,而是给它提供更好的工具来认识和承认自己的局限性。在AI技术日新月异的今天,这种谦逊而务实的方法论可能正是我们最需要的。

Q&A

Q1:QuCo-RAG是什么技术?

A:QuCo-RAG是芝加哥伊利诺伊大学团队开发的一种新型AI可靠性检测技术。它通过检查AI训练数据中的统计信息来判断AI回答是否可靠,而不是依赖AI内部的信号。当发现AI可能不了解某个问题时,系统会让AI先查阅资料再回答。

Q2:QuCo-RAG如何检测AI是否在"胡编乱造"?

A:QuCo-RAG采用两阶段检测:第一阶段检查问题中概念在训练数据中的出现频率,频率太低说明AI可能不熟悉;第二阶段检查AI声称的事实关联是否在训练数据中得到支持,如果两个概念从未同时出现过,很可能是AI在编造关系。

Q3:这项技术能解决所有AI幻觉问题吗?

A:不能完全解决,但能显著改善。QuCo-RAG在多个测试中将AI准确率提升了5-14个百分点。它的局限性包括只能检测词汇完全匹配的情况,以及受训练数据时效性限制。但这种基于客观统计的方法比传统的内部信号检测要可靠得多。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-