微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI也会"说谎"?Adobe研究院推出双重核查机制,让大语言模型的每一句话都有据可查

AI也会"说谎"?Adobe研究院推出双重核查机制,让大语言模型的每一句话都有据可查

2026-05-04 12:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-04 12:46 科技行者

这项由Adobe及Adobe Research团队共同完成的研究,以预印本形式发布于2026年4月23日,论文编号为arXiv:2604.21193,感兴趣的读者可通过该编号检索完整论文。

我们每天都在和各种AI助手打交道——问它们问题,让它们帮忙写文章,甚至请它们辅助医疗咨询和法律分析。这些AI往往表现得非常自信,措辞流畅、逻辑清晰,看起来什么都懂。但有一个令人不安的事实:它们有时会一本正经地编造根本不存在的事实,而且说谎的时候和说真话时一样镇定自若。

这个问题在学术界有个专门的名字叫"幻觉"(hallucination),意思是AI凭空生成了听起来合理但实际上错误的信息。这在日常聊天里也许只是个小笑话,但在医疗、法律、科学这些领域,一个错误的陈述可能带来严重后果。正是为了应对这一挑战,Adobe的研究团队构建了一套名为DAVinCI的框架——这个名字既致敬了文艺复兴时代的全才达·芬奇,也是"双重归因与验证推断"这一英文全称(Dual Attribution and Verification in Claim Inference)的缩写。

DAVinCI的核心思路可以用一个生活场景来理解:假设你的朋友告诉你一件事,你会怎么判断他说的是否可信?你可能会追问"你从哪里听来的",然后自己去查一查那个消息来源是否靠谱,最后再结合他平时的可信度打个折扣。DAVinCI做的事情与此完全一致——它先追问AI的陈述"证据在哪里",再由一个独立的"检察官"来判断证据和陈述是否吻合,最后还会给出一个置信度评分,如果这个评分太低,就主动说"我不确定"而不是强行下结论。

这套框架在FEVER和CLIMATE-FEVER两个公开数据集上进行了测试,最终将分类准确率和F1分数提升了5%到20%。接下来,我们就来详细拆解这套系统究竟是如何运作的,以及它的每个组件究竟起到了什么作用。

一、AI为什么会"说谎",而且说得这么自信

要理解DAVinCI解决的问题,首先得弄清楚大语言模型(LLM)究竟是个什么东西。

可以把大语言模型理解成一个读了海量书籍、文章和网页的"超级鹦鹉"。它通过不断预测"下一个词应该是什么"来生成文本,这个过程让它产生了惊人的语言流畅性。但问题在于,它在生成文字时并没有一个独立的"事实核查部门"在旁边把关。它只是在做统计意义上的词语拼接——哪些词在语言上最自然地接在前面的内容后面,它就输出哪些词。

正因如此,当它遇到一个它"不太确定"的问题时,它不会说"我不知道",而是会生成一段听起来最像正确答案的文字。这就像一个临时抱佛脚的学生在考试中遇到不会的题,凭着对题目风格的感知硬写了一段听起来像正确答案的内容——有时候能蒙对,有时候则完全是无中生有。

这个问题在高风险领域尤为突出。研究团队引用了大量前人工作来说明这一点:从新闻核查、到科学写作、再到法律分析,人们对AI输出内容的可信度越来越高,但AI自身的"自我约束"机制却远未跟上。现有的解决方案各有局限:有的系统只做信息检索,不做真假判断;有的系统只做真假判断,却不说明判断依据。更关键的是,大多数系统把"找证据"和"判断真假"当成两个完全独立的步骤,没有让这两个环节相互配合、相互增强。DAVinCI要做的,正是把这两个环节打通,让"找什么证据"和"怎么判断真假"形成一个互相反馈的闭环。

二、DAVinCI的两大核心引擎:归因模块与验证模块

DAVinCI的工作流程好比一套严格的新闻核查程序,分为两个紧密相连的环节。

第一个环节是"归因",即找证据。当系统收到一个待核查的陈述(比如"卡罗琳·肯尼迪是美国人"),归因模块的任务是找出与这个陈述最相关的证据文本。研究团队在这里设计了两种不同的策略,分别应对不同的现实场景。

第一种策略叫做"全证据归因",即直接使用完整的证据段落。在FEVER和CLIMATE-FEVER这两个数据集中,每个陈述都配有经过人工标注的标准证据文本,系统可以直接拿来使用,不做任何裁剪。以上面的例子为例,证据就是:"卡罗琳·布维尔·肯尼迪(生于1957年11月27日)是一位美国作家、律师和外交官,曾于2013年至2017年担任美国驻日本大使。"有了这段完整的证据,"她是美国人"这一陈述就被标记为"支持"(ENTAILMENT)。

第二种策略叫做"基于片段的归因",更接近现实世界的使用场景。在真实情况下,我们往往没有现成的标准证据,只有一大堆可能相关的文本。这时候,系统会调用一个专门的问答模型(基于RoBERTa架构的阅读理解模型),把待核查的陈述当作"问题",从候选证据中抽取最相关的一段文字作为答案。这种方法的优点是能够精确定位关键信息,但缺点是可能遗漏重要的上下文,正如后面的实验结果所揭示的那样。

用一个类比来说明这两种策略的区别:全证据归因好比你拿到了一整份侦探报告,所有线索都完整呈现;而基于片段的归因则像你只能从报告中挑出几句关键句子,有时候单句话脱离上下文会产生歧义,判断难度自然更大。

第二个环节是"验证",即判断真假。归因模块找到证据之后,这段证据会连同原始陈述一起被送入一个"自然语言推理"(NLI)模型。这个模型的任务是判断:给定这段证据,该陈述是"被支持的"、"被反驳的",还是"证据不足"?

系统的输入格式非常直接,就是把陈述和证据拼在一起:[陈述] [分隔符] [归因证据]。模型会为这个组合给出一个标签,同时输出一个介于0到1之间的置信度分数——0表示完全不确定,1表示非常确定。

研究团队测试了四种不同的验证模型,分别是微软的DeBERTa-large、Facebook的RoBERTa-large、Facebook的BART-large,以及一个在多个推理数据集上联合训练的RoBERTa-large模型。这四种模型各有侧重,通过对比它们的表现,研究团队能够更全面地评估DAVinCI框架的通用性,而不是仅仅为某一个模型量身定制。

三、置信度重校准:给"不确定"一个合法出口

DAVinCI最具特色的设计之一,是它的置信度重校准机制。

在没有这套机制的情况下,验证模型会对每一个输入都给出一个确定的答案——要么支持,要么反驳,要么证据不足。但现实中存在大量"灰色地带":证据模糊、陈述含义不清、或者找到的证据段落本身不够充分。在这种情况下,模型往往会给出一个"勉强的答案",但它的置信度分数会比较低,反映出内在的不确定性。

DAVinCI的做法是设置一个阈值τ(默认值为0.6):如果模型的置信度分数低于这个阈值,无论它原本给出什么标签,都会被强制改为"信息不足#"(Not Enough Info#,用"#"符号表示这是经过重校准后的结果)。这就相当于给模型设了一条底线:只有当你足够有把握的时候,才能下结论;否则,诚实地承认"我不确定"远比给出一个错误答案更有价值。

这种设计背后有深刻的实践智慧。回到新闻核查的比喻:一个负责任的记者在证据不充分时,宁愿说"目前尚无定论",也不会冒险发布一篇可能出错的报道。DAVinCI的重校准机制正是把这种职业素养内化进了系统的决策逻辑。

对于有多条证据的情况,DAVinCI会对各条证据的验证结果进行汇总,采用多数投票或加权平均的方式得出最终判断。这进一步提升了系统的鲁棒性,避免单条质量较差的证据导致错误结论。

研究团队还对不同的阈值设置进行了系统性测试,分别测试了0.7、0.8和0.9三个阈值,以探索精确率与召回率之间的权衡关系。这部分内容在后面的消融实验中会详细展开。

四、测试场地:两个专为"核查真假"设计的数据集

为了评估DAVinCI的实际表现,研究团队选择了两个在事实核查领域具有广泛影响力的数据集。

FEVER数据集是事实核查研究的经典基准,包含从维基百科中提取的陈述,每条陈述都被人工标注为"蕴含"(entailment)、"矛盾"(contradiction)或"中立"(neutral),并附有相应的证据句子。研究团队使用的子集共包含2287条样本,其中蕴含类792条、矛盾类812条、中立类683条,三类分布相对均衡。

CLIMATE-FEVER数据集则聚焦于气候变化这个专业领域,陈述来源于科学文献,标签分为"支持"、"反驳"和"信息不足"三类。这个数据集的特殊之处在于它的类别分布极为不均衡:在共计1535条样本中,"信息不足"类有996条,占比接近65%,而"反驳"类只有164条。这种不均衡性让分类任务更具挑战性,也更贴近现实——在真实的科学声明中,大量陈述都处于"无法确定"的状态。

这两个数据集的组合非常有意思:FEVER测试的是通用知识领域的核查能力,CLIMATE-FEVER则考验系统在专业科学语境下的表现。一个真正有用的核查系统,必须在这两个场景下都能可靠运作。

五、实验结果:DAVinCI的全面表现

研究团队将DAVinCI与"纯验证基线"进行了对比,即直接将完整证据输入验证模型、不做任何归因处理或置信度重校准的版本。这种对比设计让我们能清楚地看到,DAVinCI的哪些环节真正带来了性能提升。

在FEVER数据集上,四个模型经过DAVinCI-Recalibrated处理后,均表现出一致的提升。以DeBERTa-large为例,准确率从0.42提升到0.48,宏观F1分数从0.36提升到0.41,宏观精确率从0.52跃升至0.61,加权精确率从0.53提升至0.62。RoBERTa-large-mnli的提升更为显著,准确率从0.36提升至0.44,宏观F1分数从0.30增至0.38。BART-large的提升相对温和,准确率从0.42提升至0.43,F1分数从0.36提升至0.37。RoBERTa-large-snli的准确率从0.38提升至0.42,宏观F1分数从0.34提升至0.40。

在CLIMATE-FEVER数据集上,DAVinCI同样带来了跨模型的一致提升。DeBERTa-large的准确率从0.60提升至0.63,加权F1从0.51提升至0.55。RoBERTa-large-mnli的准确率从0.60提升至0.63,加权F1从0.54提升至0.57,宏观F1从0.38提升至0.44。BART-large的整体提升较为平稳,RoBERTa-large-snli则从基线的0.65准确率提升至0.66,加权F1从0.54提升至0.56。

值得关注的是,在这两个数据集上,DeBERTa-large-mnli在经过DAVinCI处理后,在精确率指标上表现最为突出——FEVER上达到宏观精确率0.61、加权精确率0.62,这意味着当它做出判断时,这些判断的质量相当可靠。而即便是基线分数较低的RoBERTa-large-mnli,在DAVinCI的加持下也获得了显著提升,说明这套框架的增益效果不依赖于某一特定模型的先天优势,具有相当好的普适性。

六、消融实验:拆开零件,看看谁最重要

消融实验是研究中非常重要的一个环节,它的作用好比拆解一辆汽车,把发动机、变速箱、刹车系统一个个单独测试,看看拿掉哪个零件会让车跑不动。DAVinCI的消融实验主要比较了三件事:全证据归因和片段归因哪个更好,以及不同的置信度阈值如何影响性能。

关于全证据归因与片段归因的对比,实验结果非常清楚地指向了同一个方向:完整证据远胜于提取片段。在FEVER数据集上,全证据版本比片段版本在准确率上高出9%到18%,F1分数也更加稳定。最极端的例子是RoBERTa-large-snli:使用全证据时,它的宏观F1分数可以达到0.48;而只用提取片段时,这个分数直接跌到0.19——足足相差29个百分点。

在CLIMATE-FEVER数据集上,差距同样明显但稍微小一些:全证据版本相对于片段版本的准确率提升幅度在1.6%到19.6%之间,其中RoBERTa-large-mnli的提升幅度接近20%,DeBERTa-large和BART-large的提升幅度在5%到7%之间。

这个结果背后的逻辑其实不难理解:核查一件事的真假,往往需要理解整段话的语境,而不是某个孤立的片段。把一句话从上下文中抽出来,有时候意思会完全反转。这对AI系统在实际应用中如何进行信息检索提出了明确要求:宁可多检索一些完整段落,也不要过度依赖精准但可能断章取义的短片段。

关于不同阈值的影响,研究团队在FEVER和CLIMATE-FEVER两个数据集上分别测试了0.7、0.8、0.9三个阈值,发现了一个在两个数据集上均成立的规律:阈值越高,精确率越高,但召回率越低,整体准确率也随之下滑。

在FEVER数据集上,阈值0.7时DeBERTa-large的准确率为0.47,到0.8时降至0.46,0.9时进一步降至0.45。最极端的变化发生在RoBERTa-large-snli上:阈值0.7时准确率为0.38,宏观F1为0.33;到了0.9时,准确率跌至0.31,宏观F1更是暴跌至0.19。

在CLIMATE-FEVER数据集上,情况略有不同——精确率随阈值提高而稳步上升,而准确率的下降幅度非常有限,最大不超过1.6%。这说明对于CLIMATE-FEVER这个类别分布不均衡的数据集,提高阈值在不大幅牺牲准确率的前提下,能显著减少误判。

综合来看,阈值0.7在两个数据集上都提供了精确率与召回率之间最佳的平衡点,而阈值0.9则适合那些"宁可放过,不可错杀"的高风险场景——比如医疗或法律领域,在这些场景中误报的代价远大于漏报。

七、这套系统有哪些局限,未来路在何方

任何诚实的研究都必须正视自己的局限,DAVinCI也不例外。

第一个局限是对高质量证据的依赖。DAVinCI的表现建立在能够找到相关证据的前提之上。在FEVER和CLIMATE-FEVER这样的数据集中,证据是由人工标注提供的,质量有保障。但在真实的开放域场景中,系统需要从互联网或知识库中自动检索证据,检索质量直接决定了后续验证的上限。消融实验中片段归因的糟糕表现,正是对这一问题的预警。

第二个局限是验证模块依赖静态的推理模型。当前使用的四个NLI模型都是在特定数据集上训练好的固定模型,它们可能难以处理需要多步骤推理的复杂陈述,也可能在面对特定领域的专业词汇时表现欠佳。

第三个局限是缺少内部归因能力。DAVinCI目前只能追溯"外部证据"——即从现有文本中找证据。但它无法追溯AI生成某个陈述的内部原因——比如是训练数据中的哪些内容导致了这个陈述,或者是模型结构的哪个部分产生了这个输出。这种"内部归因"能力对于真正理解和纠正AI的幻觉问题同样至关重要。

第四个局限是语言覆盖范围有限。目前的实验完全在英语数据集上进行,对于中文、法语、西班牙语等其他语言的适用性尚未经过验证。

第五个局限是阈值需要人工调整。当前的置信度阈值是手动设定的,在不同领域、不同任务之间可能需要重新调整,缺乏自适应能力。

针对这些局限,研究团队规划了若干未来方向:引入密集检索器(如DPR、E5)替代当前的片段提取方式,增强信息检索质量;开发多跳推理模块,处理需要串联多条证据才能判断真假的复杂陈述;探索基于提示追踪(prompt tracing)或激活聚类(activation clustering)的内部归因技术;将框架扩展至多语言和低资源语言环境;以及研究自适应的置信度校准策略,减少对人工调参的依赖。

说到底,DAVinCI解决的是一个非常实际的问题:我们已经把大量的信任交给了AI,但AI并不总是值得信任。这套框架的价值不在于让AI变得更聪明,而在于让AI变得更诚实——不只告诉你答案,还告诉你答案的依据,甚至在没有足够依据时主动承认不确定。

从实验数据来看,这套设计路线是有效的。在FEVER和CLIMATE-FEVER两个数据集上,无论是准确率、精确率、召回率还是F1分数,DAVinCI都实现了一致的、跨模型的提升,改善幅度在5%到20%之间。更重要的是,这套框架是模块化的——归因模块和验证模块可以独立替换和升级,这意味着随着检索技术和推理模型的持续进步,DAVinCI的整体性能也有望随之水涨船高。

我们正处于AI被广泛应用于高风险决策的关键时期,一个能够说出"这是我的依据,我有X%的把握"的AI系统,远比一个只会给出答案却无法解释原因的系统更值得信赖。如果你对这套框架的技术细节感兴趣,可以通过论文编号arXiv:2604.21193查阅完整论文,或访问文中提到的代码仓库获取可复现的实现版本。

Q&A

Q1:DAVinCI框架和普通的AI事实核查系统有什么区别?

A:普通的AI核查系统通常只做"验证"这一步,即判断某句话是真是假,但不解释判断依据。DAVinCI的不同之处在于它将"归因"和"验证"打通成一个闭环:先找证据,再根据证据判断真假,最后还会给出置信度评分——如果评分太低,系统会主动说"我不确定"而不是强行下结论。这种设计让整个判断过程透明可追溯,更适合医疗、法律等高风险领域。

Q2:DAVinCI中的置信度阈值是什么意思,普通用户需要关心它吗?

A:置信度阈值(τ)是一个门槛值,当系统对某个判断的把握低于这个门槛时,它会自动把结论改为"信息不足",而不是给出一个不可靠的答案。研究发现0.7是两个测试数据集上最佳的平衡点,但如果应用场景对准确性要求极高(如医疗诊断),可以提高到0.9,代价是会有更多陈述被标记为"不确定"。普通用户如果直接使用基于DAVinCI的产品,不需要手动调整,但了解这个机制有助于理解为何系统有时会说"无法确认"。

Q3:DAVinCI框架目前支持中文或其他语言吗?

A:目前不支持。DAVinCI的所有实验均在英语数据集(FEVER和CLIMATE-FEVER)上进行,研究团队也明确将多语言和低资源语言的扩展列为未来工作方向之一。因此,现阶段这套框架主要适用于英语场景,中文或其他语言的适用性需要等待后续研究。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-