微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 揭秘事实核查的不确定性:哥本哈根大学研究团队如何让AI解释证据冲突

揭秘事实核查的不确定性:哥本哈根大学研究团队如何让AI解释证据冲突

2025-06-01 08:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 08:06 科技行者

你有没有好奇过,当AI告诉你某条新闻是"假的"时,它到底有多确定?又是根据什么做出这个判断的?当不同证据相互矛盾时,AI又是如何权衡的?哥本哈根大学的研究团队最近在这个问题上取得了重要突破。

这项由哥本哈根大学的Jingyi Sun、Greta Warren(共同第一作者)、Irina Shklovski和Isabelle Augenstein教授共同完成的研究,发表于2025年5月的arXiv预印本平台(arXiv:2505.17855v1),标题为《解释自动化事实核查中的不确定性来源》(Explaining Sources of Uncertainty in Automated Fact-Checking)。

在我们日常接触的信息海洋中,辨别真假变得越来越重要,也越来越困难。大型语言模型(LLMs)正在被越来越多地应用于事实核查等高风险任务。然而,现有的自动化事实核查系统通常只会告诉你一个结论("支持"、"反驳"或"中立"),以及一个数字化的置信度分数(比如"我73%确定")。这种表达方式对用户来说往往难以理解和采取行动。更重要的是,这些系统缺乏对不确定性来源的解释,特别是当面对矛盾证据时。

想象一下这个场景:你想核查"猫可以感染新冠病毒并将其传播给其他猫"这一说法。AI告诉你这个说法是正确的,但它只有73%的把握。作为用户,你不仅想知道AI为什么不是100%确定,更想了解是哪些证据让它犹豫不决。是证据不足?还是证据之间存在冲突?

哥本哈根大学的研究团队开发的CLUE(Conflict-&Agreement-aware Language-model Uncertainty Explanations)框架正是为解决这个问题而生。这个框架不仅能告诉你AI的判断及其确定程度,还能明确指出导致AI不确定性的具体证据冲突或一致点。

CLUE框架的独特之处在于它采用了两步走的方法:首先,以无监督的方式识别文本中表达声明-证据或证据之间冲突/一致关系的关键片段;然后,通过提示和注意力引导,生成自然语言解释,清晰表达这些关键交互如何影响模型的预测不确定性。

让我们一起深入了解这项研究如何让AI的事实核查变得更加透明和可理解。

一、为什么我们需要解释AI的不确定性?

当我们使用AI进行事实核查时,仅仅知道AI的判断结果是远远不够的。想象一下,你是一名专业事实核查员,正在调查一条关于新冠病毒的信息。AI告诉你:"这条信息是正确的,我73%确定。"这样的回答对你帮助有限。你需要知道AI是基于什么证据做出这个判断的,更重要的是,你需要知道为什么AI不是100%确定——是哪些因素导致了剩余的27%不确定性。

现有的解释方法主要集中在两个方面:一是提供数字化的不确定性分数(如"我73%确定"),二是使用模糊表达(如"我不太确定,但...")。但研究表明,这两种方式都存在问题。数字化分数难以被用户理解和利用,而模糊表达则往往无法真实反映模型的不确定性,有时还会让用户高估模型的信心。

更重要的是,这些方法都没有解释不确定性的来源,特别是当面对相互矛盾的证据时。在事实核查的实际工作中,事实核查员需要明确识别不确定性的来源(例如来自矛盾证据),才能有针对性地进行验证。

这就是CLUE框架的创新之处。它不仅告诉你AI的判断和确定程度,还能明确指出导致AI不确定性的具体证据冲突或一致点。这种方法能够帮助用户理解AI的推理过程,为后续的验证工作提供明确的方向。

举个例子,在检验"猫可以感染新冠病毒并将其传播给其他猫"这一说法时,CLUE可能会指出:"证据1中提到'有可能通过家养宠物传播SARS-CoV-2',而证据2中提到'没有进一步传播给其他动物或人类的事件',这一矛盾是导致模型不确定性的主要原因。"这样的解释让用户清楚地知道,不确定性来源于两个证据之间的矛盾,并可以据此决定是否需要查找更多证据来解决这个矛盾。

二、CLUE框架:如何揭示AI的不确定性来源

CLUE框架的核心思想是通过识别文本片段之间的交互关系,揭示模型不确定性的来源。它的工作流程可以分为三个主要步骤:不确定性评分、冲突/一致提取和解释生成。

### 1. 不确定性评分

首先,CLUE需要量化模型对特定输入的不确定性程度。每个输入实例包含三部分:一个声明C和两个证据片段E1、E2。模型会基于这些输入预测一个标签(支持、反驳或中立)。

CLUE采用预测熵(predictive entropy)来量化模型的不确定性。预测熵基于模型输出的概率分布计算:

对于每个候选标签yi(支持、反驳或中立),模型会给出一个概率P(yi|X)。CLUE通过计算这个概率分布的熵来量化不确定性:值越高,表示模型越不确定;值越低,表示模型越确定。

这就好比你在猜一个人心里想的数字。如果你觉得各种可能性差不多(概率分布平均),你的不确定性就高;如果你很确定是某个特定数字(概率分布集中),你的不确定性就低。

### 2. 冲突和一致性片段提取

确定了不确定性分数后,CLUE的下一步是找出导致这种不确定性的文本片段交互。这一步是CLUE最创新的部分。

CLUE通过分析声明和证据之间,以及不同证据之间的注意力模式来提取重要的片段交互。具体来说,它会:

首先,找出模型最后一层中对答案预测最重要的注意力头,获取其注意力矩阵。 然后,计算跨部分的对称化注意力分数,构建一个基于注意力权重的二部分词图。 最后,使用Louvain算法将这个图划分为连续的文本片段,并计算每对片段之间的交互重要性。

这个过程有点像检测一篇文章中哪些段落之间存在强烈的联系。如果声明中的"猫可以传播新冠病毒"和证据中的"没有进一步传播的事件"之间有强烈的注意力连接,CLUE就会识别出这两个片段之间存在重要的交互关系。

接下来,CLUE会使用GPT-4o为每对提取的片段标注关系类型:同意(agree)、不同意(disagree)或无关(unrelated)。这样,CLUE就能够识别出导致模型不确定性的具体文本片段及其关系类型。

### 3. 不确定性自然语言解释生成

有了片段交互及其关系标签,CLUE的最后一步是生成自然语言解释,说明这些交互如何影响模型的不确定性。

CLUE提供了两种方法来生成解释:

第一种是基于指令的提示。CLUE会将提取的前K=3个最重要的片段交互填入一个三段式提示模板,指导模型解释这些交互如何影响其确信度。

第二种是注意力引导。除了提示外,CLUE还可以在生成过程中动态修改模型的注意力,引导它关注提取的关键片段。具体来说,它会选择与模型不确定性最相关的100个注意力头进行引导,通过降低非目标词元的权重(设为原来的1%),使模型更加关注关键片段。

这两种方法就像是在给AI讲故事时,一方面告诉它应该关注哪些重要内容(指令提示),另一方面还在它表达过程中轻轻引导它的注意力(注意力引导)。

通过这三个步骤,CLUE能够生成详细解释模型不确定性来源的自然语言解释,帮助用户理解模型的推理过程和不确定性来源。

三、CLUE如何在实际中工作?

为了测试CLUE的效果,研究团队在两个事实核查数据集上进行了实验:HealthVer(健康领域特定的数据集)和DRUID(更接近真实世界事实核查场景的数据集)。他们选择了这两个数据集是因为它们每个声明都提供了多个证据片段,非常适合研究证据冲突导致的不确定性。

研究团队使用了三个开源的指令调优语言模型进行测试:Qwen2.5-14B-Instruct、OLMo-2-1124-13B-Instruct和Gemma-2-9B-IT。他们比较了三种生成解释的策略:

1. PromptBaseline:一个三段式提示基线,扩展了之前的少样本自然语言解释工作,明确要求模型突出影响其不确定性的冲突或支持性片段。

2. CLUE-Span:CLUE的指令型变体,其中提取的片段交互被填入三段式提示以指导解释生成。

3. CLUE-Span+Steering:CLUE的注意力引导变体,在使用与CLUE-Span相同提示的基础上,额外应用注意力引导,引导模型的解释生成过程关注已识别的片段。

### 自动评估结果

研究团队从多个维度评估了CLUE的效果:

1. 忠实度(Faithfulness):他们提出了一种新的评估指标——Entropy-CCT,用于测量生成的解释对模型不确定性的忠实反映程度。结果显示,PromptBaseline在所有六种设置中都表现出非忠实性,其解释提到真正有影响的词元的概率比无影响的词元低3-13个百分点。相比之下,CLUE的两个变体都扭转了这一趋势,特别是CLUE-Span+Steering在DRUID-Qwen设置中达到了0.102的相关性,比PromptBaseline提高了约18个百分点。

2. 片段覆盖率(Span-Coverage):CLUE-Span+Steering的表现优于CLUE-Span,表明注意力引导方法在引导模型关注提供的片段方面的有效性。在Qwen模型上,最高的片段覆盖率达到了44%。

3. 片段外部内容(Span-Extraneous):CLUE-Span+Steering也在这一指标上表现最好,在Qwen模型上的最低分数为20%,表明它能更好地避免引入非提取片段的内容。

4. 标签-解释一致性(Label-Explanation Entailment):CLUE的两个变体都比基线取得了更强的标签-解释一致性分数,产生的解释在逻辑上与预测标签更加一致,同时仍然忠实于模型的不确定性模式。

### 人类评估结果

研究团队还招募了12名参与者对40个实例(20个来自DRUID,20个来自HealthVer)的解释进行排名。参与者根据五个标准对解释进行评估:

1. 有用性(Helpfulness):解释提供的信息是否有助于读者判断声明和进行事实核查。 2. 覆盖率(Coverage):解释是否捕捉了输入中所有与事实核查相关的重要信息。 3. 非冗余性(Non-redundancy):解释是否不包含与声明和事实核查无关的冗余或重复信息。 4. 一致性(Consistency):解释是否不包含与输入在逻辑上矛盾的信息。 5. 整体质量(Overall Quality):综合考虑所有标准的解释整体质量。

结果显示,由CLUE生成的解释比PromptBaseline生成的解释更受参与者欢迎:CLUE-Span+Steering生成的解释被评为最有用、覆盖率最高、冗余信息最少,而CLUE-Span生成的解释被评为一致性最高、整体质量最佳。

研究人员注意到,虽然CLUE-Span+Steering在忠实度方面表现最好,但参与者对其整体质量的评价略低于CLUE-Span。这可能是因为虽然CLUE-Span+Steering更忠实于提取的关键片段交互,但它可能产生的解释在内部一致性或流畅性方面略逊一筹。这突显了忠实性和合理性之间的权衡,这是解释AI系统中的一个普遍挑战。

此外,研究人员还观察到数据集之间的细微差异:对于DRUID数据集,CLUE-Span+Steering的评分往往高于CLUE-Span,而对于HealthVer则相反。这可能源于输入的长度和复杂性差异:DRUID的证据文档来自异构的在线来源,通常由较长形式的新闻文章组成,可能比HealthVer的证据文档(由科学摘要的简短摘录组成)更能从注意力引导中受益。

四、CLUE的创新与局限

CLUE框架的主要创新在于它能够明确指出导致模型不确定性的具体证据冲突或一致点,这是之前的自动化事实核查系统所缺乏的。通过提取关键的片段交互并标注它们的关系类型,CLUE能够生成更加忠实于模型不确定性的自然语言解释,帮助用户理解模型的推理过程和不确定性来源。

CLUE的另一个优势是它不需要微调或架构更改,可以直接用于任何白盒语言模型。它也不需要金标签解释,避免了微调,完全在推理时操作。这使得它更加灵活和易于使用。

然而,CLUE也存在一些局限性:

1. 实验仅限于中等规模的模型(Qwen2.5-14B-Instruct、Gemma-2-9B-IT和OLMo2-13B-Instruct),未来可以探索更大规模模型的表现。

2. 研究仅关注了HealthVer和DRUID这两个数据集,这些数据集的声明与离散的证据片段配对,非常适合研究证据冲突场景。未来工作可以研究更复杂的证据结构(如长篇文档)、多样化的事实核查来源,以及每个声明超过两个证据片段的场景,以更好地反映真实世界的事实核查挑战。

3. 虽然研究通过普通人的评估证实了CLUE框架生成的解释质量高于提示基线,但还需要专家评估(如专业事实核查员)来评估其在高风险环境中的实际效用。

4. CLUE的研究范围仅限于解释源自证据冲突的模型不确定性。现实世界的不确定性可能还来自其他来源,包括证据不足、模型的知识缺口以及上下文-记忆冲突等。

五、CLUE对事实核查和AI可解释性的意义

CLUE框架的提出对事实核查和AI可解释性领域具有重要意义。在信息泛滥的今天,自动化事实核查系统的透明性和可解释性变得越来越重要。用户不仅需要知道一条信息是真是假,还需要理解系统是如何得出这个结论的,特别是当系统不是100%确定时。

传统的自动化事实核查系统往往只提供一个结论和一个置信度分数,缺乏对推理过程的解释,特别是当面对矛盾证据时。CLUE通过明确指出导致系统不确定性的具体证据冲突或一致点,提高了系统的透明性和可解释性,使用户能够更好地理解系统的推理过程,并据此做出更明智的决策。

对于专业事实核查员来说,CLUE提供的详细解释可以帮助他们更有针对性地进行验证工作,特别是当面对矛盾证据时。例如,当CLUE指出两个证据之间存在矛盾,事实核查员可以据此决定是否需要查找更多证据来解决这个矛盾。

对于AI可解释性研究领域来说,CLUE提供了一种新的思路:通过分析模型内部的注意力模式,提取关键的文本片段交互,并生成详细解释这些交互如何影响模型决策的自然语言解释。这种方法不仅适用于事实核查任务,还可以推广到其他需要推理复杂信息的任务。

总的来说,CLUE框架通过提供详细解释模型不确定性来源的自然语言解释,提高了自动化事实核查系统的透明性和可解释性,为用户提供了更有价值的信息,帮助他们做出更明智的决策。

结语

在这个信息爆炸的时代,辨别真假变得越来越重要,也越来越困难。大型语言模型在事实核查等任务中的应用为我们提供了新的可能性,但也带来了新的挑战。如何让AI的事实核查结果更加透明、可解释,特别是当面对矛盾证据时,成为了一个亟待解决的问题。

哥本哈根大学研究团队开发的CLUE框架为这个问题提供了一个创新的解决方案。通过明确指出导致模型不确定性的具体证据冲突或一致点,CLUE让AI的事实核查结果变得更加透明、可解释,帮助用户更好地理解AI的推理过程和不确定性来源。

实验结果表明,CLUE生成的解释在忠实反映模型不确定性和与事实核查决策保持一致方面表现优于基线方法。人类评估也证实,CLUE生成的解释更有用、信息量更大、冗余更少、在逻辑上与输入更一致。

虽然CLUE仍存在一些局限性,但它为自动化事实核查系统的透明性和可解释性提供了一个重要的突破,为未来的研究指明了方向。随着技术的不断发展,我们可以期待更加透明、可解释的自动化事实核查系统,帮助我们在信息海洋中更好地辨别真假。

如果你对这项研究感兴趣,可以通过arXiv:2505.17855v1访问完整论文,进一步了解CLUE框架的技术细节和实验结果。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-