微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI要给幻觉"找错",Technion研究院新方法让大语言模型成为"真假判官"

AI要给幻觉"找错",Technion研究院新方法让大语言模型成为"真假判官"

2025-10-30 09:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-30 09:36 科技行者

当我们让AI写一篇文章或做一个总结时,最担心的是什么?就是它"胡说八道"——明明文章里没有这个信息,AI却煞有介事地写了出来,这种现象在AI领域被称为"幻觉"。现在,以色列理工学院(Technion)和IBM研究院的科学家们想出了一个巧妙的办法:让AI自己来当"真假判官",专门找出这些胡编乱造的内容。

这项由Technion的Yehonatan Peisakhovsaky、Zorik Gekhman、Roi Reichart和IBM研究院的Yosi Mass、Liat Ein-Dor共同完成的研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.22582v2)。研究团队创建了一个专门的测试平台,用来检验大语言模型能否准确找出文本中的事实错误,就像给AI配了一副"火眼金睛"。

想象你是一位严格的老师,学生交给你一篇读书报告,你需要仔细核查报告中的每个细节是否与原书内容一致。传统的做法是逐句对比,费时费力且容易出错。而这些研究者提出的新方法,就是训练一个"超级助教",让它能够自动识别学生报告中哪些内容是胡编的、哪些是准确的。

研究的核心创新在于,他们不再用传统的"对号入座"方式来标记错误(比如圈出错误的词语或句子),而是让AI用自然语言来描述错误,就像人类会说"这里的时间不对,原文说的是7月20日,不是7月16日"。这种方法能够捕捉到各种复杂的错误类型,不会因为表达方式的限制而漏掉重要信息。

为了测试这个想法是否可行,研究团队构建了一个名为FINAL的评测基准。这个基准包含了1400多个精心标注的例子,每个例子都包括原始文档、AI生成的摘要,以及人工标注的事实错误描述。建立这个基准可不是件容易事,研究者们花费了大量时间进行人工标注,确保每个错误都被准确识别和描述。

一、用自然语言描述错误的新思路

传统的错误检测方法就像用固定的模板来批改作业。比如,只能标出"这个人名是错的"或"这个地点有问题",但无法具体说明错在哪里。研究者发现,这种僵硬的方法有很多局限性。

以一个具体例子来说明:假设原文提到"尼尔·阿姆斯特朗38岁,巴兹·奥尔德林39岁,他们在1969年7月16日执行阿波罗11号任务,四天后登上月球"。而AI生成的摘要却写成"1969年7月16日,尼尔·阿姆斯特朗和巴兹·奥尔德林都是39岁,参与了阿波罗11号任务并登上了月球"。

传统方法可能只能标出"年龄错误"和"日期错误",但无法清楚说明具体问题。而新方法则能生成详细的错误描述:摘要说两人都是39岁,但原文明确表示阿姆斯特朗是38岁;摘要声称他们在7月16日登月,但原文说的是四天后,即7月20日登月。

这种自然语言描述的优势在于能够处理各种复杂情况。当错误涉及多个相关信息的组合,或者需要一定推理才能发现时,自然语言描述能够完整表达错误的性质和原因。比如,当AI把"创纪录的销售量"写成了"破纪录的销售",虽然意思相近,但如果原文只说"销售量超过25万"而没有提到"创纪录",那么这就是一个添加了无法验证信息的错误。

研究团队还发现,用自然语言描述错误更符合大语言模型的工作方式。这些模型本身就是用自然语言进行交流的,让它们用同样的方式来描述错误,就像让一个会说话的人用说话而不是手势来表达观点一样自然。

这种方法的另一个重要优势是灵活性。传统方法需要预先定义错误类型,而自然语言描述可以适应任何类型的错误,甚至是研究者事先没有想到的错误类型。这就像给错误检测系统配备了一个"万能工具箱",而不是几把固定的工具。

二、FINAL评测基准的精心构建

构建一个高质量的评测基准就像烹饪一道复杂的菜品,需要精选原料、精心调配,还要反复品尝调整。研究团队从现有的DeFacto数据集出发,但发现原始数据就像半成品食材,需要大量的加工处理才能使用。

DeFacto数据集原本是为了研究如何让AI根据人类反馈来修正错误摘要而创建的。它包含了文档、摘要以及对错误的解释,但这些解释存在不少问题。有些解释含糊不清,有些把多个错误混在一起,还有些根本就是错误的标注。就像一个食谱写得不够详细,厨师很难按照它做出标准的菜品。

研究者们采用了两阶段的"料理"过程。第一阶段是"清洗整理":他们仔细检查了每个错误解释,把模糊的描述澄清,把混合的错误分离,把错误的标注纠正。这个过程涉及多种操作,比如把一个复杂的错误拆解成几个独立的错误,补充缺失的错误信息,删除不相关的内容等。

经过分析,研究者发现约25%的原始解释可以直接使用,48%需要简单的提取处理,剩下27%需要复杂的修正工作。这就像处理一批水果,有些可以直接食用,有些需要简单清洗,有些则需要去皮去核才能使用。

第二阶段是"营养补充":研究者意识到原始数据遗漏了很多错误,就像一道菜缺少了重要的调料。他们采用了人机协作的方式来发现这些遗漏的错误。具体做法是让GPT-4o这个AI模型用"高召回率"的方式来寻找可能的错误,然后由人类专家来判断这些建议是否正确。

这种协作方式很有效果,最终发现的错误数量增加了31%。更重要的是,他们发现在原本被认为完全正确的500个摘要中,竟然有128个实际上包含事实错误。这说明即使是人类标注员,也可能遗漏一些不太明显的错误。

为了确保标注质量,研究团队还进行了信度检验。他们让两位标注员独立处理150个样本,结果显示他们的一致性达到88%,这表明标注标准是可靠的。最终的FINAL基准包含1405个文档-摘要对,总共标注了2131个事实错误,平均每个摘要包含1.5个错误。

三、四大AI模型的"考试"表现

研究团队选择了四个目前最强大的大语言模型来参加这场"找错误"的考试:GPT-4o、Claude-3.5-sonnet、Gemini-1.5-pro和Llama-3.1-405B。这就像让四位顶尖的侦探来破解同一批案件,看看谁的观察力最敏锐。

测试采用了多种不同的"解题策略"。最直接的方法是"端到端"检测,就是直接给模型文档和摘要,让它一次性找出所有错误。研究者还尝试了"零样本"(不给任何例子)、"少样本"(给几个例子作参考)和"思维链"(让模型逐步推理)等不同的提示方式。

结果相当令人意外。即使是表现最好的模型,F1分数也只有0.67,这意味着它们只能正确识别大约三分之二的错误。这就像一位经验丰富的校对员,仍然会漏掉三分之一的错误,显然还有很大的改进空间。

研究者还测试了"两步法":先让模型判断摘要是否包含错误,如果判断为"有错误",再让它具体找出错误所在。理论上,这种方法应该更准确,因为第一步的筛选可以让模型更专注于确实有问题的摘要。然而,实际结果却不如直接检测。原因在于模型在第一步往往过于保守,会错误地将一些包含错误的摘要判断为正确,导致第二步根本没有机会发挥作用。

有趣的是,当研究者告诉模型"这个摘要肯定有错误,你去找找看"时,模型的召回率(找到错误的比例)确实提高了,但精确率(找到的错误中正确的比例)却下降了。这说明明确的提示会让模型更积极地寻找错误,但也容易产生"假阳性"——把正确的内容误判为错误。

另一个发现是,让模型进行"思维链"推理确实有帮助。当模型被要求逐步分析和推理时,它的表现明显优于简单的直接判断。这就像让学生不仅要给出答案,还要展示解题过程,往往能得到更准确的结果。

四、AI判官的两大"视力缺陷"

通过深入分析这些AI模型的错误,研究者发现了两个主要的"视力缺陷",这些缺陷严重影响了它们作为"真假判官"的能力。

第一个缺陷是"遗漏强迫症"。模型经常把摘要中缺失的信息误判为事实错误。比如,原文详细描述了一起事故造成"一人死亡,十人受伤",而摘要只说"发生了一起事故"。按理说,摘要虽然不够详细,但并没有事实错误。然而,AI却经常会说"摘要错误地遗漏了伤亡信息"。这就像一个苛刻的老师,明明学生的答案是对的,只是不够完整,却要扣分说答案有错误。

这个问题特别严重,因为研究者在指令中已经明确告诉模型"只关注摘要中明确陈述的错误事实,不要管遗漏的信息",但模型似乎很难遵循这个要求。这反映了当前AI系统在指令理解和执行方面的局限性。

第二个缺陷更加微妙,可以称为"知识偏见"。当摘要中包含正确但无法从原文验证的信息时,模型往往倾向于认为这些信息是正确的,而不是标记为"无法验证"。例如,原文说"一艘日本飞船成功着陆小行星",摘要写成"日本隼鸟2号飞船成功着陆小行星"。虽然"隼鸟2号"这个名称在现实中是正确的,但原文并没有提到这个具体名称,因此从严格意义上说,这是一个无法验证的信息添加。

为了验证这个假设,研究者进行了一个巧妙的实验。他们计算了模型对这些"正确但无法验证"信息的置信度,发现模型确实对这些信息有很高的置信度。更有说服力的是,当研究者把这些正确信息替换为类似但错误的信息时(比如把"隼鸟2号"改为"隼鸟3号"),模型就能成功识别出错误了。这强烈暗示,模型的参数化知识影响了它的判断能力。

这两个缺陷揭示了当前AI系统的根本限制。第一个缺陷说明AI在理解任务边界方面还有困难,容易"画蛇添足"。第二个缺陷则显示AI很难做到完全客观,它们的"世界观"会影响判断。这就像一个有偏见的裁判,即使规则写得很清楚,也会不自觉地偏向自己认为正确的一方。

五、传统方法的"败北"与新思路的优势

研究者还将新方法与传统的错误检测方法进行了对比,结果进一步证明了自然语言描述方法的优势。

传统方法通常采用"流水线"式处理:首先将摘要分解为"原子事实"(即最小的不可再分的事实单元),然后逐个检查每个原子事实是否与原文一致。这种方法看起来很系统,就像工厂的质检流程,每个环节都有专门的检查。

然而,实际测试显示,这种看似更严谨的方法反而表现不如端到端的自然语言检测。原因之一是分解过程容易产生重复。比如一个错误信息可能出现在多个原子事实中,导致同一个错误被重复标记多次。虽然研究者增加了去重步骤,但这个额外的处理环节又引入了新的潜在错误。

更重要的是,分解为原子事实的过程可能会丢失重要的上下文信息。有些错误需要理解多个信息之间的关系才能发现,而原子化处理可能破坏这种关系。这就像把一幅画撕成碎片去分析每个碎片的颜色是否正确,却忽略了整体构图的问题。

另一个有趣的发现是关于"二元分类"与"细粒度检测"的关系。研究者让同样的模型既做二元判断(摘要整体是否有错),又做细粒度检测(具体找出每个错误),然后比较两种方法的效果。

结果显示,当让模型进行细粒度检测然后统计结果来得出二元判断时,效果竟然比直接做二元判断更好。这个反直觉的结果说明,强迫模型仔细查看每个细节的过程,实际上提高了它的整体判断能力。这就像要求学生详细分析每道题的解答过程,反而比只要求给出最终答案得到了更准确的结果。

这些对比实验不仅验证了新方法的有效性,还揭示了AI系统工作方式的一些有趣特点。它们说明,有时候给AI更复杂、更详细的任务,反而能激发出更好的性能。

六、构建智能评判系统的技术挑战

开发这套错误检测系统面临的一个核心挑战是如何评价系统的表现。当错误描述变成自由文本时,传统的"对答案"方式就不再适用了。这就像考试不再是选择题,而是问答题,判卷的难度大大增加。

研究者的解决方案是训练一个"AI评委",专门负责判断模型生成的错误描述是否与标准答案匹配。这个评委的工作是进行"语义匹配":判断两个用不同语言表达的错误描述是否指向同一个问题。

比如,标准答案说"摘要中的年龄38岁是错误的,原文说的是39岁",而模型的回答是"年龄信息不准确,应该是39而不是38"。虽然表达方式不同,但这两个描述显然指向同一个错误,应该算作匹配。

为了验证这个AI评委的可靠性,研究者进行了严格的人工评估。他们让人类专家也进行同样的匹配任务,然后对比AI评委和人类专家的判断结果。结果显示,AI评委的精确率达到95%,召回率达到92%,这个表现已经相当接近人类专家的水平。

这个验证过程本身就很有意思:用AI来评判AI的表现,然后用人类来评判评判AI的AI。这种多层嵌套的评估体系虽然复杂,但确保了整个评测过程的可靠性。

在技术实现上,研究者采用了GPT-4o作为评委模型,因为它在理解复杂语义关系方面表现出色。评委的工作流程是:接收原始文档、摘要、标准错误列表和模型预测的错误列表,然后逐一进行匹配,最终输出一个匹配关系的字典。

这种方法的另一个优势是可扩展性。随着模型能力的提升,评委系统也可以相应升级,而不需要重新设计整个评估框架。这为未来的研究提供了一个可持续发展的基础。

七、实验设计的精巧之处

整个研究的实验设计展现了科学研究的严谨性和创造性。研究者不仅要测试新方法的效果,还要确保测试过程本身是公平和全面的。

在模型选择上,研究者有意挑选了四个不同技术路线的顶级模型:GPT-4o代表OpenAI的技术路线,Claude-3.5-sonnet代表Anthropic的方法,Gemini-1.5-pro展示Google的能力,Llama-3.1-405B则是Meta开源模型的巅峰之作。这种多样化的选择确保了研究结果的普遍性,避免了只针对特定模型的偏见。

在提示设计上,研究者为每种方法都准备了多个版本的提示词,然后在开发集上选择表现最好的版本用于最终测试。这种做法虽然增加了工作量,但确保了每个模型都能发挥出最佳性能,使比较更加公平。

数据分割也很有讲究。研究者将数据分为开发集(140个样本)和测试集(1265个样本),开发集用于调优提示词和验证评估方法,测试集用于最终评估。这种分离确保了结果的客观性,避免了"考试题目提前泄露"的情况。

为了深入理解模型的行为模式,研究者还进行了详细的错误分析。他们手工分析了每个模型的150个错误案例,将错误分类为不同类型,这种质化分析为量化结果提供了深度解释。

特别值得一提的是,研究者还设计了一些"控制实验"来验证特定假设。比如,为了证明模型的参数化知识会影响判断,他们专门设计了正确信息vs错误信息的对比实验,这种实验设计的严谨性体现了高质量研究的标准。

八、研究局限性的坦诚讨论

研究者非常诚实地讨论了这项工作的局限性,这种学术诚信值得赞赏。

首先,这个评测基准专门为大语言模型设计,很难直接用来比较传统的非LLM方法。这就像为现代汽车设计的测试跑道,很难用来测试马车的性能。虽然研究者尝试通过改进传统方法来进行对比,但这种改进本身就可能引入偏差。

其次,构建完全无错误遗漏的基准是极其困难的。尽管研究者已经付出了巨大努力,包括两阶段的人工标注和人机协作的错误发现,但仍然可能存在未被发现的错误。这是这类研究的共同挑战,就像地图绘制者永远无法保证地图是100%准确的。

第三,评估方法虽然经过了人工验证,但仍然依赖于AI判官的判断。这种"AI评AI"的循环可能存在系统性偏差,特别是当所有模型都来自类似的技术路线时。

研究者还指出,当前的方法主要针对英文文本,在其他语言上的表现还未得到验证。此外,这种方法对于某些特定领域(如科学、法律)的专业知识错误检测能力也有待进一步研究。

最后,虽然自然语言描述提供了更大的灵活性,但也带来了标准化的挑战。不同的人可能会用不同的方式描述同一个错误,这种主观性是难以完全消除的。

九、未来发展的广阔前景

这项研究开启了错误检测研究的新方向,具有广阔的发展前景和实际应用价值。

在技术发展方面,随着大语言模型能力的不断提升,基于自然语言描述的错误检测方法有望变得更加精确和可靠。未来的模型可能能够检测更加微妙和复杂的错误类型,甚至能够理解隐含的逻辑错误和推理缺陷。

在应用领域,这种技术有巨大的实用价值。新闻媒体可以用它来自动检查稿件中的事实错误,教育机构可以用它来辅助批改学生作业,法律行业可以用它来检查法律文件的准确性。随着AI生成内容越来越普遍,这种错误检测能力变得越来越重要。

研究者提出的FINAL基准也为该领域的发展奠定了重要基础。其他研究团队可以基于这个基准来开发和测试新的方法,推动整个领域的进步。基准的开源性质也意味着它可以不断扩展和改进。

在方法学上,这项研究展示了人机协作在AI评估中的价值。未来可能会看到更多这样的协作方式,其中人类专家和AI系统各自发挥优势,共同完成复杂的标注和评估任务。

从更宏观的角度看,这项研究也推动了AI可信度和可解释性的发展。当AI能够清楚地解释它为什么认为某些信息是错误的时,用户就能更好地理解和信任AI的判断。这对于AI在关键应用领域的部署具有重要意义。

研究者还提到,未来的工作可能会扩展到多模态错误检测,即同时检查文本、图像、视频等多种媒体中的事实错误。这将为构建更加全面的AI内容验证系统铺平道路。

说到底,这项研究解决的是一个非常现实的问题:在AI生成内容越来越普遍的时代,我们如何确保这些内容的准确性和可信度。虽然当前的方法还不够完美,但它代表了朝着正确方向迈出的重要一步。随着技术的不断发展和改进,我们有理由相信,未来的AI系统将能够更好地承担起"真假判官"的责任,为信息时代的内容质量把好关。

这项研究的价值不仅在于提出了新的技术方法,更在于它为AI可信度这个重要问题提供了可行的解决思路。在AI深度融入我们生活和工作的今天,确保AI输出的准确性已经不再是技术问题,而是关系到整个社会信息环境健康的重要议题。通过让AI学会自我监督和相互监督,我们朝着构建更加可信的AI生态系统迈出了坚实的一步。

Q&A

Q1:什么是FINAL基准,它包含哪些内容?

A:FINAL是Technion和IBM研究院开发的错误检测评测基准,包含1405个文档-摘要对和2131个标注的事实错误。它专门用来测试大语言模型识别文本中事实错误的能力,每个错误都用自然语言进行详细描述。

Q2:为什么大语言模型在错误检测上表现不够好?

A:研究发现AI模型有两大主要缺陷:一是把摘要中缺失的信息误判为错误(遗漏强迫症),二是对符合其知识库的错误信息过于宽容(知识偏见)。即使最好的模型F1分数也只有0.67,说明还有很大改进空间。

Q3:这种自然语言描述错误的方法有什么优势?

A:相比传统的标记单词或句子的方法,自然语言描述能够完整表达各种复杂错误,不受格式限制。它就像让AI用说话而不是手势来解释问题,能够捕捉到更多微妙的错误类型,特别适合大语言模型的工作方式。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-