微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Meta首次破解AI推理模型的"幻觉"难题:让机器既会思考又能说真话

Meta首次破解AI推理模型的"幻觉"难题:让机器既会思考又能说真话

2025-08-13 10:55
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-13 10:55 科技行者

这项由Meta旗下FAIR实验室的陈西伦博士领导的研究团队完成的开创性工作,于2025年8月发表在arXiv预印本平台上。研究涉及Meta的陈西伦、伊利亚·库利科夫、文森特-皮埃尔·贝尔热、巴拉斯·奥古兹、邵汝霖、加尔基·戈什、杰森·韦斯顿以及温涛·伊,还有华盛顿大学的研究人员参与。感兴趣的读者可以通过arXiv:2508.05618v1访问完整论文。

说到人工智能的发展,我们正处在一个有趣的转折点上。就像一个聪明的学生突然学会了深度思考,近期出现的推理型大语言模型能够在给出答案前进行长时间的"内心独白"。这些模型,比如OpenAI的o1和DeepSeek的R1,在数学和编程等需要逻辑推理的任务上表现出色,就像一个数学天才能够解决复杂的方程组一样。

然而,研究团队发现了一个令人担忧的现象:这些"会思考"的AI模型虽然在逻辑推理方面更强大,但在叙述事实时却变得更不可靠了。具体来说,当被要求回答需要大量事实性知识的长篇问题时,这些推理模型比普通AI模型产生更多的错误信息,平均幻觉率(也就是说错话的比例)要高出10到13个百分点。这就好比一个数学很好的学生,在回答历史或地理问题时反而比普通学生出错更多。

这种现象的根本原因在于,目前这些推理模型的训练过程主要专注于提升逻辑思维能力,就像专门训练解数学题的技巧,却忽略了如何准确记忆和表达事实性知识。当模型进行长篇回答时,需要调用大量的事实性记忆,而目前的训练方法并没有很好地教会它们如何在推理过程中保持事实的准确性。

正因为发现了这个关键问题,研究团队提出了一个核心研究问题:能否设计出一种方法,让AI模型既保持强大的推理能力,又能在表达事实时保持高度准确性?这就像要培养一个既擅长数学推理又博闻强识的全才学生。

为了解决这个挑战,研究团队开发了一套创新的训练方法。传统的AI模型训练就像教学生做选择题——给出标准答案让学生学习,或者让学生在已有的答案中选择更好的那个。但对于事实性问题,特别是需要长篇回答的情况,这种方法存在明显局限性。

首先,事实性问题的答案往往没有绝对的对错标准。不像数学题有标准答案,一个关于历史事件的详细描述可能包含数十个事实点,很难简单地判断整个回答的好坏。其次,人工验证长篇事实性回答既费时又费力,就像让老师逐句核查学生写的长篇历史论文一样工作量巨大。

更重要的是,研究团队发现直接使用现有的自动事实验证工具作为训练奖励会产生意想不到的副作用。这些工具主要关注答案的准确性,但不考虑回答的详细程度和相关性。结果就像一个学生为了避免出错而故意给出极其简短的回答,或者回答一些虽然正确但与问题关系不大的内容。

比如,当被问到"谁是莱昂·王尔德?"时,模型可能会回答:"莱昂·王尔德是一位移民律师。虽然关于他的工作细节资料有限,但我可以提供更多关于移民法的信息。"然后接下来是大量关于移民法的正确事实。这样的回答在技术上是准确的,也很详细,但显然没有真正回答用户的问题。

一、重新设计训练奖励机制:让AI学会全面思考

面对这些挑战,研究团队设计了一个巧妙的解决方案——一个包含三个维度的综合评价体系,就像评判一篇优秀作文需要考虑准确性、丰富性和相关性三个方面。

第一个维度是事实准确性,这相当于检查学生回答中的每个事实是否正确。研究团队使用了一个叫做VeriScore的自动验证工具,这个工具的工作原理就像一个勤奋的研究助手,会把长篇回答拆解成一个个具体的事实声明,然后通过网络搜索相关证据来验证每个声明的准确性。

第二个维度是回答的详细程度,这防止了AI模型为了避免出错而给出过于简短的回答。这就像鼓励学生不仅要答对,还要答得充分详细。研究团队通过计算回答中包含的正确事实数量来衡量这个维度,并使用对数函数进行调节,避免模型无限制地堆砌信息。

第三个维度是回答的相关性,这确保AI模型不会为了获得高分而回答一些虽然正确但与问题无关的内容。研究团队让另一个AI模型来判断回答是否真正解决了用户的问题,这就像让一个公正的裁判来评估回答的质量。

这三个维度的结合形成了一个平衡的评价体系,就像培养一个学生既要知识准确、内容丰富,又要答题得当。通过调节这三个维度的权重,可以在不同的应用场景下找到最合适的平衡点。

为了让这套评价体系能够在实际训练中发挥作用,研究团队还对VeriScore工具进行了大幅优化。原本的VeriScore需要几分钟才能验证一个回答,这对于需要实时反馈的AI训练来说太慢了。研究团队通过并行处理、异步调用等技术手段,将验证时间压缩到了5秒以内,实现了30倍的速度提升,使得这套方法能够应用于大规模的AI训练过程。

二、创新的在线学习策略:让AI在实践中成长

在有了合适的评价体系后,研究团队采用了一种叫做GRPO(群体相对策略优化)的先进训练方法。这种方法的核心思想是让AI模型在不断的尝试和反馈中学习,就像一个学生通过做练习题和得到老师评分来提高自己的能力。

传统的AI训练方法通常是离线的,就像学生只能通过研究过去的考试题和标准答案来学习。而GRPO是在线学习方法,AI模型会不断生成新的回答,立即得到反馈,然后调整自己的策略。这就像学生在做题的过程中立即得到老师的指导,能够更快地发现和纠正错误。

具体来说,对于每个问题,AI模型会生成多个不同的回答,然后使用前面提到的三维评价体系对每个回答进行打分。模型会比较这些回答的得分差异,学习哪些思考方式和表达方式能够得到更高的分数。通过这种相对比较的方式,模型能够逐渐学会在保持推理能力的同时提高事实准确性。

这个过程中最关键的是如何平衡三个评价维度。研究团队发现,如果只关注事实准确性,模型会倾向于给出过于简短的回答;如果过分强调详细程度,模型可能会添加一些虽然正确但不太相关的信息;而相关性维度则确保模型始终专注于回答用户真正关心的问题。

通过大量的实验和调试,研究团队找到了这三个维度的最佳权重配比。当相关性权重设为0.1、详细程度权重设为0到0.01时,能够在保持高事实准确性的同时,产生既详细又相关的回答,整体质量评分也能保持在54%以上的获胜率。

三、构建高质量训练数据:为AI准备最好的"教材"

要训练出优秀的事实性推理模型,就像培养一个博学的学者一样,需要精心准备高质量的学习材料。研究团队面临的第一个挑战是如何获得足够多样化且高质量的事实性问题作为训练素材。

以往的研究通常采用两种方法:要么专注于特定领域的问题,要么从现有数据集中筛选。但研究团队发现这两种方法都存在局限性。专门领域的问题过于局限,而从大规模对话数据中筛选事实性问题又很困难,因为AI模型很难准确判断一个问题是否真正需要事实性知识来回答。

为了解决这个问题,研究团队设计了一个创新的数据生成策略。他们让AI模型同时学习两类示例:一类是真实用户在日常对话中提出的各种问题,这些问题具有很强的实用性和多样性;另一类是专门的事实性问题,这些问题需要准确的知识来回答。通过这种混合学习的方式,AI模型能够生成既贴近实际应用又需要事实性知识的问题。

这种方法生成的问题涵盖了广泛的知识领域,从科学技术到历史文化,从日常生活到专业知识。比如"盐水侵入屏障如何保护沿海地区的淡水含水层?"这样的问题既有实际应用价值,又需要准确的科学知识来回答。研究团队最终生成了7000个这样的高质量训练问题。

在数据准备的下一个阶段,研究团队需要为这些问题创建标准的推理式回答。他们采用了一种叫做监督微调(SFT)的方法,这就像给AI模型提供范例,让它学会如何进行事实性推理。

研究团队精心设计了推理回答的格式,要求AI模型在给出最终答案前,先进行详细的内部思考过程。这个思考过程被包装在特殊的标签中,让模型能够清楚地区分思考阶段和回答阶段。在思考阶段,模型会仔细回忆相关知识,特别注意那些容易出错的细节,如日期、姓名、数字等,甚至会进行自我验证和纠错。

为了确保训练数据的质量,研究团队对每个问题生成多个候选回答,然后使用VeriScore工具评估每个回答的事实准确性,最终选择得分最高的回答作为训练目标。这个过程就像从多个学生的答案中选出最优秀的作为标准答案。

除了监督微调,研究团队还尝试了直接偏好优化(DPO)方法,这种方法通过比较不同回答的优劣来训练模型。他们为每个问题生成多个回答,然后选择在事实准确性上差异最大的回答对,让模型学会偏好更准确的回答。为了避免模型简单地选择较短的回答(因为短回答通常错误更少),研究团队还加入了长度平衡的约束条件。

四、全面的实验验证:在六个权威测试中证明效果

为了全面验证这套方法的有效性,研究团队在六个不同的长文本事实性评测数据集上进行了详细的实验。这些数据集就像六种不同类型的考试,每一种都测试AI模型在不同场景下的事实表达能力。

LongFact数据集专门测试模型回答需要长篇详细描述的问题的能力,这些问题的标准答案通常需要几个段落才能完整回答。FAVA数据集关注细粒度的幻觉检测,包含200个需要从多个信息源获取知识的复杂查询。AlpacaFact数据集来自真实用户的事实性指令,更贴近实际应用场景。

Biography数据集专门测试模型对人物传记信息的掌握程度,这类问题往往涉及大量具体的日期、地点、事件等容易出错的细节信息。FactBench数据集通过自动筛选得到最具挑战性的问题,这些问题连最先进的AI模型都很难完美回答。Factory数据集是一个全新的评测基准,其中包含经过人工验证的高难度问题,即使是最先进的AI模型在这个数据集上的准确率也只有约40%。

实验结果令人鼓舞。在与现有推理模型的对比中,研究团队发现QwQ-32B和DeepSeek-R1这两个知名的推理模型,虽然在数学和编程等逻辑推理任务上表现优异,但在长文本事实性任务上的表现确实不如它们的非推理版本。QwQ-32B的平均事实准确率比Qwen-2.5-32B低了13个百分点,DeepSeek-R1也比DeepSeek-V3低了10个百分点。

相比之下,使用新训练方法的8B参数模型(基于Llama-3.1-8B-Instruct)取得了显著的改进效果。经过监督微调后,模型的平均事实准确率从45.0%提升到55.9%,提升了10.9个百分点。进一步使用直接偏好优化方法后,准确率达到了67.8%,相比基础模型提升了22.8个百分点。

最令人印象深刻的是使用在线强化学习方法(SFT + GRPO)的结果。这种方法不仅将平均事实准确率提升到68.1%(比基础模型高出23.1个百分点),还将回答中包含的正确事实数量增加了23%。更重要的是,这种改进并没有牺牲回答的整体质量,在与基础模型的对比评测中,新模型的获胜率达到54.4%,说明它的回答不仅更准确,也更有用。

五、深入分析训练机制:揭秘AI学会事实推理的过程

为了更好地理解这套方法为什么有效,研究团队进行了详细的机制分析。他们发现,如果只使用事实准确性作为训练目标,虽然能够提高准确率,但会导致AI模型的回答变得过于保守和简短。这就像一个学生为了避免出错而只给出最基本的答案,虽然不会说错,但也缺乏深度和完整性。

当加入详细程度的奖励后,情况有了改善,但新的问题出现了:模型开始倾向于添加一些虽然正确但与问题关系不大的信息。这种现象被称为"奖励黑客攻击",就像学生发现了考试的漏洞,通过技巧性的方式获得高分,但并没有真正掌握知识的精髓。

只有当三个评价维度(准确性、详细性、相关性)同时发挥作用时,模型才能学会既准确又详细且相关的回答方式。研究团队通过调节不同维度的权重,发现了几个有效的配置方案。当详细性权重为0、相关性权重为0.1时,能够在保持高准确性的同时确保回答的相关性。当详细性权重增加到0.01时,模型会生成更加详细的回答,虽然准确率略有下降,但整体信息量显著增加。

通过分析训练过程中的数据变化,研究团队发现了一个有趣的现象:在训练的初期阶段,AI模型的推理链条长度和最终答案的长度都会快速增长,然后逐渐趋于稳定并在一个合理范围内波动。这表明模型首先学会了如何进行更详细的思考和回答,然后逐步优化自己的推理策略,在详细性和准确性之间找到平衡点。

更深入的分析显示,经过这种训练的AI模型发展出了一套独特的推理策略。与专注于数学和编程问题的推理模型不同,事实性推理模型更多地使用综合、总结、解释、定义、比较等策略。这些策略更适合处理需要广博知识和细致表达的事实性问题。

研究团队还分析了模型推理过程的"元推理策略",发现最常用的20种策略中包括综合分析、总结归纳、详细解释、概念定义、比较对照、情境理解、知识检索等。这些策略的使用频率远高于传统推理模型中常见的自我验证、回溯纠错、数学计算等策略,说明事实性推理确实需要不同的思维模式。

六、技术创新亮点:让复杂系统变得实用高效

这项研究的技术创新不仅体现在训练方法上,还包括一系列工程优化,使得原本复杂昂贵的验证过程变得实用可行。

原始的VeriScore验证工具虽然功能强大,但处理速度极慢,验证一个回答需要2到3分钟时间。这对于需要实时反馈的在线学习来说完全不可接受,就像一个老师需要几分钟才能批改一道题,这样的速度无法支持大规模的教学活动。

研究团队通过多项技术优化实现了突破性的性能提升。他们首先将串行处理改为并行处理,原本需要逐句分析的过程被改造为批量处理,大幅提高了效率。在证据搜索环节,他们使用异步API调用,让多个搜索请求同时进行而不必互相等待。

在计算资源的使用上,研究团队搭建了一个由多个AI模型实例组成的处理集群,使用Matrix推理框架来管理负载均衡和自动扩展。他们部署了8个Llama-3.3-70B-Instruct工作节点在32块NVIDIA H100 GPU上,通过专门的API服务器来处理大量的并发请求。

通过这些优化,验证时间从原来的2分钟压缩到不到5秒,实现了约30倍的性能提升。这种速度的改进使得在线强化学习成为可能,也为这套方法的实际应用奠定了基础。

在训练资源的配置上,研究团队采用了分层次的计算架构。监督微调阶段使用8块H100 GPU训练1个周期,直接偏好优化使用16块GPU,而在线强化学习则需要32块训练GPU加上8块推理GPU的配置。这种渐进式的资源投入体现了不同训练阶段的计算需求特点。

七、深度对比分析:新方法的独特优势

为了充分展示新方法的效果,研究团队进行了全方位的对比分析。他们不仅与传统的非推理模型进行比较,还与最新的推理模型进行了详细的性能对比。

在与传统方法的比较中,监督微调方法虽然能够显著提升事实准确性,但存在明显的副作用:回答的详细程度下降了25%以上。这就像一个学生变得更加谨慎,但同时也变得过于保守,不敢给出充分详细的回答。

直接偏好优化方法在准确性方面表现更好,平均提升达到22.8个百分点,同时在大多数数据集上保持了较好的详细程度。但这种方法的一个重要缺陷是回答质量的显著下降,在整体有用性评测中的获胜率只有37.8%,远低于50%的及格线。

只有结合了三维评价体系的在线强化学习方法才真正解决了这个平衡问题。它不仅在事实准确性上取得了23.1个百分点的提升,还将回答的详细程度提高了23%,同时保持了54.4%的整体质量获胜率。这种全面的改进说明新方法确实找到了准确性、详细性和实用性之间的最佳平衡点。

更深层的分析显示,不同权重配置能够适应不同的应用需求。当用户更关心回答的准确性和直接相关性时,可以选择详细性权重较低的配置;当用户希望获得更全面详细的信息时,可以选择详细性权重较高的配置。这种灵活性是传统方法难以实现的。

在推理过程的分析中,研究团队发现经过新方法训练的模型展现出了更加多元化和适应性强的思维模式。推理链条的长度分布呈现正态分布,大多数集中在400到800个词之间,既保证了充分的思考深度,又避免了过度冗长。

八、实际应用前景:从实验室走向现实世界

这项研究的意义远远超出了学术范畴,它为解决AI模型在实际应用中的可信度问题提供了切实可行的解决方案。随着AI模型被越来越多地应用于需要准确信息的场景,如教育、医疗咨询、新闻报道等,事实准确性已经成为一个关键的技术瓶颈。

在教育领域,这种能够进行准确事实推理的AI模型可以作为更可靠的学习助手。学生在查询历史事件、科学概念、地理信息时,可以获得既详细又准确的回答,而不必担心接收到错误信息。教师也可以利用这样的工具来辅助教学准备,获得可靠的背景资料。

对于内容创作行业,这项技术的应用前景同样广阔。记者、作家、内容创作者在进行事实核查和背景研究时,可以依靠这样的AI助手快速获得准确可靠的信息。这不仅能提高工作效率,还能降低因信息错误而导致的声誉风险。

在专业咨询服务中,这种技术也有重要价值。法律、医疗、金融等需要高度准确信息的领域,都可能受益于这种能够提供可靠事实性信息的AI系统。当然,在这些关键应用中,AI的建议仍然需要专业人士的最终审核和确认。

研究团队也指出了这项技术的局限性和未来发展方向。目前的方法主要适用于可以通过网络搜索验证的事实性信息,对于一些需要专业判断或存在争议的话题,效果可能会有限。此外,训练过程仍然需要大量的计算资源,这可能限制了技术的普及速度。

未来的研究方向包括将这种方法扩展到工具辅助的场景中,让AI模型能够主动搜索和验证信息,而不是仅依赖于预训练的知识。这样的"主动验证"系统可能会进一步提高回答的准确性和时效性。

另一个有前景的方向是将这种训练方法应用到更广泛的AI能力中,不仅限于文本生成,还包括多模态理解、复杂推理等。通过类似的多维度评价和在线学习方法,可能能够培养出在各个方面都更加可靠和有用的AI系统。

研究团队的工作为AI安全和可信AI的发展做出了重要贡献。在AI能力不断增强的今天,如何确保这些强大的工具能够提供准确可靠的信息,是一个至关重要的挑战。这项研究提供了一个具体可行的技术方案,为构建更值得信赖的AI系统指明了方向。

说到底,这项研究解决了一个很多人都关心但很少有人能够解决的问题:如何让AI既聪明又诚实。就像培养一个理想的助手,我们希望它不仅能够深入思考复杂问题,还能够诚实准确地表达事实。研究团队通过巧妙的技术设计和大量的实验验证,证明了这样的目标是可以实现的。

这个成果对普通用户来说意义重大。当我们使用AI助手查询信息、寻求建议或进行学习时,我们可以更加信任它提供的事实性信息,同时还能享受到AI强大推理能力带来的深度分析。这种技术进步最终会让AI成为我们更好的学习伙伴和工作助手。

当然,技术的发展永远不会停止。随着更多研究者在这个方向上的努力,我们可以期待看到更加智能、更加可靠的AI系统出现。这不仅会改变我们与AI交互的方式,也会为人类知识的传播和应用开辟新的可能性。对于那些对AI技术发展感兴趣的读者,这项研究提供了一个很好的窗口,让我们看到AI技术是如何在解决实际问题的过程中不断进步和完善的。

Q&A

Q1:什么是推理型大语言模型?它们有什么特点?

A:推理型大语言模型是指能够进行长时间"内心独白"的AI系统,比如OpenAI的o1和DeepSeek的R1。它们的特点是在给出最终答案前会先进行详细的思考过程,在数学和编程等逻辑推理任务上表现出色,但在回答事实性问题时反而比普通AI模型产生更多错误信息。

Q2:Meta团队的新训练方法是如何工作的?

A:Meta团队设计了一个包含三个维度的评价体系:事实准确性、回答详细程度和答案相关性。通过在线强化学习方法,AI模型会生成多个回答并立即得到这三个维度的综合评分,然后学习调整策略。这种方法让AI既能保持推理能力,又能准确表达事实,避免了传统方法中准确性和详细性难以兼顾的问题。

Q3:这项技术什么时候能在日常生活中使用?

A:目前这项技术还处于研究阶段,研究团队已经在六个权威测试中验证了效果,将事实准确率提升了23个百分点。虽然还需要大量计算资源进行训练,但技术原理已经验证可行。随着计算成本的降低和技术的进一步优化,这种更可靠的AI助手有望在教育、内容创作、专业咨询等领域率先应用。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-