微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 阿伯丁大学团队揭秘:AI大模型为什么会"一本正经地胡说八道"?

阿伯丁大学团队揭秘:AI大模型为什么会"一本正经地胡说八道"?

2025-11-06 09:53
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-06 09:53 科技行者

这项由阿伯丁大学的Gagan Bhatia、Somayajulu G Sripada、Kevin Allan和Jacobo Azcona领导的研究发表于2025年10月,论文编号为arXiv:2510.06107v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们和ChatGPT这样的AI聊天时,有时会遇到一个令人困惑的现象:它们会用极其自信、逻辑清晰的语气告诉你一些完全错误的信息。比如,当你问它"我在音乐会上看到一个bass,这是鱼吗?"时,它可能会认真地回答"是的,bass是一种鱼",完全忽略了你明明说的是音乐会的语境。这种现象被研究者称为"幻觉",就像人类有时会坚信自己看到了不存在的东西一样。

这种AI的"胡说八道"并不是简单的知识不足或训练数据问题,而是深深根植于它们内部运作机制的一种系统性故障。就如同一台看起来运转正常的机器,实际上内部的某个齿轮总是在关键时刻卡住一样。阿伯丁大学的研究团队决定深入AI的"大脑"内部,找出这种故障的根本原因。

他们发现了一个令人惊讶的真相:AI的推理过程就像人类大脑一样,存在着两套完全不同的思维系统。一套是快速而直观的"联想系统",就像你看到"苹果"就立刻想到"红色"一样;另一套是缓慢而深思熟虑的"推理系统",会仔细分析语境和逻辑关系。而AI的幻觉,正是这两套系统发生冲突时的产物。

为了揭开这个秘密,研究团队开发了一套名为"分布式语义追踪"的新技术,就像给AI装上了一个"思维监视器",能够实时观察它在每个推理步骤中的内部活动。通过这个技术,他们不仅找到了AI出错的确切时刻,还发现了一个令人震惊的"不归点"——一旦AI的推理过程越过这个点,错误就变得无法挽回。

一、AI大脑中的"双重人格"之战

想象你正在做一道数学题,突然有人在耳边大喊一个完全不相关的数字。你的大脑会发生什么?很可能,你的注意力会被这个突如其来的数字打断,即使你知道它与题目无关。AI面临的情况与此类似,只是更加复杂和微妙。

在AI的"大脑"中,存在着两套截然不同的信息处理系统。第一套系统就像一个反应极快的联想专家,它依靠在海量文本中学到的统计规律进行快速判断。当它看到"bass"这个词时,会立即联想到最常见的含义——鱼。这种联想速度极快,几乎是瞬间完成的,就像你听到"猫"立刻想到"喵"一样。

第二套系统则像一个谨慎的分析师,会仔细考虑上下文,进行逻辑推理。它会注意到"音乐会"这个关键信息,然后分析"bass"在这个语境下应该指的是低音提琴或低音吉他,而不是鱼。这个过程需要更多时间和计算资源,就像你在做复杂的逻辑推理题时需要仔细思考每一个步骤。

研究团队发现,AI的幻觉往往发生在这两套系统发生冲突的时候。联想系统因为反应速度快,往往会抢先给出答案,而推理系统还没来得及进行深入分析就被"劫持"了。就好比在一场辩论中,一个人话说得快但逻辑不够严密,另一个人逻辑清晰但说话慢,结果往往是说话快的人占了上风,即使他说的是错的。

通过分析大量的错误案例,研究者发现了一个有趣的现象:AI在处理熟悉概念时更容易出错。这听起来很反直觉,但仔细想想就能理解其中的道理。对于非常熟悉的词汇,联想系统会形成特别强的反应模式,就像条件反射一样。而对于生僻或新颖的概念,联想系统反应相对较弱,推理系统反而有机会发挥作用。

这种现象在人类身上也时有发生。比如,当我们快速阅读时,经常会因为熟悉的词汇而产生误读,反而对一些不熟悉的词汇读得更仔细。AI的情况类似,只是这种"误读"的后果更加严重,因为它会以极高的置信度坚持错误的判断。

二、发现AI思维的"不归点"

在推理的迷宫中,总有一些关键的分岔路口,一旦选错方向,就再也无法回到正确的道路上。研究团队通过精密的追踪技术,发现了AI推理过程中的这样一个"不归点"。

这个发现的过程就像考古学家挖掘古迹一样充满了惊喜和挑战。研究者需要在AI处理信息的每一个微小步骤中寻找线索,观察它的"思维状态"如何逐渐发生变化。他们发现,从一个正确的推理变成一个错误的结论,并不是突然发生的,而是一个渐进的过程,就像河流慢慢改道一样。

在这个过程中,存在着三个关键的时间节点。第一个节点被称为"预测起始点",这是AI开始偏离正确轨道的最初时刻。此时的偏离还很轻微,就像汽车刚开始偏离车道时,只需要轻微调整方向盘就能回到正轨。

第二个节点是"语义逆转点",这是一个决定性的转折点。在这里,错误的推理路径开始占据上风,就像天平的两端开始倾斜。此时,虽然理论上还有挽回的可能,但实际上AI已经很难自我纠正了。

最关键的是第三个节点——"承诺层",也就是那个著名的"不归点"。一旦推理过程到达这里,错误就变得不可逆转。这就像一个人从悬崖上跳下去的瞬间,无论多么后悔都无法改变结果。在这个点上,AI的内部表征已经完全锁定在错误的结论上,任何后续的处理都只是在为这个错误的结论寻找支持。

通过对多个不同模型和多种类型错误的分析,研究团队发现这个"不归点"的存在具有普遍性。无论是小型模型还是大型模型,无论是处理简单问题还是复杂问题,都存在着这样一个临界点。这个发现具有重要的实践意义,因为它告诉我们,如果要纠正AI的错误,必须在它到达"不归点"之前进行干预。

更令人惊讶的是,研究者发现不同类型的错误有着不同的"不归点"位置。简单的事实性错误往往在较早的层次就会到达"不归点",而复杂的推理错误则可能在更深的层次才会锁定。这就像不同类型的疾病有着不同的"不可逆转期",需要在不同的时间窗口内进行治疗。

三、揭秘"推理捷径劫持"现象

在AI的世界里,存在着一种特别狡猾的错误模式,研究者将其命名为"推理捷径劫持"。这个现象就像高速公路上的一个错误路标,会把原本要去正确目的地的司机引向完全错误的方向。

以一个具体的例子来说明这种现象。当AI遇到"埃隆"和"科技"这两个词时,它的联想系统会立即激活"马斯克"这个强烈的关联。这种关联是如此强烈,以至于即使在讨论"埃隆·加诺"这个不太知名的人物时,AI也会被"劫持"到马斯克身上。这就像你听到"苹果"就立刻想到那个科技公司,即使别人说的是水果。

这种劫持现象之所以特别危险,是因为它往往发生在AI看起来"很有道理"的时候。AI不会简单地胡言乱语,而是会基于被劫持的概念构建出一套表面上逻辑自洽的解释。就好比一个人因为听错了问题而给出了完全不相关但听起来很专业的答案。

研究团队发现,这种劫持往往遵循"最小阻力原则"。就像水总是会选择最容易流动的路径一样,AI的推理过程也会倾向于选择计算成本最低的路径。而那些在训练过程中被反复强化的联想关系,往往就是这些"最容易的路径"。

更有趣的是,研究者发现这种劫持现象具有一定的可预测性。通过分析AI内部的"语义强度"分布,可以预测哪些概念组合更容易导致劫持。这就像天气预报一样,虽然不能100%准确,但可以给出一个相当可靠的概率估计。

通过大规模的数据分析,研究团队发现了一个令人深思的负相关关系:AI内部推理系统的连贯性越差,出现幻觉的概率就越高。具体来说,这种相关性的强度达到了-0.863,这是一个相当强的统计关系。这意味着,如果我们能够测量AI推理的内部连贯性,就能相当准确地预测它是否会产生幻觉。

这个发现为预防AI错误提供了一个全新的思路。传统的方法往往是在AI给出答案后再进行检查,就像考试后才阅卷一样。而现在,我们有可能在AI思考过程中就发现问题,就像在学生做题时就能看出他们是否在犯错。

四、创新的"分布式语义追踪"技术

为了深入AI的思维过程,研究团队开发了一套革命性的分析工具,就像给AI装上了一套精密的"思维监控系统"。这套系统能够实时追踪AI在处理信息时每一个微小的变化,就像医生使用心电图监控病人的心跳一样。

传统的AI分析方法就像盲人摸象,每种技术只能揭示AI行为的一个侧面。比如,注意力分析能告诉我们AI在关注什么,但无法解释为什么关注这些内容。因果追踪能找出哪些组件起了作用,但不能说明它们是如何相互作用的。稀疏自编码器能揭示AI激活了哪些概念,但缺乏全局的视角。

研究团队的创新在于将这些分散的技术整合成了一个统一的框架。就像一个交响乐团,每个乐器都有自己的作用,但只有在指挥的统一协调下才能演奏出完美的音乐。这套整合系统能够生成一张完整的"语义地图",显示AI在推理过程中各种概念之间的关系和强度。

这张语义地图就像一张复杂的地铁线路图,每个概念是一个站点,概念之间的联系是连接线,而联系的强度则用线条的粗细来表示。当AI进行正确推理时,这张地图会显示出清晰的路径,从输入到输出有着逻辑清晰的连接。而当出现幻觉时,地图上会出现"断路"或"错误连接",就像地铁系统发生故障一样。

研究团队还开发了一个名为"分布式语义强度"的量化指标,用来测量AI推理的内在连贯性。这个指标就像血压计一样,能够给出一个具体的数值来反映AI的"健康状况"。当这个数值较高时,说明AI的推理是连贯的,不太可能出现幻觉。当数值较低时,就需要警惕可能出现的错误。

通过与传统方法的对比测试,新技术显示出了显著的优势。在多个基准测试中,这套系统的解释准确率比传统方法高出了15-20个百分点。更重要的是,它能够提供一个完整的、因果性的解释,而不是零散的片段信息。

五、验证实验:理论照进现实

为了验证他们的理论发现,研究团队设计了一系列精密的实验,就像侦探需要用证据来支持自己的推理一样。这些实验覆盖了不同规模的AI模型,从小型的实验模型到大型的商业级模型,确保发现的普遍适用性。

实验设计的巧妙之处在于选择了两个互补的测试平台。第一个平台叫做"竞速思维",专门测试AI在复杂语境下的推理能力。就像给AI出一些需要仔细思考的脑筋急转弯,看它是否会被表面现象迷惑而给出错误答案。

第二个平台名为"HALoGEN",包含了近11000个涵盖九个不同领域的测试题目。这就像一个全科考试,测试AI在各种不同情况下的表现。从编程问题到生物知识,从虚假前提推理到科学归因,应有尽有。

实验结果令人印象深刻。在"竞速思维"测试中,新开发的分析系统在解释准确性方面取得了0.71的平均分数,大幅超越了所有传统方法。最接近的竞争者是因果路径追踪技术,得分为0.59,差距相当明显。更令人惊讶的是,即使是将多种传统方法组合使用的"集成系统",得分也只有0.62,仍然不及新技术的表现。

在更大规模的HALoGEN测试中,优势更加明显。测试涵盖了从2B到9B参数的不同规模模型,新技术在所有测试中都保持了领先地位。特别是在处理抽象推理问题时,如"虚假前提"类别,新技术得分达到了0.83,而传统最佳方法只有0.61。

为了确保实验结果的可靠性,研究团队进行了严格的统计验证。通过方差分析确认了不同方法之间确实存在显著差异,而后续的多重比较测试进一步证实,新技术的优势在统计学上是高度显著的。这意味着观察到的差异不是偶然现象,而是系统性的改进。

实验还揭示了一个有趣的现象:随着AI模型规模的增大,新技术的优势变得更加明显。在较大的9B参数模型上,平均得分达到了0.79,比同等条件下的传统方法高出了0.21分。这表明,随着AI系统变得越来越复杂,我们更需要这样的系统性分析工具来理解它们的行为。

六、意外发现:第二种错误模式

在深入研究AI的错误机制时,研究团队意外发现了另一种截然不同的失败模式,他们将其命名为"类比坍塌"。这种现象就像一个人在做类比推理题时,明明懂得抽象规律,却在关键时刻被表面的词汇联想所迷惑。

考虑这样一个类比题:"火花之于野火,正如单张选票之于___。"正确答案应该是"选举",因为火花是引发野火的催化剂,而单张选票是引发选举结果的催化要素。这需要AI识别出抽象的"催化关系"模式,然后将其应用到新的语境中。

但是,AI在处理这类问题时经常会发生"类比坍塌"。当它看到"选票"这个词时,联想系统会立即激活与之最强关联的概念——"民主"。虽然"民主"在话题上与"选票"相关,但它并不符合类比的逻辑结构。这就像一个学生在考试时因为紧张而选择了看起来"最相关"但实际上错误的答案。

这种现象特别有趣的地方在于,它暴露了AI在抽象推理和具体联想之间的根本张力。抽象推理需要AI忽略表面的词汇相似性,专注于深层的关系结构。而联想系统却恰恰相反,它专门捕捉词汇之间的表面关联。当两个系统同时激活时,往往是联想系统占了上风。

通过分析大量的类比坍塌案例,研究者发现了一个规律:那些在训练数据中频繁共现的词汇组合更容易导致坍塌。这就像人类在学习过程中形成的固定搭配一样,有时候会妨碍创新思维。AI也面临着类似的挑战,过度依赖训练过程中学到的常见模式,反而在需要灵活推理的时候受到限制。

更深层次的分析显示,类比坍塌往往发生在推理链条的中间环节。AI能够正确识别问题的类型,也能够在最后阶段进行合理的输出,但在中间的关键转换步骤中出现了偏差。这就像一个熟练的工匠在复杂工艺的某个环节出现了失误,导致最终产品的缺陷。

七、技术评估:新方法的优势与局限

为了客观评价新开发的分析技术,研究团队设计了一套综合评估体系。这套体系就像汽车安全测试一样,不仅要测试在理想条件下的性能,还要考虑各种极端情况下的表现。

评估的核心指标包括三个维度。第一个维度是"证据强度",测试分析结果是否真正基于AI内部的重要信号,而不是表面的相关性。这就像法庭上的证据,需要有充分的说服力。第二个维度是"逻辑一致性",检验分析给出的解释逻辑是否能够真正导向AI的输出结果。第三个维度是"表述相关性",比较机械分析的结果与AI自己的"思考过程"是否一致。

通过与五个不同的大型AI模型进行交叉验证,研究团队确认了评估结果的可靠性。这些AI模型被要求像专业评审员一样,对各种解释的准确性进行打分。令人欣慰的是,不同模型之间的评价结果高度一致,Fleiss Kappa系数达到了0.85,表明评估标准是稳定和可信的。

更重要的是,新技术与AI模型自身的"言语表述"之间显示出了很强的一致性,相关系数达到0.8942。这意味着,当AI说它在考虑某个因素时,新技术确实能够在其内部找到相应的活动痕迹。这种一致性为技术的可信度提供了强有力的支撑。

敏感性测试进一步验证了评估系统的可靠性。研究团队故意在高质量的解释中引入各种类型的错误,观察评估系统是否能够准确识别。结果显示,无论是证据不足、逻辑错误还是表述不一致,评估系统都能敏锐地察觉并相应降低评分。

当然,新技术也有其局限性。最主要的限制是计算复杂度较高,需要对AI的每一层进行详细分析,这在处理大规模任务时可能会成为瓶颈。此外,技术的效果很大程度上依赖于AI内部表征的质量,对于表征混乱的模型,分析效果会相应下降。

另一个需要注意的局限是,目前的技术主要针对单个推理实例进行分析,还不能自动推广到一般性规律。要获得关于AI行为的普遍性洞察,还需要对大量案例进行聚合分析。这就像医学研究中的个案研究与流行病学调查的区别,各有其价值但也有各自的适用范围。

八、对AI安全的深远影响

这项研究的意义远远超出了学术探讨的范围,它为AI系统的安全性和可信度问题提供了全新的视角。传统的AI安全策略就像在高速公路的出口设置检查站,只能在问题已经发生后进行补救。而新技术则像在汽车上安装了实时监控系统,能够在危险发生之前就发出预警。

研究揭示的"不归点"概念具有重要的实践价值。一旦我们知道了AI推理过程中的关键决策点,就可以在这些节点上设置"安全阀"。这就像在核反应堆中设置多重安全机制一样,确保在任何异常情况下都能及时干预。

更进一步的应用可能包括实时纠错系统。通过监控AI的内部"语义强度"指标,系统可以在发现推理偏离正轨时立即进行调整。这种调整不需要重新开始整个推理过程,只需要在关键节点上进行微调,就像GPS导航在发现走错路时重新规划路线一样。

对于AI系统的设计和训练,这些发现也提供了重要指导。既然我们知道了联想系统和推理系统之间的冲突是产生幻觉的根本原因,就可以在训练过程中有针对性地平衡这两个系统的强度。这可能需要新的训练算法和评估指标,但方向已经很明确。

在更广阔的应用领域中,这项研究为高风险场景下的AI部署提供了重要的安全保障。在医疗诊断、法律分析、金融决策等关键应用中,AI的任何错误都可能造成严重后果。有了这套分析工具,我们可以实时监控AI的推理质量,在发现异常时立即切换到人工审核模式。

研究还暗示了AI系统透明度的新标准。未来的AI产品可能需要提供"推理健康报告",就像食品需要营养标签一样。用户可以根据这些信息判断AI给出的建议是否可信,从而做出更明智的决策。

九、技术实现的细节考量

虽然这项研究主要关注理论发现,但研究团队也认真考虑了技术实现的实际问题。任何再好的理论,如果无法在现实中应用,都只是纸上谈兵。

首先是计算效率的问题。目前的分析系统需要对AI的每一层进行详细监控,这在大规模应用中可能会带来性能瓶颈。研究团队正在探索几种优化方案,包括选择性监控(只监控关键层次)、近似算法(用更快的方法获得足够准确的结果)以及并行处理(同时监控多个推理路径)。

其次是适应性的挑战。不同的AI架构可能需要不同的分析策略,就像不同品牌的汽车需要不同的维修手册一样。研究团队发现,虽然"双系统冲突"的基本机制是普遍的,但具体的表现形式在不同模型中会有所差异。这需要为每种主流架构开发相应的分析模块。

数据隐私和安全也是重要考量。分析AI内部状态需要访问敏感的计算过程,这在某些应用场景中可能涉及隐私问题。研究团队建议采用差分隐私技术,在保护数据安全的同时仍能进行有效分析。

标准化是另一个关键挑战。要让这套技术得到广泛应用,需要建立统一的接口规范和评估标准。这涉及到与AI开发社区的广泛协作,需要在技术标准组织中推动相关议题的讨论。

成本效益分析显示,虽然部署这套监控系统会增加一定的计算开销,但相比于修复AI错误造成的损失,这个成本是完全可以接受的。特别是在高风险应用中,预防一次严重错误的价值可能远远超过监控系统的成本。

十、未来研究方向展望

这项研究虽然取得了重要突破,但同时也开启了更多新的研究方向。就像登上一座山峰后发现了更广阔的山脉一样,每一个答案都带来了新的问题。

最直接的研究方向是扩大技术的适用范围。目前的研究主要集中在文本处理任务上,但AI的应用已经扩展到图像、语音、视频等多种模态。如何将"双系统冲突"的理论扩展到多模态AI,是一个充满挑战的课题。研究者需要找出视觉联想系统和视觉推理系统之间的相互作用机制。

另一个重要方向是开发主动干预技术。目前的系统主要用于诊断和分析,但最终目标是实现实时的错误预防和纠正。这需要开发更加精密的控制算法,能够在不干扰正常推理的情况下,微调AI的内部状态。

跨模型的通用性也是一个有趣的研究课题。虽然研究显示"双系统冲突"在不同模型中都存在,但具体的表现形式可能有所不同。开发一套能够自动适应不同AI架构的通用分析框架,将大大提高技术的实用价值。

从更长远的角度看,这项研究可能会推动AI架构设计的根本性变革。既然我们知道了当前架构中的内在缺陷,就可以考虑设计新的架构来避免这些问题。比如,可以设计专门的"冲突检测层"或"推理协调机制",从源头上减少幻觉的产生。

教育和训练方法的改进也是一个值得探索的方向。如果我们能够在AI的训练过程中就平衡好联想系统和推理系统的关系,或许可以培养出更加可靠的AI。这可能需要开发新的训练目标函数和评估指标。

说到底,这项研究为我们理解AI的思维过程打开了一扇新的窗户。通过这扇窗户,我们不仅能够看到AI出错的原因,更重要的是看到了改进的可能性。AI的"胡说八道"并不是不可避免的宿命,而是可以通过科学的方法来诊断、预防和治疗的系统性问题。

随着AI技术在社会各个领域的深度应用,确保其可靠性和安全性变得越来越重要。这项研究提供的工具和洞察,为建设更加可信的AI系统奠定了重要基础。当我们能够真正理解AI如何思考、为什么出错时,我们就能够更好地与这些强大的工具合作,而不是被它们的不可预测性所困扰。

未来的AI系统可能会配备"思维透明度指示器",用户可以实时了解AI的推理质量,就像现在我们可以看到手机的电池电量一样。这种透明度不仅能提高用户的信任度,还能帮助AI系统持续改进自身的性能。

归根结底,这项研究告诉我们,AI的幻觉并不是神秘莫测的现象,而是有着清晰机制和可预测模式的系统行为。通过科学的方法和工具,我们完全有能力建设更加可靠、更加值得信赖的AI系统。这不仅是技术发展的需要,更是AI技术走向成熟和普及的必要条件。

Q&A

Q1:分布式语义追踪技术是什么?它如何发现AI出错的原因?

A:分布式语义追踪技术就像给AI装上了一个"思维监视器",能够实时观察AI在每个推理步骤中的内部活动。它整合了多种分析工具,生成一张完整的"语义地图",显示AI推理过程中各种概念之间的关系和强度。当AI出现幻觉时,这张地图会显示出"断路"或"错误连接",从而精确定位错误的根本原因。

Q2:什么是AI推理中的"不归点"?为什么它如此重要?

A:"不归点"是AI推理过程中的一个关键时刻,一旦越过这个点,错误就变得不可逆转。研究团队发现AI的错误经历三个阶段:预测起始点(开始偏离)、语义逆转点(错误占上风)和承诺层(彻底锁定错误)。理解这个"不归点"很重要,因为它告诉我们必须在AI到达这个点之前进行干预才能纠正错误。

Q3:为什么AI会出现"推理捷径劫持"现象?

A:"推理捷径劫持"发生在AI的两套思维系统发生冲突时。快速的联想系统会根据训练中学到的强烈关联做出反应(如看到"埃隆"就想到"马斯克"),而缓慢的推理系统还没来得及分析具体语境就被"劫持"了。这种现象遵循"最小阻力原则",AI倾向于选择计算成本最低的路径,导致明明知道正确答案却给出错误结论。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-