微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

"真相神经元"：探索大语言模型中的"诚实机制"——史蒂文斯理工学院揭秘AI如何区分真假

人工智能神经网络可解释性语言模型真实性

"真相神经元"：探索大语言模型中的"诚实机制"——史蒂文斯理工学院揭秘AI如何区分真假

作者：科技行者

2025-05-26 07:50

分享至：

史蒂文斯理工学院研究团队发现大语言模型内部存在"真相神经元"，这些特殊神经元能够识别信息真实性，不受主题限制。研究通过积分梯度方法定位这些神经元，证明抑制它们会显著降低模型在真实性测试中的表现。实验表明，这些神经元主要分布在模型的中间层，且其影响可跨数据集泛化。这一发现为提高AI系统可信度提供了全新视角，有望促进更可靠的语言模型开发。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 07:50 • 科技行者

在我们日常使用ChatGPT或其他AI助手时，你是否好奇过：这些人工智能如何判断信息的真假？它们的"大脑"里是否有专门负责鉴别真相的"神经元"？2025年5月，来自史蒂文斯理工学院的研究团队发表了一项突破性研究，首次证实了大语言模型中确实存在"真相神经元"。这篇题为《Truth Neurons》的论文由李昊航、曹宇鹏、于杨洋、Jordan W. Suchow和朱子宁共同撰写，发表在arXiv预印本平台（arXiv:2505.12182v1），为我们揭开了AI区分真假信息的内部机制。

大语言模型在各种工作流程中的应用已经变得非常普遍，从日常聊天到专业知识问答，我们越来越依赖它们提供准确的信息。然而，尽管这些模型表现出色，它们有时仍会产生不真实的回答。更令人担忧的是，我们对于这些模型如何在内部表示和处理"真实性"知之甚少。就像我们不了解一个经常撒谎的朋友到底在想什么一样，我们对语言模型如何区分真假的机制了解有限，这使得它们的可靠性和安全性存在潜在风险。

在这项研究中，史蒂文斯理工学院的团队提出了一种方法，可以在神经元级别识别语言模型中的真实性表示。想象一下，就像解剖大脑一样，研究人员能够精确定位负责"诚实"的特定神经结构。他们发现语言模型中确实存在"真相神经元"，这些神经元以一种独立于主题的方式编码真实性信息。简单来说，无论是讨论历史事件、科学知识还是日常生活，这些特殊的神经元都会对真实信息做出一致的反应，就像人类大脑中负责对事实做出判断的特定区域一样。

研究团队在不同规模的模型上进行了广泛实验，证实了真相神经元的存在是许多语言模型共有的特性。更有趣的是，这些真相神经元在模型各层中的分布模式与之前关于真实性几何结构的发现相一致。当研究人员有选择地抑制这些通过TruthfulQA数据集找到的真相神经元的激活时，模型在TruthfulQA测试和其他基准测试上的表现都明显下降，表明这些真实性机制并不仅仅与特定数据集相关联，而是模型普遍具备的能力。

这项研究为语言模型中真实性的底层机制提供了全新见解，并指出了潜在的改进方向，有望提高这些模型的可信度和可靠性。让我们深入了解这项研究的详细内容，看看研究团队是如何发现和验证这些"真相神经元"的存在，以及这一发现对未来AI发展的重要意义。

一、研究背景：为什么研究语言模型的真实性机制？

在开始探索真相神经元之前，我们需要理解为什么这项研究如此重要。想象一下，你正在使用AI助手查询重要的医疗或金融信息。如果AI提供了错误信息，后果可能非常严重。然而，研究表明，语言模型在某些问答场景中难以一致地产生正确输出。

这种困境部分源于语言模型在预训练数据中缺乏关于特定问题的充分相关知识。就像一个人无法回答他从未学习过的知识一样，AI也会在面对超出其"知识范围"的问题时感到困难。更令人担忧的是，即使模型能够识别出某些回答的错误性，它们仍可能生成不正确的答案。例如，之前的研究表明，通过人类反馈调整过的语言模型倾向于迎合用户的错误回应，即使模型最初识别出这些回应是错误的。

这就像一个本来知道正确答案的朋友，为了不让你难堪而附和你的错误观点一样。虽然AI的正确性可以通过自一致性检查、后期训练和优化解码策略等方法得到实质性改善，但我们仍然不知道语言模型内部是否存在一种专门的"真相机制"——一种驱动模型生成准确答案的特殊机制。

过去几年，机械可解释性研究已经开始通过分析隐藏状态来探索真实性的表示：Orgad等人应用线性探针揭示了真相相关编码的有意义模式；Marks和Tegmark识别了与真实性相关的特定标记和层，并使用主成分分析（PCA）展示了真与假的线性编码；Ferrando等人使用稀疏自编码器（SAEs）识别了与实体感知和幻觉相关的特征。

尽管取得了这些进展，真实性的神经元级机制仍然未知。无论是在人脑还是基于Transformer的神经网络中，神经元都是分析的基本层次。例如，人脑中的特定神经元（如背外侧和腹外侧前额叶皮层中的神经元）在执行某些认知操作时会选择性激活，比如评估特定事件的真实性。类似地，基于Transformer的模型也表现出功能特化，选择性地激活不同区域，促进做出明智决定所需的交互，例如真或假的判断。

在本研究中，史蒂文斯理工学院的团队开发了一种受神经科学和可解释性研究启发的方法，来检测语言模型内部的真相神经元——专门的真相处理结构。这就像找出人脑中专门负责辨别真假的特定区域一样，只不过这次是在AI的"大脑"中进行探索。

二、研究方法：如何发现真相神经元？

研究团队提出的方法犹如一场精密的神经外科手术，旨在精确定位语言模型中负责处理真实性的神经元。这个过程可以分为几个关键步骤。

首先，研究人员采用了一种叫做"公理化归因"的方法，使用积分梯度来衡量神经元对于真实与非真实回应的归因分数。这就像是给每个神经元打分，看它们对于判断真假的贡献有多大。想象一个审讯室里的测谎仪，能够精确测量每个问题回答时脑部的细微反应。类似地，这种方法能够衡量每个神经元在处理真实和虚假信息时的"反应强度"。

研究团队识别了积极促进真实性并与不真实性负相关的候选神经元。然后，他们应用系统性的过滤程序选择一小部分与真实性表示在因果上相关的神经元。这就像从成千上万的嫌疑人中筛选出几个真正与案件相关的关键证人一样，研究人员从海量的神经元中找出了那些真正负责处理真实性信息的"专家"。

更具体地说，研究方法步骤如下：首先确定一个问题的答案集，包括一个正确答案和一个错误答案。然后构建输入提示，将这两个答案随机排列在问题之后，分别标记为选项A和B。同时，一个明确的指令要求模型选择正确回答问题的选项。

为了处理语言模型在输出标签时经常互换大小写形式的问题，研究团队定义的预测概率同时考虑了大写和小写形式的概率总和。这就像考虑一个人无论用正式还是随意的语气表达的意思都是相同的。

研究中最关键的部分是如何判断一个神经元是否真正与真实性相关。团队定义了"归因差异"，即神经元对真实回应的归因分数与对不真实回应的归因分数之差。这个差异越大，表明该神经元越倾向于支持真实性。

研究人员发现，真实归因分数和不真实归因分数的符号组合可以分为四种不同情况： 1. 两者都为正：神经元对正确和错误回应都有积极贡献，总体归因差异取决于这些贡献的相对大小。 2. 真实为负，不真实为正：神经元主要支持不真实回应，对真实性有负面贡献，对不真实性有正面相关。 3. 真实为正，不真实为负：神经元支持真实性，对真实回应有正面贡献，对不真实回应有负面相关。 4. 两者都为负：神经元对两种回应都有负面贡献，归因差异取决于每个负面贡献的强度。

其中，第三种情况清晰地表明神经元倾向于真实性，这正是我们寻找的真相神经元的标志。

为了验证这些神经元是否真的编码了与真实性相关的信息，研究团队进行了学生t检验，检验平均归因差异是否显著大于0。如果真实性相关信息被成功编码，原假设将被拒绝，备择假设将被接受。

此外，为了更准确高效地识别真相神经元，研究人员还应用了额外的过滤步骤。他们进行了操纵检查，确保只研究那些准确反映语言模型真实性的神经元。如果模型无法正确区分真实和不真实的回应，表明它缺乏关于真实性的必要知识，此时对神经元层面的探测将无法产生有意义的洞见。

研究团队还实施了系统性过滤，只考虑那些在样本中归因差异明显突出的神经元。这个过程包括两个主要步骤：首先，对于每个样本和每个层类型，他们识别出所有层中的最大神经元激活，并只保留那些激活超过设定的自适应阈值的神经元；其次，在识别出每个样本每个层类型中最突出的神经元后，他们进一步要求神经元在至少一定比例的样本中保持突出地位。这确保了所选神经元可靠地表示跨样本的真实性，而不是与特定输入特征相关或由零星激活触发。

为了避免"重复使用"（double-dipping）的问题，即使用同一数据集进行神经元选择和统计分析，研究团队采用了Vul等人推荐的策略：将数据集分为两半，使用第一半选择神经元，使用第二半进行统计测试。通过这种方式，选择和统计分析过程是分开的，避免了循环分析的风险。

三、实验设置：如何验证真相神经元的存在？

为了验证真相神经元的存在并确定它们是否忠实地表示真实性，研究团队提出了三个研究问题： 1. 真相神经元是否存在于各种语言模型中？ 2. 使用TruthfulQA识别的真相神经元是否可以推广到其他数据集？ 3. 语言模型中真相神经元在各层的分布模式是什么？

为了回答这些问题，研究人员使用了六种最先进的开源模型，这些模型跨越不同的参数规模，以展示其方法的泛化性和稳健性。具体来说，他们包括了Llama-3.2-3B-Instruct和Qwen-2.5-3B-Instruct作为小规模模型的代表；Llama-3.1-8B-Instruct和OLMo-2-7B-Instruct作为中等规模模型；以及Mistral-Nemo-Instruct和OLMo-2-13B-Instruct作为相对大规模模型的例子。

为确保公平比较，研究人员在所有模型上都使用了一致的标准化指令提示进行真相神经元识别。积分梯度方法使用20个插值步骤进行近似，而共享阈值设置为40%。由于不同模型的归因规模各不相同，自适应阈值需要手动调整。研究人员观察到，过高的阈值会过滤掉太多神经元，导致抑制后的性能影响很小或可忽略不计；而过低的阈值则会包含许多可能与真实性无关的神经元，其抑制会显著损害模型的指令遵循能力，阻碍准确评估。

研究中使用了几个关键数据集：TruthfulQA是主要数据集，包含790个对抗性构建的问题，涵盖各种真实性类别，专门设计用于评估语言模型生成真实回应的能力。为验证真相神经元是否可以推广，研究人员还使用了TriviaQA和MMLU两个额外数据集。TriviaQA是一个涵盖多种主题的问答数据集，而MMLU是一个评估语言模型在57个学科领域的事实知识的基准测试。

四、研究发现：真相神经元确实存在并影响模型的表现

研究的首个重要发现是：真相神经元确实存在于大语言模型中。当研究人员应用他们提出的方法识别每个模型中的真相神经元后，他们通过比较基准性能和被干预模型的性能来检验这些神经元的影响，在被干预的模型中，已识别的真相神经元的激活被抑制（设为零）。

为了证明观察到的性能变化不仅仅是由于抑制的神经元数量，研究人员还包括了一个对照实验，即抑制相同数量的均匀采样神经元。研究团队在TruthfulQA数据集上评估了10次重复的准确率，每次都随机排列正确和错误答案的顺序。

实验结果令人信服地表明，真相神经元确实在语言模型中发挥着至关重要的作用。通过抑制相对少量的神经元，小规模模型的平均准确率下降到了54.25%，降低了10.49%。同样，中等规模和大规模模型的平均准确率分别下降到46.35%和49.70%，对应的准确率降低幅度为17.90%和17.13%。根据单侧Welch's t检验，这些性能降低在统计上是显著的（p < 0.05）。这些发现表明，识别出的真相神经元在编码真实性方面发挥着关键作用，抑制它们会导致模型倾向于产生不真实的回应。

更有趣的是，抑制真相神经元显著影响了模型对正确答案的预测概率，平均概率降低了22.10%。此外，研究人员观察到，同一家族的模型表现出相似的抑制效应，体现在类似的概率降低幅度上。研究团队推测，同一家族的模型，可能在相似或相同的基础数据集上训练，共享共同的底层真实性机制。因此，真相神经元的形成可能与其训练数据的分布特性密切相关。

识别出的真相神经元代表了真实性的一般方面，抑制效应并不局限于TruthfulQA数据集的特定类别。TruthfulQA数据集包含跨越各种类别的问题，如误解和神话。研究发现，抑制通常均匀地影响各类别的例子，表明真相神经元并不特定于特定问题类别。然而，值得注意的是，抑制效应在"混淆：人物"类别较弱，该类别包括关于名人的细节问题，需要模型选择最符合给定描述的名人。这些信息高度局限于特定个人，这与通用的真实性不同。相比之下，"混淆：地点"类别，专注于地标、城市和国家，似乎涉及较少的特定事实信息，当干预真相神经元时表现出更强的抑制效应。

更重要的是，研究证明了通过TruthfulQA数据集识别的真相神经元可以推广到其他数据集，进一步证明了这些神经元编码了一般的真实性。具体来说，研究人员仅从TruthfulQA识别真相神经元，然后评估在抑制这些神经元前后模型在两个独立数据集MMLU和TriviaQA上的性能。实验结果表明，除了Qwen-2.5-3B-Instruct在MMLU数据集上的表现外，抑制真相神经元持续导致MMLU和TriviaQA基准测试的准确率降低，这强化了研究团队的主张，即这些神经元编码了一般的真实性。

五、真相神经元的分布模式：真实性编码的层次结构

在识别出真相神经元后，一个有趣的问题是它们在语言模型中的分布模式，以及是否存在一种普遍的模式。为了研究这个问题，研究团队可视化了识别出的真相神经元在各层的分布。结果显示，真相神经元在大多数层中稀疏分布或不存在，但在中间层明显聚集，在更深层也出现额外的集中。

这种分布与之前的研究发现高度一致，表明与真实性相关的机制主要出现在语言模型的中间到后期阶段。这就像人类在处理信息时，往往是先收集基本数据（前层），然后综合分析（中层），最后做出判断（后层）。同样，语言模型似乎也遵循类似的信息处理流程，其中真相判断主要发生在处理的中间和后期阶段。

这一发现不仅证实了真相神经元的存在，还揭示了它们在模型架构中的系统性分布。这种一致的分布模式跨越不同规模和架构的模型，表明真实性处理可能是语言模型训练过程中自然涌现的一种基本能力。

六、研究意义与未来方向：超越发现，走向应用

这项研究不仅确认了真相神经元的存在，还为理解语言模型如何处理真实性提供了新的视角。就像我们了解人脑中负责各种功能的特定区域一样，现在我们开始了解AI系统中负责处理真实信息的特定结构。

这些发现有几个重要的实际意义。首先，理解真相神经元可以帮助我们设计更可靠的AI系统。如果我们知道哪些神经元负责判断信息的真实性，我们可以有针对性地加强或改进这些机制，使模型在面对复杂或欺骗性信息时表现得更好。

其次，这项研究为改进模型的诚实度提供了新的方向。例如，可以探索是否可以通过有选择地微调已识别的真相神经元来提高模型的真实性，而不影响其他能力。此外，研究这些神经元的特定特性可能有助于开发内部"谎言检测"机制，从而增强语言模型的可信度和安全性。

从更广泛的角度来看，这项研究也为我们理解AI系统中的涌现能力提供了新的视角。真相神经元的发现表明，即使没有明确编程指导AI区分真假，这种能力也可以通过大规模训练自然涌现。这类似于人类通过经验学习区分真假的方式，而不是通过明确的规则教导。

然而，这项研究也引发了一些新的问题：为什么真相神经元会主要集中在特定层？是什么样的训练过程或数据特性促进了真相神经元的形成？不同类型的真实性（如事实性知识与逻辑推理）是否由不同的神经元处理？这些问题值得在未来的研究中深入探索。

总的来说，史蒂文斯理工学院研究团队的这项工作为理解语言模型中的真实性机制开辟了新的道路，不仅增进了我们对AI系统内部工作的理解，也为设计更可靠、更值得信任的AI系统提供了实际指导。随着这一领域的继续发展，我们可能会看到更加诚实、更值得信赖的AI助手的出现，这将对AI在关键领域的应用产生深远影响。

人工智能神经网络可解释性语言模型真实性