微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

日本先端科技大学揭秘：大语言模型脑子里的"逻辑电路"到底长什么样？

人工智能大语言模型机械可解释性

日本先端科技大学揭秘：大语言模型脑子里的"逻辑电路"到底长什么样？

作者：科技行者

2026-06-02 17:46

分享至：

这项研究揭示了大语言模型执行演绎推理时，仅约3%的注意力头构成关键"逻辑电路"，分工明确，层层协作，一旦关闭这些电路，AI推理能力即刻崩溃。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-02 17:46 • 科技行者

这项由日本先端科学技术大学院大学（JAIST）研究团队完成的研究，以预印本形式于2026年5月27日发布在arXiv平台，论文编号为arXiv:2605.27824。研究聚焦于大语言模型（LLM）执行逻辑推理时的内部机制，试图回答一个让无数AI研究者夜不能寐的问题：ChatGPT这类AI在"思考"问题时，它的大脑里究竟在发生什么？

---

一、AI会"思考"，但它的思考过程是个黑箱

每当你向ChatGPT或其他AI助手提问，得到一个听起来条理清晰、头头是道的答案时，你有没有好奇过：这个答案是怎么"想"出来的？AI真的在推理，还是只是在做高级的文字接龙？

这个问题绝不只是哲学上的追问。如果我们不知道AI的推理过程，就无法真正信任它的答案，也无法在它出错时知道该如何修正。这就好比你买了一辆神秘的汽车，它能开、能跑，甚至能比赛，但引擎盖是焊死的，没人知道里面装了什么——你敢把全家人的性命都托付给它吗？

JAIST的研究团队正是抱着打开这个引擎盖的目标，深入到大语言模型的内部，试图找到负责逻辑推理的"零件"究竟藏在哪里，它们又是如何协作的。

他们选择的研究场景是"演绎推理"——也就是那种从已知条件一步步推导出结论的逻辑过程。比如：已知"如果下雨，地面就会湿"，以及"现在下雨了"，那么我们可以推导出"地面是湿的"。这类推理在日常生活中无处不在，但对AI来说却极具挑战性，因为它需要多个步骤的连锁推导，而不是简单地背出一个答案。

研究团队的核心发现可以用一句话概括：大语言模型内部存在一套高度专业化、分工明确的"逻辑电路"，仅占全部注意力头（attention head）的约3%，却几乎承担了全部的演绎推理工作。一旦这些电路被破坏，AI的推理能力就会彻底崩溃。

---

二、研究框架：给AI的推理过程装上一台"心电图机"

要理解研究团队的工作，需要先弄清楚他们研究的是什么样的AI，以及怎么研究它。

大语言模型的内部结构可以粗略理解为一条流水线，信息从输入端进入，经过一层又一层的处理，最终在输出端产生文字。每一层里都有许多被称为"注意力头"的小单元，它们各自负责捕捉文字之间不同类型的关联——就像一个乐队里有小提琴手、钢琴手和打击乐手，各司其职，共同演奏出一首曲子。

研究团队首先需要给AI一个具体的推理任务，才能观察它内部在发生什么。他们采用了一种叫做"符号辅助思维链提示"（Symbolic-Aided Chain-of-Thought，简称符号CoT）的方法——这是团队此前研究工作中提出的框架。简单来说，就是把一个逻辑推理问题用半程序化的语言写出来，每一步推导都显式地表达出来，就像数学题的解题过程一样清晰。

以一道典型的推理题为例：给定一组规则，比如"如果A成立，则F成立"、"如果F和K都成立，则E成立"，以及初始事实"A成立"和"K成立"，问题是"E是否成立？"。AI需要一步步推导：先由A推出F，再由F和K共同推出E。每一步都要从当前已知的事实库中挑选合适的前提，找到匹配的规则，然后推导出新的结论。

这个推理过程还可以用图来表示：把每个事实看成图上的一个节点，规则看成连接节点的边，整个推理过程就变成了一次图的遍历——从起点出发，沿着边走，最终到达目标节点。这样一来，AI的推理任务就被转换成了一个有严格结构的计算问题，非常便于分析。

在这个框架下，研究团队把推理过程分解为若干个子步骤，并着重关注三个他们称之为"不确定推理分量"的关键位置：前提选择（选哪个已知事实作为推理起点）、前提选择终止（决定是否还需要再选一个前提）、以及规则选择（选哪条规则来进行推导）。

---

三、发现"犹豫点"：AI在哪里最拿不准主意

研究团队做的第一件事，是给AI的每一个输出词打一个"置信度分数"。置信度越高，说明AI对这个词越有把握；置信度越低，说明AI在这个位置越犹豫不决。

他们用了四个主流的大语言模型来做这个实验：Llama-3.1-8B-Instruct、Qwen3-8B、Phi-4和Qwen3-4B，每个模型都是当前业界颇具代表性的选手。

结果非常清晰：AI在输出推理链时，绝大多数词的置信度都接近1.0（也就是几乎百分之百确定）。比如，那些语法符号、标点、固定格式词等等，AI从不犹豫。但在三个特定位置，置信度会突然大幅下滑——正好就是前提选择、前提选择终止和规则选择这三处。

为什么偏偏这三处会犹豫？研究团队给出了非常直观的解释。以"选哪个前提"为例，AI需要同时满足三个隐性约束：第一，选出的前提必须是已经被证明为真、出现在当前事实库中的事实；第二，选出的前提必须能够匹配至少一条可用规则；第三，选出的前提还必须符合示例中暗示的遍历策略——如果示例用的是广度优先搜索策略，就应该先把同层的节点都处理完；如果是深度优先，就应该一路向深处追下去。

这三个约束同时压在一个词的预测上，自然会让AI感到"为难"。而且，这种犹豫在四个不同的AI模型上都表现出同样的规律，说明这不是某个特定模型的怪癖，而是大语言模型在执行演绎推理时的普遍现象。

更关键的是，研究团队发现：如果AI能在这三个犹豫点上做出正确的选择，那么整条推理链往往就是正确的；反之，一旦在这些关键点上出错，后续的推理就会一错到底。这就像一棵树的分叉路口——只要走对了岔路口，后面的路自然就对了。

---

四、用"因果手术刀"找到负责推理的神经元

知道了AI在哪里犹豫之后，研究团队要做的就是找出是哪些内部零件在负责处理这些犹豫点。他们使用的工具叫做"因果中介分析"（Causal Mediation Analysis，CMA），这是一种在机械可解释性研究领域广泛使用的技术。

用一个类比来理解这个方法：假设你想知道一台机器里哪个齿轮负责驱动某个特定的输出。你的做法是，先让机器正常运转记录输出，然后偷偷换掉某一个齿轮，看输出有没有变化。如果换了之后输出改变了，说明那个齿轮很关键；如果没变，说明它不是关键齿轮。

研究团队做的就是这样的"换齿轮"实验，只不过他们换的是AI内部的"激活值"（activation），也就是每个注意力头处理信息时产生的中间结果。具体来说，他们构造了成对的"干净提示"和"污染提示"：两个提示的结构完全相同，但在推理的关键元素上做了精确的修改——比如悄悄改变一个事实的值，或者把某条规则的条件替换掉——使得AI在污染提示下应该给出不同的推理结果。

然后他们做了两种实验。第一种叫"激活补丁"（Activation Patching）：在污染提示下运行AI，但把某个特定注意力头在干净提示下的激活值"移植"回来，看这样做能在多大程度上恢复AI原本应该给出的答案。如果某个头的移植效果很显著，说明这个头对推理结果有直接影响。第二种叫"路径补丁"（Path Patching）：更进一步，测量两个注意力头之间的信息传递量，从而画出信息在这些头之间流动的"地图"。

为了让实验更有针对性，研究团队为四种不同的"污染类型"各自构造了数据集：修改事实来影响前提选择、修改规则条件来影响前提选择终止、修改规则内容来影响规则选择、以及改变示例中使用的遍历算法来影响前提选择。每种污染对应一组特定的注意力头角色：读取事实的头、选择前提的头、读取规则条件的头、匹配规则条件的头、读取规则内容的头、选择规则的头、读取遍历算法的头，以及实施遍历算法的头。

---

五、"逻辑电路图"的样子：分工明确，层层递进

通过上述实验，研究团队在四个大语言模型中都发现了一套相当一致的内部结构。

第一个规律是分层读写结构。负责"读取"信息的注意力头（比如从问题描述中读取事实、读取规则条件）集中在模型较浅的层，而负责"决策"的头（比如选择前提、选择规则）则集中在更深的层。这与直觉相符：你得先把信息读进脑子里，才能基于这些信息做出判断。信息从浅层的读取头经过残差流传递到深层的决策头，就像一条流水线，信息在流动过程中被不断加工和整合。

第二个规律是时序计算结构。研究团队在所有四个模型中都观察到一个一致的处理顺序：首先是规则条件匹配，然后是遍历算法实施，接着是前提和规则选择，最后是前提选择终止。这个顺序非常符合逻辑：你得先检查哪些规则的条件满足了，再决定按什么策略走，然后具体选出要用的前提和规则，最后再判断这一步的前提是不是都选够了。

第三个规律尤为引人注目：负责规则选择的头高度稀疏，集中在极少数几个头上，而且这几个头的影响力极为突出。在Llama-3.1-8B-Instruct模型中，单个影响力最强的头对规则选择的贡献度超过了30%。研究团队的解释是，规则选择发生在前提选择之后，此时可用的选项已经被大幅缩窄，所以这个任务对AI来说更加确定性，可以由少数几个高度专业化的头来处理。

第四个规律是多义性注意力头的存在。有一些头同时承担多种信息读取任务——比如在Llama模型中，第10层第1个头、第10层第2个头和第11层第12个头，同时负责读取规则条件、读取规则内容和读取事实三种信息。而在Qwen系列模型中，多义性更多体现在决策层面，有些头同时处理多个不同的决策任务。不同的模型在多义性上有不同的表现模式，说明不同的AI虽然在功能上类似，但具体的实现方式各有特色。

把所有这些头及其之间的信息传递关系组合在一起，就形成了研究团队所说的"电路网络"：四个子电路（规则条件匹配电路、规则选择电路、前提选择电路、遍历算法实施电路）紧密交织，共同完成整个演绎推理过程。

---

六、破坏实验：一旦摘掉这3%的零件，AI就傻了

光找到了这些头还不够——研究团队需要证明它们真的不可或缺，而不只是相关性。于是他们做了一系列"破坏实验"：把识别出来的关键头强制"关闭"（将其输出清零），然后测量AI在多个任务上的表现变化。

实验涵盖了研究团队自己构造的合成数据集，以及两个知名的逻辑推理基准数据集ProntoQA和ProofWriter，还有一个通用知识基准MMLU。他们设置了六种配置：保留所有头的原始状态，随机关闭约3%的头，只关闭规则选择相关的头（约占1%），只关闭前提选择相关的头（约占1%），只关闭前提选择终止相关的头（约占1%），以及同时关闭全部三类逻辑推理头（约占3%）。

结果在所有模型和数据集上都极为一致。在合成数据集上，关闭那约3%的逻辑推理头之后，所有模型的推理步骤正确率都崩溃到接近零——哪怕只关闭其中一类（占1%的头），效果也远比随机关闭3%的头要严重得多。

在ProntoQA和ProofWriter上，结果同样触目惊心。以Llama-3.1-8B-Instruct为例，原本在ProntoQA上有91.4%的准确率，关闭规则选择相关的头之后直接跌到2.6%——几乎和瞎猜没有区别。研究团队还发现一个有趣的细节：有些模型在关键头被关闭后，仍然能保持ProntoQA约44.6%或ProofWriter约29.2%的准确率。这并不是说推理还在进行，而是因为ProntoQA只有"对/错"两个选项，ProofWriter有"对/错/不确定"三个选项，模型只是在保留了正确的输出格式的前提下随机猜答案，碰巧达到了约等于随机猜测的正确率。换句话说，AI的推理链完全乱掉了，只剩下了一个空壳。

在通用知识任务MMLU上，关闭单类逻辑推理头的影响与随机关闭相当，并不明显。但当同时关闭全部三类逻辑推理头时，MMLU的表现下降幅度就显著超过了随机关闭同等比例头的效果。这个发现说明，逻辑推理头不只是用于推理任务——即便是回答一般性知识问题，AI也会在某种程度上调用这些头。

值得一提的是，研究团队特别验证了这些在合成数据上找到的电路是否能推广到真实数据集。结果显示，用合成数据找到的关键头，在ProntoQA和ProofWriter上表现出同样的重要性。这说明这套电路并不是为某种特定的数据格式定制的，而是AI在演绎推理这项能力上的通用基础设施。

---

七、这项研究的意义远不止于好奇心

说到底，打开AI的引擎盖这件事，不只是满足科学家的探索欲。它对现实有着相当具体的影响。

第一，它为AI的可信度提供了新的视角。当我们知道AI的逻辑推理依赖于某些特定的内部结构时，我们就有了检测AI是否真的在"思考"的手段，而不是只能通过观察输出来猜测。如果未来的AI在某个推理任务上表现异常，我们或许可以直接检查这些关键头的状态，快速定位问题所在。

第二，它为提升AI推理能力指出了方向。既然现在知道了哪些头负责什么，就可以有针对性地强化它们——比如通过专门的训练数据或微调策略，专门提升这些关键头的质量，而不是对整个模型进行大规模的代价高昂的重训练。

第三，这项研究也揭示了AI从少量示例中"学习"推理策略的机制。研究发现，负责"实施遍历算法"的头能够从仅仅几个示例中读取并模拟整个遍历策略（比如广度优先还是深度优先）。这说明大语言模型具备一种相当惊人的能力：从极少的示例中抽象出算法级别的规律，并将其内化为一种可执行的内部机制。

当然，这项研究也有其局限性。研究团队主要在使用了简化符号的合成数据上进行实验，真实世界的自然语言推理问题往往比这复杂得多，前提条件的表达方式更加多样，规则可能隐含在上下文中而非明确列出。此外，研究主要聚焦于注意力机制，而MLP层（另一种关键的神经网络组件）对推理的贡献也有可能相当重要，这方面还有待进一步探索。最后，不同架构、不同规模的模型之间，这套电路的具体形态会有怎样的差异，也是一个开放的问题。

---

归根结底，这项研究做了一件很有价值的事：它不再满足于"AI能做什么"，而是认真追问"AI怎么做到的"。就像医学界从经验医学走向循证医学，AI研究也需要从"这个模型表现很好"走向"我们知道为什么它表现好，也知道它在什么情况下会出错"。找到了那3%的关键电路，只是这段旅程的一个起点。有兴趣深入了解的读者可以在arXiv平台通过编号2605.27824查阅完整论文。

---

**Q&A**

Q1：大语言模型的"注意力头"是什么？

A：注意力头是大语言模型内部的基本计算单元，可以理解为模型中许多微小的专注点，每个注意力头负责捕捉文字之间不同类型的关联关系。一个大型模型通常有数百到数千个注意力头，分布在数十层网络结构中，它们共同协作来处理和生成文字。

Q2：为什么修改仅3%的注意力头就能让AI的逻辑推理完全失效？

A：这说明大语言模型中的逻辑推理功能高度集中，并非由全部神经元均匀承担，而是由少数极为专业化的头来完成核心工作。这就好比一台机器里某几个关键齿轮如果坏掉，整台机器就停转，即便其他绝大多数零件都完好无损。这种稀疏集中的特性同时也意味着推理功能本质上是脆弱的。

Q3：演绎推理和AI平时回答问题有什么不同？

A：演绎推理是指从已知的规则和事实出发，通过多个步骤逻辑推导出新的结论，每一步都必须严格遵循规则。而AI平时回答问题往往依赖从训练数据中记忆的模式，不一定经过严格的逐步推导。演绎推理对AI来说更难，因为它要求每一步都正确，任何一步出错都可能导致最终答案错误。

人工智能大语言模型机械可解释性

分享至

0赞

好文章，需要你的鼓励

推荐文章

AI智能体评估
自动化评测
评估代码生成

2026-05-20 17:33

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

AWS AI Labs研究团队发布EvalAgent，这是一套通过"评估技能"自动生成AI智能体评测方案的系统，将首次运行成功率从17.5%提升至65%，并在人类专家评测中获得79.5%的偏好选择。
低光图像增强
多模态融合
跨注意力机制

2026-05-20 17:16

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

亚历山大大学提出M2Retinexformer，通过融合深度、亮度和语义三种辅助模态，让AI在增强暗光图像时兼顾几何结构与视觉自然度。
人工智能
联想记忆
新型适配算法

2026-05-20 17:03

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

浙大、西湖大学等联合提出FAAST，无需反向传播，一次正向扫描将训练样本压缩为快速权重矩阵，推理时间和内存占用分别节省90%和95%以上。
重症监护AI
大语言模型
医疗安全评估

2026-05-20 16:46

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

慕尼黑工业大学发布RealICU基准，用专家后见之明评测大语言模型在ICU实时决策中的真实能力，发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

2026-05-20 17:33

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

2026-05-20 17:16

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

2026-05-20 17:03

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

2026-05-20 16:46

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

北京第二十六维信息技术有限公司（至顶网）版权所有。 | 联络我们

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn