微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI读取另一个AI的"内心独白"时,它有多少把握自己没搞错?——图灵大学与南丹麦大学联合探索AI内省可靠性的新突破

当AI读取另一个AI的"内心独白"时,它有多少把握自己没搞错?——图灵大学与南丹麦大学联合探索AI内省可靠性的新突破

2026-06-02 10:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-02 10:45 科技行者

这项由意大利都灵大学与丹麦南丹麦大学联合开展的研究,发表于2026年5月,论文编号为arXiv:2605.26045,感兴趣的读者可通过该编号查阅完整原文。

**一个奇特的问题:谁来监视监视者?**

假设你雇了一位翻译,专门负责将一位只会说外星语的天才科学家的想法翻译成中文。翻译说:"那位科学家认为答案是'树'。"但你不禁想问:这位翻译有多大把握自己翻译对了?他是百分之百确定,还是其实只有五成把握?如果他每次都以"百分之百确定"的语气说话,而实际上经常翻译错,那这位翻译就算不上一个可靠的合作伙伴。

这个有趣的类比,正是这项研究所要解决的核心问题。只不过,这里的"外星科学家"是一个被特殊训练过的语言模型(一种AI),而"翻译"则是另一个被专门训练出来、能够读取前者内部神经活动并将其转化为人类语言的AI系统,学术上称之为"激活预言机"(Activation Oracle)。研究团队发现,这位AI翻译虽然确实能解读另一个AI在想什么,但它从来不告诉你自己有多大把握——它总是大声宣告答案,却绝口不提自己的底气。

**一、神秘的"激活预言机":一个AI读取另一个AI的思维**

要理解这项研究,先得搞清楚什么是"激活预言机"。每一个大型语言模型(就是类似ChatGPT这样的AI)在处理信息时,内部都会产生大量复杂的数学信号,就像大脑处理问题时神经元之间传递的电信号一样。这些信号沿着网络层层传递,每一层都会对信息进行加工、变换,最终在输出端产生我们看到的文字。

由来自麻省理工学院和哈佛大学等机构的学者在2025年提出的激活预言机技术,其核心思路相当大胆:训练第二个AI,让它专门去"偷听"第一个AI某一层内部的信号,然后用人类语言告诉你第一个AI在想什么。具体操作上,这像是在第一个AI(目标模型)运行时,从它内部某一特定位置偷偷抽取一段数学向量,然后把这段向量注入到第二个AI(预言机)的处理流程中,让第二个AI根据这段信号作出回答。

研究团队选用的测试场景极其有趣:他们给目标AI安装了一个特殊的"保密训练",让它必须在日常对话中隐藏一个秘密词汇,比如"树"。目标AI会正常聊天,但如果有人直接问它那个词是什么,它会拒绝回答或绕开话题。而激活预言机的任务,就是通过读取目标AI的内部信号,猜出这个被刻意隐藏的秘密词汇。这就像一个心理侦探,不是通过问嫌疑人"你想了什么"来获取答案,而是直接读取他的脑电波,再翻译成人类语言。

激活预言机之所以令人兴奋,是因为它有潜在的重要应用场景。在AI安全领域,研究者希望用它来审计AI是否隐藏了危险目标;在AI欺骗检测领域,它可以帮助识别AI是否在表面合规的背后暗藏其他意图;在AI透明度领域,它为理解AI的内部决策机制提供了一个全新窗口。

**二、那个从未被回答的问题:你有多大把握?**

然而,无论激活预言机说什么,它始终只是发出一个答案,没有任何关于自己把握程度的信息。这就好像一位医生只告诉你"你得的是X病",但从不告诉你这个诊断的置信度是95%还是只有35%。当我们需要基于这个判断做出重要决定时,这种沉默就变得非常危险。

在AI安全审计中,一个监管人员面对激活预言机的输出时,必须决定:要相信这个AI"暴露"出来的内部意图吗?要基于这个判断对该AI模型进行封锁或放行吗?如果预言机以一种没有任何不确定性标记的方式告诉你"该AI的秘密目标是操纵用户",你是否应该立刻行动?如果它的置信度只有30%,那这个判断显然不应该立刻触发重大决策。但如果没有置信度信息,你要么对所有输出都盲目相信,要么对所有输出都持怀疑态度——这两种极端都不是负责任的做法。

更棘手的是,激活预言机是一种"被引导"的模型:在它运行时,它的内部信号流会在某一层被强制替换成来自目标AI的信号。传统的AI置信度评估方法是在正常运行的模型上开发的,当模型的内部被这样干预时,这些方法还能正常工作吗?没有人知道答案——在这项研究之前,没有人认真测量过这个问题。

**三、六种"测量把握"的方法:研究团队的实验设计**

研究团队设计了六种不同的方法来尝试估计激活预言机的置信度,并检验每种方法的效果。他们在两个不同规模的激活预言机上进行了测试,分别是参数量为80亿的Qwen3-8B预言机和他们自己全新训练的、参数量达到270亿的Qwen3.6-27B预言机。整个实验覆盖了6000个测试样本(由20个秘密词汇、100种对话场景和3种不同的提问方式组合而成),规模相当庞大。

第一种方法是最直接的数学方案,称为"答案词对数概率"。当预言机在给出答案时,它实际上是对每个词汇赋予一个概率分数,然后选择分数最高的词输出。研究团队的想法是:如果预言机输出的答案词汇获得了很高的概率分数,说明它比较确定;如果分数很低,说明它不太确定。这就像让一位猜词者猜完之后,再检查他猜的时候内心评分有多高。这个方法的优点是成本极低,只需运行一次预言机就能得到数据。

第二种方法叫做"温度自举",这是研究团队认为最有价值的方法之一。思路类似于多次抽样投票:在稍微随机化的条件下,让预言机对同一个问题回答20次,然后看20次答案中哪个词出现最频繁,出现的频率就是置信度。打个比方,如果你问一位半睡半醒的历史专家"法国大革命发生在哪一年",他在随机状态下10次有9次都说"1789年",说明他对这个答案把握很大;但如果他10次给了5个不同年份,说明他其实不太确定。这里的"温度"是一个控制随机化程度的参数,温度越高,回答越随机多样;温度越低,回答越集中固定。研究团队测试了六种不同的温度设定(0.3、0.5、0.7、1.0、1.3、1.5)。

第三种方法最直接但结果最让人失望,叫做"直接数字自报"。研究团队在预言机给出答案后,直接追问它:"在0到100分中,你对自己的答案有多少信心?"这个方法听起来很合理,毕竟如果连AI自己都不知道自己有多大把握,谁会知道呢?但后来的结果证明,这个直觉大错特错。

接下来是研究团队专门为激活预言机设计的三种新方法。第四种方法借用了一种叫做"马尔可夫链蒙特卡洛功率采样"的统计技术,核心思路是:如果预言机对某个答案极其笃定,那它的内部概率分布应该是尖锐的单峰形状(像一座陡峭的山),接受率会很高;如果它不确定,内部分布应该是多峰的(像几座山),接受率会低一些。研究团队通过测量预言机内部采样链的接受率来估计置信度。第五种方法则是同时运行10条这样的采样链,看不同链最终得出的答案是否一致,一致性越高代表置信度越高。第六种方法叫做"引导系数敏感性",核心思路来源于另一项研究的发现:一个真正确定的AI,当你稍微改变注入信号的强度时,它的答案应该保持稳定;如果稍微改变强度就导致答案大幅变化,说明它其实不太确定。研究团队在五种不同强度下运行预言机,看答案是否保持一致。

**四、衡量"把握"好不好的标准:校准误差登场**

在深入了解实验结果之前,需要理解一个关键概念——"校准误差"(Expected Calibration Error,简称ECE)。这是衡量一个信心分数是否真实可靠的核心指标。

校准误差的概念可以用天气预报来理解。假设一位气象员在100天里,对每一天都说"明天有80%的概率下雨"。如果这100天里真的有80天下了雨,那他的预报就是完美校准的——说80%就真的有80%的准确率。但如果他总是说80%,实际上却只有40天下雨,那他的预报就严重过度自信,校准误差很大。校准误差越接近0%,表示置信度估计越准确;越接近100%,表示越不可靠。研究团队设定了一个实用标准:ECE低于10%的方法算作"校准良好"。

此外,研究团队还用了另外几个指标来全面评估各方法。AUROC是评估排名能力的指标,简单说就是:那些被预言机高度自信判断的答案,是否真的比低置信度答案更准确?Brier分数和负对数似然则是同时惩罚自信出错和不确定正确的综合评分指标。

**五、出人意料的结果:最简单的和最直觉的方法都翻了车**

实验结果既有令人振奋的发现,也有出乎意料的意外。

温度自举在两个预言机上都取得了最佳的校准误差表现。在8B预言机上,温度设为1.0时,ECE仅为5.7%,远好于其他方法。在27B预言机上,最佳温度是1.5,此时ECE为10.3%,略高但仍在可接受范围内。背后的机制相当直观:当你用20次随机采样投票时,最终得到的模式频率(比如20次中有8次回答"树",频率为40%)实际上就是一个很好的概率估计。关键在于,温度设定需要和整体任务准确率相匹配。8B预言机的总体准确率约为41%,温度1.0时的平均模式频率恰好也是40%,两者高度吻合,因此校准效果最好。27B预言机总体准确率约为22%,最佳温度1.5时的平均模式频率约为25%,也相当接近。这给出了一个实用建议:选择温度时,应该在一个小型验证集上调试,找到使模式频率最接近实际准确率的温度值。

答案词对数概率(第一种方法)的表现属于中等水平,在8B预言机上ECE为25.5%,27B预言机上为13.1%,并不算精确的校准,但在AUROC(排名能力)方面表现相当出色,在8B预言机上达到0.840,是所有方法中最高的。这意味着虽然它给出的绝对概率数字不够准确,但它在区分"哪些答案更可能正确"方面很有参考价值。换句话说,对数概率是一个很好的"快速筛选"信号——成本低(只需运行一次),虽然不精准,但能帮你快速判断哪些输出值得信赖。

三种专为激活预言机设计的新方法却基本全军覆没。单链MCMC接受率的表现极差,ECE在8B上高达54.4%,在27B上更是高达74%,排名能力也接近随机水平(AUROC仅0.53到0.60)。研究团队给出了深刻的解释:这个方法的理论前提是,当预言机不确定时,内部概率分布应该是多峰的,采样链应该频繁拒绝跳跃。但实验发现,被注入目标AI信号的预言机,其内部分布实际上是高度单峰的——对于任何一个问题,不管答案对不对,预言机内部都形成了一个清晰的峰值,采样链几乎总是接受跳跃。这导致接受率在正确和错误情况下都接近饱和,完全无法区分两者。用一个比喻来说:这个方法假设不确定的人会犹豫不决,但这位AI翻译无论翻译对错,说话时都非常果断,没有丝毫犹豫。多链MCMC协议的排名能力在27B预言机上还算不错(AUROC 0.858),但需要约5倍于温度自举的计算时间,而在校准误差上没有任何优势,整体性价比很差。引导系数敏感性方法的表现也令人失望,ECE在两个预言机上都超过40%,且因为只有5种强度设定,置信度只能取0.2、0.4、0.6、0.8或1.0五个离散值,根本无法作为精细的概率估计。

最令人瞠目结舌的是直接数字自报的表现。在8B预言机上,它的ECE高达58.2%;在27B预言机上,ECE更是高达75.3%。更惊人的是,27B预言机对错误答案的平均信心(98.9%)竟然高于正确答案的平均信心(97.6%)。换句话说,这个巨大的27B预言机在说错话时反而更加自信——AUROC为0.404,低于随机猜测的0.5,意味着如果你反着相信它的置信度,反而更准确。

研究团队对这个反常现象给出了清晰的解释:当你问一个AI"你有多自信"时,它不是在真正检查自己的内部信号,而是在根据训练数据中的语言模式回答。在大量的AI训练文本中,"你有多自信"这个问题的典型回答是"非常自信"或"100分"。这种语言惯性压过了来自内部信号的真实信息,导致模型无论对还是错都大声说"我非常确定"。这个发现呼应了其他研究者在普通语言模型上观察到的现象:AI的内部激活信号和它语言表达的自信心是两条平行线,几乎不相交。

不过,研究团队随后做了一个小型实验,暗示这个问题也许并非无解。他们换了一种提问方式:不是让预言机以数字形式报告置信度,而是让它选择"非常低、低、中等、高、非常高"中的一个标签,然后通过读取各标签的概率分布来计算置信度,而不是让模型自由生成文字。在这种"受约束的语言评分"方式下,仅用30个样本的小型测试就达到了AUROC 0.957的惊人水平,远超直接数字自报的0.516。这说明问题不在于预言机缺乏内在的不确定性信息,而在于自由文字生成这个通道会将这些信息扭曲或淹没。关键在于绕过自由生成,直接读取模型对候选答案的概率分布。

**六、大模型不等于更准确:规模带来的意外格局**

一个有趣的发现是,更大的27B预言机在任务准确率上反而不如8B预言机(约22%对比约41%),但在校准质量上却有部分优势。

这背后有两个机制在起作用。首先,27B预言机在不确定时倾向于拒绝回答,输出空白或者与词汇无关的词语,而8B预言机则倾向于给出一个"听起来合理"的错误答案,比如当秘密词是"火焰"时,8B可能会猜"火"(一个语义近邻)。空白输出很容易从概率分数上识别出来(因为第一个词的概率通常很低),而"火"这种语义近邻答案就难以通过置信度来区分了。其次,27B预言机拒绝某些更难的词汇,这种拒绝行为从置信度角度容易检测,使得整体排名能力提高。

然而,研究团队也指出,从实际应用角度,8B那种犯"创意性错误"的模式其实更有信息价值。当预言机将"火焰"猜成"火"时,至少告诉了人类审计员:目标AI的内部信号指向某个与火相关的概念,这本身就是有价值的线索。而27B一旦拒绝,就等于什么信息都没提供。因此,简单的准确率排名并不能完整反映两个预言机的实际价值。

**七、不同词汇、不同难度:误差并非均匀分布**

研究团队还发现,20个秘密词汇的难度差异相当悬殊,这提醒我们不能用总体数字遮盖细节。在8B预言机上,最容易猜中的词是"月亮"(准确率82.7%),最难的是"岩石"(仅12%)。在27B预言机上,最容易的是"蓝色"(准确率50%),最难的是"叶子"(仅5%)。其中,"蓝色"这个词呈现出一个有趣的逆转:它在8B上是倒数第三难的词,在27B上却变成了最容易的词。类似地,"岩石"在8B上最难,在27B上反而不算最难。这说明不同架构和规模的模型在内部表示不同概念时会有不同的清晰度,并非所有概念对所有模型都同等透明。

研究团队还进行了一个有趣的受控实验,将秘密词汇库从20个缩减到2、5、10个,观察方法性能如何变化。结果发现,温度自举在8B预言机上是唯一一个随词汇库扩大而校准误差下降的方法(从2个词时的21.3%,到20个词时的5.7%),而大多数其他方法则随词汇库扩大而校准误差上升。这个特性使温度自举在实际应用中更加有用——现实中的应用场景往往需要从大量可能的概念中寻找目标。

**八、混合架构的技术挑战与突破**

研究团队训练Qwen3.6-27B预言机的过程并不顺利,这部分内容虽然偏向技术,但值得提及,因为它揭示了激活预言机技术在推广应用时面临的现实挑战。

Qwen3.6-27B是一种特殊的混合架构模型,其中四分之三的处理层使用一种叫做"门控DeltaNet"的线性注意力机制,只有四分之一的层使用传统的全注意力机制。原有的训练框架只支持纯全注意力架构,需要对代码进行多处修改才能支持混合架构。此外,研究团队还发现,适合读取内部信号的层位置在这个混合模型中与纯注意力模型不同。他们测试了所有64层的读取效果,发现只有第48层(约75%深度处)能提供有意义的秘密词汇信号,而第32层(约50%深度,原本也是训练时指定的读取层之一)的准确率只有可怜的6%,与第48层的41%形成了9倍的差距。研究团队推测这与混合架构中线性注意力层的信息存储方式有关——线性层可能不以相同方式在残差流中保留概念性信息。

他们还专门对比了四种不同架构的预言机在各层的读取效果,包括Qwen3-8B、Qwen3.6-27B、Gemma-2-9B和Gemma-3-27B,绘制了详细的层精度图谱。在这四个模型中,Gemma-3-27B的表现最为出色,在广泛的层范围内(大约第31到第59层)都能保持50%到56%的读取准确率,且有效读取层的宽度最大。相比之下,Gemma-2-9B的有效读取集中在靠前的层,而两个Qwen模型的有效读取层都集中在靠后的位置。这些发现对于未来想要在新架构上部署激活预言机的研究者具有重要的实践参考价值。

**九、当标准校准工具介入后:后处理能否挽救差方法?**

研究团队还测试了四种标准的"后处理校准"方法,看能否在实验结束后通过数学手段修正各方法的校准误差,就像给一把尺子重新标刻度一样。这四种方法分别是温度缩放、Platt校准、保序回归和Beta校准,都需要使用一部分有标签的验证数据来训练修正参数。

实验结论是:后处理校准确实能大幅缩小各方法之间的校准误差差距。经过校准后,即便是表现最差的直接自报和MCMC接受率,ECE也能降到极低水平(在随机分割测试上甚至接近0.01)。但这里有一个重要的权衡:这些修正方法需要额外的带标签数据,而且校准效果在"词汇不交叉分割"(用10个词的数据校准,在另外10个词上测试)的条件下明显变差,说明过拟合到特定词汇的频率模式是个问题。

温度自举在不使用任何标签数据的情况下仍然表现最好;一旦有标签数据可用,对数概率经过简单的仿射缩放后与温度自举的差距就大幅缩小了。这意味着选择哪种方法,在很大程度上取决于实际应用场景是否有验证数据可用:如果有,对数概率因为成本低(只需一次运行)可能更实用;如果没有,温度自举是更可靠的默认选择。

**归根结底,研究给出了什么答案?**

说到底,这项研究的核心贡献是为一个此前被忽视的问题画出了清晰的地图:当一个AI系统试图解读另一个AI的内部状态时,它说话的把握程度是可以被测量的,而不同的测量方式之间差别天壤之别。

温度自举,也就是那个"多次投票取众数"的方法,在不需要任何额外标签数据的情况下提供了最可靠的置信度估计,而且在两个不同规模的预言机上都验证了这一点。实用建议非常直白:在一小批验证样本上调整温度,让投票频率与实际准确率相匹配,然后在生产环境中使用这个温度;如果成本是主要限制,那就用对数概率作为快速筛选信号,用一次解码就能得到,虽然不精准,但胜在便宜快捷。

更深远的意义在于,这项研究揭示了一个在多个AI研究方向上反复出现的模式:AI的内部信号和它语言化表达的自信心之间,存在一道几乎无法靠语言本身跨越的沟壑。你问AI"你有多确定",它给你的答案更多反映的是训练数据中语言习惯,而不是它真实的内部不确定性。这不是某一个模型的特有问题,而是语言模型生成机制的内在局限。

这对AI系统的部署者和监管者来说是一个重要警示:不要轻易相信AI自我报告的置信度,应该建立外部验证机制。研究团队提供了一套具体可行的工具箱,帮助从事AI安全和可解释性研究的人员在实践中做出更可靠的决策。

有兴趣深入了解所有实验细节、方法数学推导和完整数据表格的读者,可以通过论文编号arXiv:2605.26045查找完整原文,在那里你会找到十六种方法和温度配置组合的完整评分表,以及四种预言机在全部64层的逐层读取精度图谱等更丰富的信息。

---

Q&A

Q1:激活预言机是用来做什么的?

A:激活预言机是一种特殊训练的语言模型,它能够读取另一个AI模型运行时内部某一层产生的数学信号,并将这些信号转化为人类可读的文字描述。通俗地说,它是一个"AI翻译",专门解读另一个AI在"想什么"。目前主要用于AI安全审计、检测AI是否隐藏危险目标,以及探测AI内部是否存在不应公开的信息等场景。

Q2:温度自举置信度估计方法的原理是什么?

A:温度自举的核心思路是多次采样投票。具体做法是让激活预言机在稍微随机化的条件下回答同一个问题20次,然后统计哪个答案出现的次数最多,这个最高频率就是置信度估计。温度参数控制随机化程度,温度越高答案越分散,越低越集中。关键在于选择合适的温度,使得投票频率与实际准确率大致吻合,这样置信度数字才具有现实意义。

Q3:为什么直接问AI"你有多自信"会得到严重失真的答案?

A:当你用自然语言问AI自己的置信度时,它不是在检查内部信号,而是在根据训练文本中的语言惯性回答。训练数据中"你有多自信"这类问题的典型回答是"非常自信"或"100分",语言模型学会了这种模式并复现它,与它真正的内部不确定性毫无关系。实验结果显示,27B预言机在回答错误时甚至比回答正确时更加自信,正是这种语言惯性压过内部真实信号的体现。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-