
这项由华为诺亚方舟实验室与英国伦敦玛丽女王大学联合开展的研究,于2026年6月以预印本形式发布,论文编号为arXiv:2606.06735,有兴趣深入了解的读者可通过该编号查询完整论文。
**研究概要**
当你和一个AI聊天助手说话时,你有没有想过,如果能悄悄在它"脑子里"拨动一个开关,让它变得更诚实、更温和,或者专门聊某个话题,那会是什么感觉?这不是科幻,而是一个叫做"激活引导"的真实技术,已经被研究人员广泛用于控制大型语言模型的行为。
这个技术的核心思路其实相当直接:研究人员发现,语言模型在处理信息时,内部会产生大量数字信号——就像神经元在放电一样。这些信号在多维空间中形成一个"向量",而某些概念(比如"诚实"、"积极情绪"、"有毒言论")会对应一个特定的方向。于是,如果你沿着这个方向"推"一下这些信号,模型的输出就会向那个概念靠拢。
然而,问题来了。研究人员一直在争论:这种"推"究竟是怎么起作用的?是改变信号指向的方向重要,还是改变信号的强度(也就是"大小")重要?传统方法把两件事混在一起做,就像你拧动一个旋钮,却同时改变了音量和音色,你根本不知道到底是哪个变化让效果变好或变差。
华为诺亚方舟实验室与伦敦玛丽女王大学的这项研究,正是为了彻底拆解这两个效果。他们把隐藏信号拆成"方向"和"大小"两个独立部分,然后分别测试它们各自的作用。结论可以简单地概括为:方向控制语义(也就是"说什么"),大小控制稳定性(也就是"说得好不好")。这个发现为未来设计更精准的AI行为控制方法提供了重要依据。
---
**一、大模型的"导航系统"——激活引导是什么**
要理解这篇研究,得先明白语言模型在"思考"时发生了什么。
假设你给一个导航软件输入目的地,它会在地图上规划一条路线。大型语言模型处理文字时,类似地,每一个词语经过模型的每一层"处理站"之后,都会变成一个多维空间里的点——研究人员管这个叫"隐藏状态"。这个点的位置,决定了模型接下来会说什么。
科学家发现,某些抽象概念,比如"这句话是真实的"或者"这句话带有正面情绪",在这个多维空间里对应着特定的方向。如果一个词的隐藏状态在"诚实"这个方向上坐标很高,模型就更可能说出真实的话;如果坐标很低,模型可能更倾向于胡说八道。
于是,研究人员想到一个聪明的办法:直接把这个隐藏状态沿着"诚实"方向推一推,不就能让模型更诚实了吗?这就是"激活引导"的基本原理,已经被成功应用于控制模型的诚实度、情绪倾向、有毒语言比例,乃至拒绝有害请求的能力。
最简单的做法是"加法引导"——直接把一个代表目标概念方向的向量加到隐藏状态上。这就好比你在导航路线上强行加了一个路标,让车辆偏向某个方向。但问题在于,这种加法操作会同时改变两件事:信号的方向(往哪走)和信号的大小(走多远)。就像调音响时,拧一个旋钮却连带着音量和音色都变了,你事后根本不清楚是哪个变化产生了你想要的效果。
为了解决这个问题,近年来出现了一些更精巧的方法,它们不是"加"而是"转"——像转动罗盘一样,让信号的方向旋转到目标位置,同时保持信号大小不变。这类方法被称为"球面引导",因为它就像在球面上滑动而不改变球的半径。
但这些新方法背后的假设成立吗?概念信息真的只存在于方向中,与大小无关吗?保持大小不变真的是最好的选择吗?这篇研究正是要系统性地回答这两个问题。
---
**二、拆解信号的两个维度——方向与大小**
这项研究的核心武器,是一套把隐藏状态"拆解"的几何框架。
假设有一根指向某个方向的箭头,这根箭头有两个属性:一是它指向哪里(方向),二是它有多长(大小)。研究团队把每一个隐藏状态都理解为这样一根箭头,然后把"激活引导"的各种方法,统统描述为对这根箭头的操作:有的只转方向,有的既转方向又改长度,有的保持长度不变只转方向。
具体来说,给定一个隐藏状态向量,研究团队把它分解为三个要素。第一个是它的"长度",也就是大小。第二个是它的"单位方向",也就是把长度归一化为1之后的纯方向信息。第三个是它在目标概念方向上的"投影得分",研究团队管这个叫"角度概念得分",它表示这个信号与目标概念方向有多对齐——得分越高,信号就越指向那个概念。
通过这套拆解,研究团队定义并比较了六种不同的引导方法,它们各自对方向和大小的处理方式截然不同。标准的加法引导(CAA)直接在信号上加一个固定向量,既改变方向也改变大小,而且每个词语受到的影响都一样大,不管它原本离目标概念有多远。重归一化加法引导(CAA-r)做同样的加法,但事后把信号的大小强制还原成原来的长度——只保留方向变化,丢弃大小变化。匹配加法引导(CAA-m)则更聪明:它为每个词语单独计算需要加多少,使得结果方向精确地落在目标概念得分的位置,但不管大小。球面引导(S)既精确控制每个词的方向到目标得分,又强制还原大小。加法球面引导(AS)每次给方向转动一个固定角度,大小不变,但不同词语的最终方向得分各不相同。最后是带大小缩放的球面引导(SN),在球面引导的基础上,额外用一个参数β来乘以大小——方向完全不变,只改大小,专门用来测试大小对稳定性的影响。
这六种方法构成了一个实验矩阵,使得研究团队可以精确地比较:保持大小vs不保持大小,精确控制每个词的方向vs只控制平均方向,这两个维度分别带来什么效果。
---
**三、信号的大小变化有多厉害——隐藏状态的范数分析**
在正式对比各种引导方法之前,研究团队先做了一项基础调查:在大型语言模型里,不同词语的隐藏状态大小(长度)之间,差异到底有多大?
这个问题很关键,因为如果所有词语的隐藏状态大小都几乎一样,那"保持大小不变"就不是什么有意义的约束;但如果大小差异很大,那改变大小就可能带来不可忽视的影响。
研究团队在七个不同的大型语言模型(从10亿参数到700亿参数)上,用十种不同类型的文本数据(网页、学术论文、代码、新闻、医疗问答等),测量了各层隐藏状态大小的变异程度,用"变异系数"这个统计指标来衡量分散程度——变异系数越高,说明不同词语之间的大小差异越大。
结果显示,不同架构的模型表现迥异。Llama和Qwen系列模型在中间层和靠后层的变异系数相对较低,大约在5%到15%之间,说明大小比较集中。但Gemma模型的变异系数在很多层都高达50%甚至80%以上——研究团队推测这与Gemma采用的"后归一化"架构有关,这种架构会让激活值的大小分布更加发散。
另一个重要发现是,对于指令微调模型来说,模型在生成文字时(也就是"推理阶段")的隐藏状态大小比在读取输入时要稳定得多,因为输入序列的第一个位置("注意力汇聚"位置)往往有异常大的信号大小。这说明,如果我们关心的是引导模型生成文字时的行为,那么生成阶段的信号大小确实相对稳定,但并非到了可以忽略不计的程度。
这个基础调查的结论是:信号大小不是一个可以简单忽略的量,它在不同模型、不同位置之间有相当程度的变化,因此在设计引导方法时,如何处理信号大小是一个需要认真考虑的问题。
---
**四、方向还是大小在传递概念——线性探测实验**
接下来,研究团队着手回答核心问题:概念信息究竟藏在信号的方向里,还是大小里?
他们的测试方式像是一场精心设计的侦察实验。对于每个模型和每个概念(诚实、情绪、有毒语言、电影情感),他们训练了三种不同的"线性探测器"——本质上是一个简单的分类器,你给它一段特征,它告诉你这个信号属于哪个类别。
第一种探测器用原始的隐藏状态信号作为特征,这是基准。第二种探测器把信号的大小去掉,只留下方向(也就是把每个信号归一化到长度为1),然后用这个"纯方向"信号作为特征。第三种探测器最极端:只给它每个信号的大小(一个单一的数字),不告诉它方向任何信息。
如果概念信息主要藏在方向里,那第二种探测器的准确率应该和第一种差不多,而第三种探测器应该比随机猜测好不了多少。
实验结果跨越七个模型、四个数据集,结论极其一致:第二种探测器(纯方向)的准确率与第一种(原始信号)几乎相同,差距通常不超过1个百分点;而第三种探测器(只看大小)的准确率接近随机猜测水平,大约50%左右。
举个具体的数字来感受一下:在Llama-3.1-8B-Instruct模型上,对于情绪分类任务(SST-2),原始信号的探测准确率是92.5%,纯方向信号是92.4%,而只看大小的准确率只有53.4%。在其他模型和数据集上也呈现同样的规律,包括大小变异系数极高的Gemma模型——即便Gemma的信号大小差异很大,概念信息依然主要在方向里,大小里几乎什么都没有。
这个结论对球面引导方法是一个有力的支持:既然概念信息主要在方向里,那么通过旋转方向来引导概念是有理论依据的。但故事并没有就此结束——大小不携带概念信息,不等于大小不重要。
---
**五、方向相同、大小不同,效果为何天差地别——CAA-m与球面引导的对比**
现在到了这项研究最精彩的部分。既然CAA-m和球面引导(S)都能精确地把每个词的信号方向调整到同一个目标得分,它们之间唯一的区别就是大小处理方式不同:S强制把大小还原到原始长度,CAA-m则让大小随着加法操作自然变化(通常会略微增大)。
理论上,如果大小对概念控制没有影响,那这两种方法的下游效果应该完全一样。但实验结果打了一个大大的问号。
研究团队测量了三件事:任务指标(模型在目标任务上的表现,比如回答诚实问题的准确率、生成正面情绪内容的比例)、困惑度(一种衡量模型生成文字流畅程度的指标——困惑度越低,语言越自然流畅;困惑度越高,说明模型在"乱说话")、以及通用能力(用一个多选题基准MMLU来测量模型有没有因为引导操作而损失基本的推理和知识能力)。
在低到中等的引导强度下(目标概念得分γ=0.1到0.5),两种方法的任务指标相当接近。但到了高强度引导(γ=0.7)时,差距变得惊人:球面引导S的困惑度比CAA-m高出几十倍甚至更多,而MMLU准确率也明显下降,同时CAA-m的任务指标通常也没有明显输给S。
也就是说,两种方法在"告诉模型要表达什么概念"这件事上做得一样好,但S在强引导时会严重损害模型的语言流畅度和通用能力,而CAA-m则相对温和得多。
为什么会这样?研究团队提出了一个直观的假设:信号的大小在某种程度上决定了这个位置的"表达空间"。当你强制把一个信号旋转到一个很远的方向,同时还要保持原来的长度,这相当于把有限的"空间"都用来表达目标概念,没有留下足够的余地来保留其他重要的上下文信息。而CAA-m在旋转方向的同时,允许信号略微变长,这就像给了一个稍大的容器,既能装入目标概念,又能保留足够的其他信息来维持语言的连贯性。
---
**六、大小才是稳定性的旋钮——SN方法的β缩放实验**
为了把这个假设从猜测变成实证,研究团队设计了一个极其干净的实验:用SN方法,在完全固定方向目标的前提下,只改变信号大小的缩放比例β。
具体来说,β=1.0对应标准球面引导(大小不变),β=0.9表示大小缩小到90%,β=1.1和β=1.2分别表示大小放大到110%和120%。由于方向目标γ完全固定,任何因β变化而产生的效果,一定只来自信号大小的变化,与概念方向无关。
实验在七个模型、四个数据集上进行,每个组合重复两折(fold),合计70个实验单元。
任务指标的结果:在不同β值之间,任务指标的变化幅度很小,通常在2.5个百分点以内。也就是说,把信号大小放大20%,对"模型是否表达了目标概念"这件事几乎没有影响——这再次印证了概念信息主要在方向里,大小并不控制概念。
困惑度的结果则截然不同。在高强度引导(γ=0.7)时,从β=1.0改为β=1.2,困惑度平均下降了约1.8倍。在最极端的情况下,γ=0.7时β=1.2的困惑度比β=1.0低了非常显著的幅度,而且在研究团队检验的所有70个实验单元中,β=1.2在γ=0.7时全都取得了最低困惑度——没有任何一个单元例外。
也就是说,当引导强度很高时,把信号大小稍微放大一点,就能大幅改善语言流畅度,而对目标概念的表达几乎没有任何损害。这个结论非常明确地支持了"大小是稳定性旋钮而非语义旋钮"的判断。
研究团队还特别检查了更大的模型(700亿参数的Llama-3.1-70B-Instruct):这个模型对高强度引导更敏感,在γ=0.7时困惑度急剧攀升,但β缩放对困惑度的改善效果也更加显著,β排序与小模型完全一致。
---
**七、固定强度引导家族的比较——规范保持不等于更稳定**
研究团队还专门比较了另外三种不精确控制每个词方向的引导方法:标准加法引导(CAA)、重归一化加法引导(CAA-r)和加法球面引导(AS)。这三种方法都只控制"平均"引导强度,每个词实际受到的方向影响不同。
CAA和CAA-r之间的对比结果相当平淡:两者的任务指标和困惑度曲线几乎完全重叠。这说明,在加法操作之后再做一步"把大小还原"的操作(归一化),并不能带来任何稳定性改善。归一化是否发生,在这里几乎不重要。
然而,CAA-r和AS的对比就有意思多了。两种方法都保持信号大小不变,但它们产生的每个词的方向效果分布完全不同:CAA-r的方向偏转量取决于每个词信号的原始大小和对齐程度,而AS则给每个词施加一个固定的角度偏转,不管它原来在哪。结果,当引导强度增加时,AS的困惑度比CAA-r高出很多,甚至高出两个数量级。
这个发现说明,"保持信号大小不变"并不是稳定性的充分条件,每个词实际经历的方向变化分布同样至关重要。两个都保持大小的方法可以因为方向分布不同而产生天壤之别的生成质量。
---
**八、球面弧是否具有现实意义——偏离弧路径的扰动实验**
球面引导(S)选择了一条特殊的旋转路径:在包含目标概念方向和原始残差方向的二维平面内沿球面弧旋转,这在数学上是最短路径。但最短路径是否也是最好的路径?
为了测试这一点,研究团队设计了一个扰动实验:保持信号大小和目标概念得分完全不变,但把残差方向从原来的球面弧路径扭转一个角度δ,偏向一个与概念方向和原始残差方向都垂直的随机方向。由于概念得分和大小都固定,任何因此产生的效果变化只能来自残差方向的偏离。
实验用了三种不同的扰动方向:随机方向、PCA主成分方向(捕捉残差空间中方差最大的方向),以及来自其他数据集的概念方向(比如用情感方向来扰动毒性引导的残差)。
结果显示,偏离球面弧后,困惑度升高了,MMLU准确率和任务指标下降了,而且效果随着偏离角度增大而加剧,方向偏转±0.2弧度时困惑度平均上升约22%。PCA方向的扰动效果最剧烈,随机方向最温和,跨数据集概念方向居中。这说明球面弧不只是几何上最短,也在经验上是对模型生成质量影响最小的路径,偏离它就会付出代价。
---
**九、全景对比——帕累托前沿告诉我们什么**
最终,研究团队把所有六种方法(除SN外的五种)放在一个统一的坐标系里比较,横轴是任务指标的改善量,纵轴是困惑度的倍增比,越靠右下角的方法越好(任务效果好,同时语言质量损失小)。这条"最优边界"在经济学中叫帕累托前沿。
跨越四个数据集的结果显示,CAA-m始终占据帕累托前沿的有利位置:在高引导强度下,它能达到和球面引导S类似的任务效果,但困惑度远低于S,有时低出几个数量级。S在中等引导强度下任务效果最好(严格控制每个词的方向确实有力),但在高强度时因为严格保持大小不变而付出了沉重的稳定性代价。CAA和CAA-r表现平庸,两者几乎没有区别。AS在高强度时困惑度急剧恶化,落在帕累托前沿之外。
这幅全景图印证了研究的核心结论:激活引导的效果由方向和大小两个独立维度共同决定,不能简化为一维的"加多少"或"是否保持大小"。
---
**研究的边界与未来**
这项研究也有几个明确的局限。所有实验都在每个模型75%深度的单一层进行,不同层的最优方向-大小权衡可能不同,多层引导的情况尚未探索。实验涵盖的概念类型相对有限(诚实、情感、毒性),对于更复杂的行为概念(比如"人格"、"世界观")是否有相同规律,尚不清楚。此外,所有引导方向都用同一种对比均差法(positive-negative mean difference)来提取,其他方向提取方式下的结论是否一致还需要验证。最后,β参数的扫描只覆盖了{0.9, 1.0, 1.1, 1.2}四个离散值,并没有给出针对具体任务自动选择最优β的规则。
---
归根结底,这项研究告诉我们一件看似简单却颇具启发性的事:调控AI大模型的行为,不是一个单一旋钮的问题,而是两个旋钮——一个管你想让它"说向哪"(方向),一个管它说话时的"状态稳不稳"(大小)。长期以来,研究者们把这两个旋钮混在一起转,搞不清楚到底是哪个起了作用,也无法解释为什么有时候效果好、有时候模型开始语无伦次。
现在我们知道了,概念信息主要由方向携带,这支持了球面引导的设计思路;但严格保持大小不变在高强度引导时反而会拖累稳定性,适度放大信号大小能在不损害概念控制的前提下大幅改善语言流畅度。这个发现对于任何需要精细控制AI语言模型行为的场景都有实际价值,无论是让模型更诚实、更温和,还是让它在特定领域表现更专注。
未来,研究人员在设计引导方法时,或许不应该只问"加多少"或"要不要归一化",而应该问:我希望这个信号的方向到达哪里?我希望它的大小是多少?把这两个问题分开来设计,才能更精准地掌控AI的"方向盘"。有兴趣深入了解全部技术细节的读者,可以通过arXiv:2606.06735查阅完整论文。
---
**Q&A**
Q1:激活引导技术在实际AI产品中有什么应用?
A:激活引导目前主要用于研究阶段,用于控制语言模型的诚实度、情绪倾向、有毒语言比例等行为,无需重新训练模型即可在推理时调整。未来可能用于商业AI助手的行为对齐,让模型在特定场景下更安全、更专注,但目前还不是普通消费者能直接操作的工具。
Q2:球面引导比传统加法引导好在哪里,为什么还有局限?
A:球面引导能精确控制每个词的概念方向而不影响其他词,语义控制更精准。但它严格保持信号大小不变,在高强度引导时会把有限的"表达空间"全部压给目标概念,导致语言流畅度急剧下降。研究发现,适度放大信号大小(如乘以1.2)能大幅缓解这一问题,同时不影响概念控制效果。
Q3:为什么不同AI模型对激活引导的稳定性差异这么大?
A:主要原因是模型架构不同。Gemma模型采用"后归一化"架构,导致不同词语的隐藏状态大小变异极大(变异系数可达80%以上),而Llama和Qwen模型通常在10%到15%之间。大小变异越大,保持大小不变的约束越难维持,引导时的稳定性问题也越突出。因此,针对不同架构的模型,最优的方向-大小权衡参数会有所不同。
好文章,需要你的鼓励
腾讯混元提出CPPO方法,通过位置权重和累积前缀预算两个机制改进AI强化学习训练,在多个Qwen3模型的数学推理任务上超越现有方法,最大提升达5.56分。
PaperMentor是多伦多大学等机构联合开发的AI论文写作导师,通过12个专业智能体和40余份专家技能文件,在Overleaf中为科研人员提供行内批注式的写作建议。
论文揭示AI安全测试的"审计缺口":模型外表安全但内部可能脆弱,并提出潜在脆弱性分数(LVS)量化内部风险。
这项研究提出ICMIL框架,让AI通过在合成数据上预训练,无需针对新任务重新训练即可完成多示例学习分类,在十二个基准上超越需要调参的监督方法。