微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

超越提示工程：通过"原子级目标控制"实现大语言模型的稳健行为操控

大语言模型控制稀疏自编码器安全对齐

超越提示工程：通过"原子级目标控制"实现大语言模型的稳健行为操控

作者：科技行者

2025-05-30 15:04

分享至：

这项研究提出了一种名为"控制目标原子"(STA)的新方法，用于精确控制大语言模型的行为。与传统提示工程相比，STA通过稀疏自编码器识别并操作模型内部的解耦知识组件，实现更稳健、灵活的行为控制。实验证明，STA在安全控制方面表现卓越，同时对模型一般能力影响微小。研究还发现控制引导方法在应对对抗性场景时比提示工程更为稳健，并成功应用于控制大型推理模型的思考长度。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 15:04 • 科技行者

近日，来自浙江大学、腾讯AI实验室和新加坡国立大学NUS-NCS联合实验室的研究团队发表了一项引人注目的研究成果。这篇名为《超越提示工程：通过控制目标原子实现大语言模型的稳健行为控制》的论文由王梦如、徐子文、毛圣宇、邓淑敏、涂兆鹏、陈华军和张宁宇共同完成，发表于2025年5月。有兴趣的读者可以通过arXiv:2505.20322v1 [cs.CL]查阅完整论文。

一、研究背景：控制大语言模型行为的两种方式

想象一下你有一只聪明但有时不太听话的宠物狗。你有两种方式让它按你的意愿行动：一种是用语言指令("坐下"、"握手")，另一种是直接轻推它的身体引导它完成动作。在大语言模型(LLM)的世界里，这两种方法分别对应"提示工程"和"控制引导"(steering)。

传统上，我们主要通过提示工程来控制大语言模型的行为。这就像用语言指令告诉模型该做什么，比如在输入中加入"你应该是一个负责任的AI系统，不应该生成有害或误导性内容！"这种方法虽然简单直接，但存在两个明显的问题：一是需要专家精心设计提示语，二是对输入的微小变化非常敏感。就像一个调皮的孩子，如果你稍微改变指令的措辞，他可能就会找到不遵守的借口。

与此相对，"控制引导"(steering)则是一种新兴的控制模型行为的方法。它不是通过输入指令，而是直接干预模型内部的计算过程。这就像不是用语言告诉你的宠物狗该做什么，而是轻轻引导它的身体做出正确的动作。这种方法更加灵活、可靠，而且更容易解释为什么有效。

然而，传统的控制引导方法也面临一个重要挑战：大语言模型内部的知识表示通常是纠缠在一起的。这就像试图只移动一个积木，却发现它与其他积木粘在了一起，导致你的干预产生意想不到的副作用。

二、新方法：识别和控制目标原子

为了解决这个问题，研究团队提出了一种名为"控制目标原子"(Steering Target Atoms, STA)的新方法。这个名字听起来可能有点复杂，但其实原理很直观。

想象一下你的房间里堆满了各种杂物，全都混在一起。要想找到并只拿出一本特定的书是很困难的。但如果你先把所有东西分类整理到不同的抽屉里，那么找到并取出那本书就容易多了。STA方法就是这样工作的。

首先，研究者们使用了一种叫做"稀疏自编码器"(Sparse Autoencoder, SAE)的技术。这种技术可以将大语言模型中纠缠在一起的知识表示"解开"，分解成更高维度、更稀疏的特征。简单来说，就是把混在一起的知识分门别类地整理好，放在更多的"抽屉"里，使得每个"抽屉"里主要只包含一种类型的知识。

接下来，研究者们开发了一种方法来识别哪些"抽屉"(也就是论文中所说的"目标原子")与我们想要控制的行为最相关。他们通过分析这些原子在正面示例和负面示例中的激活幅度和频率来确定。这就像分析哪些抽屉在我们需要做特定任务时经常被打开，哪些则很少使用。

最后，研究者们只对这些目标原子进行干预，而不触碰其他部分。这样一来，他们就能精确地控制模型的特定行为，同时最小化意外的副作用。

三、实验结果：精确控制，副作用更少

研究团队在多种大语言模型上进行了广泛的实验，包括Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B，以验证STA方法的有效性。

首先，他们在安全性控制方面进行了测试。使用SafeEdit和RealToxicPrompts两个数据集，研究者们评估了STA方法在防止模型生成有害内容方面的效果。结果显示，STA方法在所有测试的模型上都取得了最佳的平均脱毒性能。例如，在Gemma-2-9B-pt模型上，防御成功率从59.97%提高到了83.45%；在Gemma-2-9B-it模型上，从83.89%提高到了97.56%；在Llama-3.1-8B模型上，从59.08%提高到了72.23%。

更令人惊喜的是，STA方法在提高安全性的同时，对模型的一般能力几乎没有明显的负面影响。在Gemma-2-9B-pt模型上，一般性能仅从44.73%略微下降到43.90%；在Gemma-2-9B-it模型上，从51.04%下降到49.12%。这表明STA方法能够实现精确的行为控制，而不会对模型的其他能力造成太大损害。

研究者们还发现，在模型的中间层应用STA方法效果最好。具体来说，在Gemma-2-9B-pt模型的24-25层进行干预时，既能获得最佳的安全控制效果，又能最小化对一般能力的影响。

另一个有趣的发现是，即使只使用少量数据样本，STA方法也能表现出色。实验表明，使用仅仅4个数据样本构建的控制向量，就能显著提高模型的脱毒能力。这表明STA方法具有很高的数据效率。

四、控制方法的比较：提示工程 vs. 控制引导

研究团队进一步对比了提示工程和控制引导两种方法的效果。为了确保公平比较，他们使用STA方法将提示语转换为控制向量，然后评估两种方法的性能。

结果显示，控制引导方法(包括STA和其他控制引导方法)在稳健性和灵活性方面都优于提示工程方法。这可以通过两个主要发现来说明：

首先，在稳健性方面，控制引导方法对输入的微小变化不那么敏感。当面对各种"越狱攻击"(jailbreak attacks，即试图诱导模型产生有害内容的特殊输入)时，控制引导方法能够更一致地保持安全防御。研究者们分析发现，这是因为控制引导方法能够显著增强模型对有害查询的注意力分数，从而提高其检测和拒绝生成有害内容的能力。

其次，在灵活性方面，控制引导方法提供了更广泛的控制范围。例如，在Gemma-2-9B-it模型上，通过调整提示示例的数量，防御能力的变化范围仅为[-11.5%, 13.03%]。而使用控制引导方法，通过调整控制系数在[-10, 10]范围内，防御能力的变化范围可达[-53.77%, 29.63%]，远远超过提示工程方法的控制范围。

这两种方法之间的差异可以类比为两种教孩子骑自行车的方法：提示工程就像用语言指导("向前蹬，保持平衡")，而控制引导则像是家长扶着自行车后座直接引导孩子的动作。后者在面对复杂情况时往往更加可靠和有效。

五、应用于推理控制：让模型思考得更高效

除了安全性控制，研究团队还探索了STA方法在控制大型推理模型思考长度方面的应用。这个研究方向非常有意义，因为最新的大型推理模型虽然推理能力强大，但有时会在简单问题上过度思考(overthinking)，浪费计算资源并延长响应时间。

研究者们首先构建了一个包含长思考和短思考两种答案的示例，然后使用CAA方法(一种控制引导技术)将这种思考模式转换为控制向量。接着，他们将这个向量应用于DeepSeek-R1-Distill-Qwen-7B模型，在GSM8K基准测试中控制推理的长度。

实验结果表明，控制引导策略在调整推理长度方面表现出色，既可以延长也可以缩短推理，同时保持准确性。例如，对于一个简单的数学问题"一件衣服需要2卷蓝色纤维和一半数量的白色纤维。总共需要多少卷纤维？"，原始模型可能会生成冗长的300个标记的解决方案，而通过控制引导，可以将其减少到只有87个标记的简洁解答，同时保持答案正确。

这一发现对于提高大型语言模型的效率具有重要意义，可以帮助解决过度思考问题，并引导AI的决策逻辑更加高效。

六、研究的局限性与未来方向

尽管STA方法表现出色，研究团队也坦诚地指出了一些局限性：

首先，由于公开可用的稀疏自编码器(SAE)有限，实验主要在Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B模型上进行。未来研究可以扩展到更广泛的大语言模型，包括更大、更多样化的架构。

其次，虽然STA方法在安全性控制方面表现出色，但在个性化领域的效果有限。研究者们在附录中提到，STA在控制模型的"短视奖励"(myopic reward)个性特征方面虽然优于提示工程方法，但与其他控制引导方法相比并无明显优势。这表明不同类型的行为控制可能需要不同的方法。

最后，研究团队提到，虽然STA方法能够实现精确的行为控制，但如何更好地理解和解释控制过程中的因果关系仍是一个值得深入研究的问题。

七、总结与启示

这项研究为控制大语言模型的行为提供了一种新的、更精确的方法。通过识别和操作"目标原子"，STA方法能够在最小化副作用的同时实现稳健的行为控制。

相比传统的提示工程方法，控制引导方法(尤其是STA)展现出更好的稳健性和灵活性，能够更好地应对各种复杂的输入情况。这对于确保大语言模型的安全性和可靠性具有重要意义。

更广泛地看，这项研究揭示了大语言模型内部知识表示的复杂性，以及如何通过解耦这些表示来实现更精确的控制。这不仅有助于提高模型的安全性，还可能为未来的模型解释性和可控性研究提供新的思路。

对于普通用户来说，这项研究的成果意味着未来的AI系统可能会更加可靠和安全，能够更好地遵循人类的指令，同时避免产生有害内容。对于AI开发者来说，STA方法提供了一种新的工具，可以在不需要重新训练模型的情况下，在推理阶段精确控制模型的行为。

随着大语言模型继续发展和普及，像STA这样的精确控制方法将变得越来越重要，有助于确保这些强大的AI系统能够安全、可靠地服务于人类需求。