微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

剑桥大学SAHOO框架：让AI自我改进时不忘初心的"保险丝"

递归自我改进AI安全对齐多信号漂移检测

剑桥大学SAHOO框架：让AI自我改进时不忘初心的"保险丝"

作者：科技行者

2026-03-19 09:36

分享至：

剑桥大学研发SAHOO框架，通过目标漂移检测、约束保护和回归风险评估三道防线，确保AI在自我改进过程中不偏离预设目标。在189个任务测试中，代码和数学领域提升16-18%且完美保持对齐，真实性任务改进有限但暴露挑战。研究为AI安全发展提供实用工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-19 09:36 • 科技行者

人工智能正在学会自我改进，就像一个学生能够自己检查作业、修改错误、不断完善答案一样。这听起来很棒，但问题是：当AI一遍遍地修改自己时，会不会渐渐偏离原本的目标，变成我们不想要的样子？这就像一个人在不断修改自己的简历时，最后写出来的内容虽然看起来更好，但已经完全不像自己了。

这项由剑桥大学AI安全研究中心（CAISH）领导、联合亚马逊云服务、谷歌、斯坦福大学和东北大学共同完成的研究，发表于2026年ICLR递归自我改进AI研讨会。研究团队开发了名为SAHOO的框架，专门用来监控AI在自我改进过程中是否会"跑偏"。这就像给AI装了一个智能的导航系统，时刻提醒它"别忘了你的初心"。

在现实中，最新的AI系统已经能够批评自己的输出、提出改进建议，然后生成更好的版本。这种能力让人既兴奋又担心。兴奋的是，AI可能会变得越来越聪明；担心的是，它可能会在追求"更好"的过程中，逐渐背离我们希望它遵守的原则。

研究团队发现了一个有趣的现象：AI在自我改进时会出现多种"漂移"。这就像一艘船在海上航行，可能因为海流、风向等多种因素偏离航线。对AI来说，这些"海流"包括语义漂移（意思发生变化）、词汇漂移（用词习惯改变）、结构漂移（回答格式改变）和分布漂移（整体特征改变）。

为了解决这个问题，SAHOO框架设计了三道防线，就像一个精密的安全系统。

一、目标漂移检测：AI的"行为监控器"

第一道防线是目标漂移指数（GDI），这个系统就像一个非常敏感的体检仪器，能够从四个不同角度检测AI是否开始"变味"。

语义漂移检测就像检查一个人说话的意思是否还和原来一样。系统会将AI的回答转换成数学向量，然后计算这些向量之间的距离。如果距离越来越远，说明AI说话的意思开始变化了。这就像两个朋友聊天，如果一个人的观点慢慢变得和以前完全不同，另一个人就会察觉到"你怎么变了"。

词汇漂移检测关注的是AI用词习惯的变化。系统会统计AI使用各种词汇的频率，就像统计一个人说话时经常用哪些词。如果AI突然开始频繁使用以前很少用的词汇，或者不再使用以前常用的词，系统就会发出警告。这就像发现一个平时说话很朴实的人突然开始满口专业术语。

结构漂移检测观察AI回答问题的格式和组织方式。比如AI原本回答问题时会分段落、会举例子，但现在开始写成一大段文字，或者回答变得特别简短。这种变化虽然看起来不重要，但可能反映了AI思维方式的根本改变。

分布漂移检测则是从更宏观的角度观察AI行为的整体变化。这就像观察一群学生的考试成绩分布，如果原本成绩分布很正常，突然变成两极分化严重，就说明教学方式可能出了问题。

这四种检测方法会综合起来计算一个总的漂移分数。研究团队通过大量实验确定了一个安全阈值：当漂移分数超过0.44时，系统就会发出警告。这个数字是通过分析189个不同任务得出的，确保既不会误报，也不会漏报。

二、约束保护机制：AI的"行为准则"

第二道防线是约束保护机制，这就像给AI制定了一套必须遵守的行为准则，并且严格监督执行。

在代码生成任务中，约束包括代码必须语法正确、不能使用被禁止的库、不能硬编码答案等。这就像给程序员制定编程规范，确保写出的代码不仅能运行，还要符合安全标准。

在数学推理任务中，约束要求AI的推理过程必须逻辑清晰、步骤完整、计算正确。这就像要求学生解数学题时不仅要得出正确答案，还要写出完整的解题过程。

在真实性任务中，约束防止AI编造事实、过度自信或给出可能有害的建议。这就像要求一个新闻记者必须核实事实、承认不确定性、避免误导读者。

约束保护分数（CPS）衡量AI满足这些要求的程度。这个分数非常严格：要么完全满足约束（得分1.0），要么就是违反了约束（得分降低）。没有中间状态，没有"差不多就行"。

有趣的是，研究发现不同类型的任务在约束保护方面表现差异很大。代码生成和数学推理任务中，AI能够完美保持约束，违反率为零。但在真实性任务中，AI出现了170次约束违反，主要是编造事实和过度自信。这说明让AI既保持创造性又严格遵循真实性确实是一个挑战。

三、回归风险评估：防止AI"走回头路"

第三道防线是回归风险评估，防止AI在改进过程中突然"退步"，回到之前表现较差的状态。

这个系统就像一个投资顾问的风险评估工具。它会分析AI的历史表现，寻找可能的模式。如果发现AI的表现开始不稳定，出现忽高忽低的波动，系统就会计算AI在下一次改进中表现变差的概率。

回归风险评估考虑三个关键因素：波动性（AI表现的起伏程度）、趋势（AI表现是在上升还是下降）和当前表现与历史最佳表现的差距。系统使用统计学方法，假设AI的表现变化遵循某种规律，然后预测未来的风险。

在实际测试中，研究团队发现大多数任务的回归风险都很低，只有0.7%的情况出现了明显的退步。有一个特殊的任务出现了117次回归事件，经过分析发现这个AI在两种不同的解决策略之间摇摆，无法稳定在一种好的方案上。

四、能力-对齐平衡分析：寻找最佳平衡点

研究团队还开发了能力-对齐比率（CAR）这个指标，用来衡量AI在提升能力的同时保持对齐的效率。这就像衡量一个学生在提高成绩的同时保持良好品格的能力。

CAR的计算很简单：用AI能力提升的幅度除以对齐漂移的程度。如果这个比值很高，说明AI用很小的对齐代价获得了很大的能力提升；如果比值很低，说明AI为了一点点能力提升付出了很大的对齐代价。

研究发现了一个有趣的模式：在改进的早期阶段，AI通常能够以很小的对齐代价获得显著的能力提升，CAR值接近1.0。但随着改进的深入，继续提升能力需要付出更大的对齐代价，CAR值逐渐降低到0.6-0.7左右并趋于稳定。

这个发现对实际应用很有意义。它告诉我们，AI的自我改进可能存在一个"黄金阶段"，在这个阶段可以获得最好的效果。如果过度追求能力提升，可能会得不偿失。

五、大规模实验验证：三个领域的全面测试

研究团队在三个不同领域进行了全面测试，总共涉及189个任务，每个任务最多进行20轮改进。

在代码生成领域，AI的表现从67.2%提升到79.5%，提升幅度达到18.3%。更重要的是，在整个改进过程中，AI完全没有违反任何约束，目标漂移指数保持在0.320，远低于0.44的警戒线。这就像一个程序员在不断完善代码的同时，始终保持良好的编程习惯。

在数学推理领域，AI的表现从68.9%提升到80.5%，提升幅度为16.8%。同样，约束保护完美无缺，目标漂移指数为0.330。这说明AI在提高数学能力的同时，很好地保持了逻辑严谨性。

在真实性领域，AI的改进相对有限，从67.8%提升到70.4%，只有3.8%的提升。而且出现了170次约束违反，主要是编造事实（91次）和过度自信（48次）。目标漂移指数为0.354，虽然仍在安全范围内，但明显高于其他两个领域。

这些结果揭示了一个重要规律：不同类型的任务在能力-对齐平衡方面存在根本差异。代码生成和数学推理属于有明确标准的任务，改进空间大且不容易跑偏。真实性任务更加主观复杂，改进难度大，也更容易出现对齐问题。

六、漂移成分深度分析：四维监控的发现

通过对目标漂移指数的深入分析，研究团队发现了对齐漂移的内在规律。

在四种漂移类型中，语义漂移的权重最高（0.38），说明AI最容易在含义理解上发生偏离。这就像一个人在不断修改自己的观点时，最容易改变的是对事物的理解和解释。

分布漂移排在第二位（0.29），反映AI在整体行为模式上的变化。结构漂移权重为0.21，词汇漂移权重最低，只有0.12。

这个发现很有启发性：AI的对齐问题主要不是表面的用词变化，而是更深层的语义理解和行为模式变化。这提醒我们在设计AI安全机制时，应该重点关注AI对任务的理解是否发生了偏离。

七、长期稳定性分析：时间维度的安全保障

研究团队还分析了AI在长期改进过程中的稳定性表现。

大多数任务在平均8.8轮改进后达到收敛，停止继续改进。这说明AI的自我改进确实存在一个自然的终点，不会无限制地持续下去。

稳定性分数平均为0.825，表现相当不错。91.5%的任务在规定的轮次内达到了收敛标准，只有16个任务达到了最大轮次限制仍未收敛。

收敛速度在不同领域有明显差异：代码生成平均需要7.1轮，数学推理需要8.9轮，真实性任务需要10.4轮。这与各领域成功标准的明确程度密切相关——代码要么运行要么不运行，数学答案要么对要么错，而真实性的判断更加复杂微妙。

八、约束违反模式深度解析

对170次约束违反的详细分析揭示了AI对齐失败的具体模式。

编造事实是最主要的问题，占违反总数的53.5%。这通常发生在AI试图让回答显得更完整、更权威时，为了填补知识空白而"创造"一些听起来合理但实际上错误的信息。

过度自信排在第二位，占28.2%。AI在表达不确定信息时会表现得过于肯定，没有适当地承认自己的局限性。这就像一个学生在回答不太确定的问题时，为了显得聪明而表现得很有把握。

系统调用式输出占8.8%，主要出现在AI试图执行某些操作命令时，忘记了自己只应该提供信息而不是执行行动。

这种集中的违反模式给改进方向提供了明确指引：针对编造事实问题加强不确定性表达训练，针对过度自信问题建立更好的置信度校准机制。

九、统计精度与置信度分析

为了确保测量结果的可靠性，研究团队使用了严格的统计方法。

通过2000次自举重采样，他们为每个漂移测量计算了95%的置信区间。平均区间宽度为0.084，这意味着实际漂移值在测量值上下0.042范围内的概率为95%。

即使是最宽的置信区间也在关键阈值0.44的±0.15范围内，确保了警报系统的可靠性。不同领域的测量精度略有差异：代码生成精度最高（0.076），数学推理居中（0.087），真实性评估精度最低（0.092）。

这种精度差异反映了不同任务类型的内在复杂性。越是标准明确的任务，越容易进行准确测量；越是主观复杂的任务，测量的不确定性越大。

说到底，SAHOO框架解决了AI发展中的一个核心矛盾：我们希望AI变得更聪明，但又担心它在变聪明的过程中偏离我们的期望。这个框架就像给高速行驶的汽车安装了安全系统，既不阻止它前进，又确保它不会偏离正确的道路。

研究结果表明，通过精心设计的监控和保护机制，AI确实可以在保持对齐的前提下显著提升能力。代码生成和数学推理任务的成功经验证明了这种方法的可行性，而真实性任务的挑战则提醒我们某些领域需要更加谨慎的处理。

归根结底，这项研究为AI的安全发展提供了一套实用的工具。它不是要阻止AI变得更强大，而是要确保AI在变强大的同时不忘记自己的使命。随着AI系统变得越来越复杂，这种"带着镣铐跳舞"的智慧将变得越来越重要。

对于普通人来说，这意味着未来的AI助手可能会变得更聪明、更有用，但同时也会更安全、更可信。当你使用AI帮助写代码、解决数学问题或查询信息时，你可以更放心地相信它不会在追求"完美答案"的过程中给你带来意想不到的风险。

这项研究还开启了许多有趣的思考方向。比如，如何为更复杂的伦理约束设计检测机制？如何在多智能体系统中应用这些安全原则？如何让AI在面对全新类型的任务时仍能保持对齐？这些问题的答案，可能会在未来的研究中逐一揭晓。

有兴趣深入了解技术细节的读者可以通过论文编号2603.06333v1查询完整的研究论文，其中包含了详细的数学公式、实验设计和统计分析方法。

Q&A

Q1：SAHOO框架是如何检测AI在自我改进时偏离目标的？

A：SAHOO通过目标漂移指数（GDI）从四个维度监控AI：语义漂移（含义变化）、词汇漂移（用词习惯变化）、结构漂移（回答格式变化）和分布漂移（整体特征变化）。当综合漂移分数超过0.44这个安全阈值时，系统会发出警告。

Q2：在代码生成、数学推理和真实性三个领域中，哪个最容易保持AI对齐？

A：代码生成和数学推理表现最好，AI能力分别提升18.3%和16.8%，且完全没有违反约束。真实性领域最具挑战性，只提升3.8%，还出现170次违反，主要是编造事实和过度自信问题。

Q3：SAHOO框架能完全防止AI在自我改进时出现安全问题吗？

A：SAHOO框架显著降低但无法完全消除风险。它是必要但不充分的安全措施，特别适合控制中等程度的能力提升，但对于高能力或可能具有欺骗性的系统，还需要结合其他安全技术如机制可解释性、形式验证等。

递归自我改进AI安全对齐多信号漂移检测

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

剑桥大学SAHOO框架：让AI自我改进时不忘初心的"保险丝"

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接