微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 能力差距决定破解能力:大语言模型红队测试的能力缩放规律

能力差距决定破解能力:大语言模型红队测试的能力缩放规律

2025-06-01 16:11
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 16:11 科技行者

在人工智能发展的当前阶段,大型语言模型(LLM)的安全性成为了一个广受关注的话题。来自于德国蒂宾根的ELLIS研究所、马克斯·普朗克智能系统研究所和蒂宾根AI中心的Alexander Panfilov,以及来自思科系统公司的Paul Kassianik,瑞士洛桑联邦理工学院的Maksym Andriushchenko,和蒂宾根AI中心的Jonas Geiping共同完成的这项研究于2025年5月发表在arXiv上,文章题为《Capability-Based Scaling Laws for LLM Red-Teaming》(基于能力的LLM红队测试缩放规律)。

想象一下这样的场景:你有一个保险箱,你雇了一位安全专家(红队)来测试它的安全性。随着保险箱(语言模型)变得越来越先进,如果安全专家的技能没有相应提高,他们还能找到保险箱的漏洞吗?这正是研究团队试图回答的核心问题。

随着大型语言模型(LLM)变得越来越强大,确保它们的安全性变得尤为重要。目前,研究人员和公司通常雇佣人类"红队"来测试这些模型,尝试诱导模型产生有害回应。这种做法被称为"越狱攻击"(jailbreaking)。但随着模型能力的提升,人类测试者可能会面临一个根本性的问题:当模型变得比测试者更聪明时,人类还能有效地测试它们吗?

研究团队提出了一个创新的视角:通过研究攻击者和目标模型之间的"能力差距"来预测越狱攻击的成功率。他们进行了一项大规模实验,评估了超过500个攻击者-目标模型组合,覆盖了包括Llama2、Llama3、Mistral、Vicuna、Qwen2.5和Gemini在内的多个模型家族。

就像一场智力角力,如果攻击者(红队测试者)比防守者(语言模型)更聪明,那么攻击就更可能成功。但是,一旦防守者的能力超过攻击者,攻击成功率就会迅速下降。研究人员发现,这种关系可以被精确地建模为一个S形曲线(sigmoid函数),并且可以根据攻击者和目标之间的能力差距来预测攻击成功率。

让我们深入了解这项研究的具体发现和它对AI安全的重要启示。

一、研究背景:红队测试的演变挑战

想象你正在训练一个高级保安系统。随着系统变得越来越智能,你需要更聪明的测试人员来发现漏洞。但如果系统最终变得比任何测试人员都聪明,你如何确保它仍然安全?这就是大型语言模型(LLM)安全测试面临的根本挑战。

目前的语言模型安全评估主要依靠两种方式:一种是人类"红队",即安全专家尝试通过精心设计的提示词让模型生成有害内容;另一种是自动化的测试方法,使用其他AI模型来执行类似任务。但随着模型能力的提升,这种测试方法可能会面临一个根本性的困境:当被测试的模型比测试者更聪明时,测试还能有效吗?

研究人员将这种情况描述为从"强对弱"转变为"弱对强"的问题。传统上,测试者(人类或AI)比被测试的模型更强,他们可以找到模型的弱点。但未来,如果模型变得比测试者更强,这种传统测试方法可能会失效。

正如研究人员所指出的,有些专家如Kokotajlo等人预测未来的AI系统可能变得"无法越狱",虽然这种预测缺乏实证支持,但两个趋势确实指向这种可能性:一方面,安全机制正变得更强(包括系统级和模型级);另一方面,模型本身变得更聪明,更善于遵循安全指南和理解用户意图。

这项研究试图回答的核心问题是:当目标模型的能力超过红队测试者时,人类式的红队测试在什么能力差距下可能变得无效?

二、研究方法:模拟人类红队测试的创新实验设计

为了探索这个问题,研究团队设计了一个巧妙的实验框架。想象一下,如果我们可以精确控制红队测试者和目标模型的能力水平,那么我们就可以系统地研究能力差距如何影响测试效果。但在现实中,我们无法随意调整人类的能力。研究人员的解决方案是:使用不同能力水平的语言模型来模拟不同能力的人类红队测试者。

具体来说,研究团队使用了两种模拟人类红队测试策略的AI攻击方法:PAIR(由Chao等人在2025年提出)和Crescendo(由Russinovich等人在2024年提出)。这些方法模拟了人类红队测试者使用的策略,如角色扮演、文字替换、情感诉求等。

研究人员构建了一个包含三个关键角色的实验框架:

首先是"目标模型"(Target),这是需要被测试安全性的语言模型。研究团队选择了27个不同的模型,包括Llama2、Llama3、Vicuna、Mistral、Qwen2.5以及Gemini和o系列(如OpenAI的模型)等,涵盖了不同家族、不同参数规模和不同能力水平的模型。

其次是"攻击者模型"(Attacker),这是模拟人类红队测试者的语言模型。为了确保公平比较,研究人员对所有作为攻击者的开源模型进行了"解锁"处理,移除了安全防护,同时保留它们的一般能力。这是因为有安全防护的模型通常会拒绝参与红队测试任务。

最后是"评判模型"(Judge),负责评估目标模型的响应是否符合有害查询的要求。研究使用了HarmBench评判标准,这是一个已知与人类判断高度一致的标准。

通过这个设计,研究团队评估了超过500个攻击者-目标组合,系统地探索了不同能力水平下的攻击成功率。他们使用MMLU-Pro基准测试(一个综合评估语言模型能力的标准)来量化模型的一般能力,从而计算攻击者和目标之间的"能力差距"。

这就像是组织了一场大规模的智力竞赛,让不同能力水平的参赛者(攻击者模型)挑战不同难度的题目(目标模型),然后观察他们的成功率如何随能力差距变化。

三、核心发现:能力差距决定攻击成功率

研究团队的实验揭示了三个强有力的发现,这些发现可以帮助我们理解语言模型安全性测试的根本规律。

首先,更强大的模型是更好的攻击者。想象一下,如果你想闯入一个保安系统,你自己的能力越强,成功的可能性就越大。研究发现,攻击者的平均成功率与其一般能力(用MMLU-Pro分数衡量)几乎呈线性关系,相关系数超过0.84。这意味着,随着开源模型能力的提升,它们作为攻击者的威胁也会相应增加。

其次,当目标的能力超过攻击者时,攻击成功率会急剧下降。研究人员观察到一个有趣的现象:当目标模型的能力接近最强攻击者的能力水平(MMLU-Pro分数约为0.62)时,目标的漏洞开始逐渐减少;一旦目标超过攻击者,漏洞急剧减少,呈现出一个S形曲线(R?= 0.80)。换句话说,越狱成功率取决于能力差距,而不是攻击者的绝对实力。攻击者只有在能力超过或匹配目标时才高度有效,一旦目标超过攻击者,攻击者就会失去优势。

第三,与STEM知识相比,社会科学能力是更强的攻击成功率预测因素。研究团队分析了解锁后的攻击者模型,发现攻击成功率与MMLU-Pro的社会科学部分(如心理学、经济学、法律等)的相关性最强,而与STEM部分(如数学、物理、工程等)的相关性较弱。这表明,有效的攻击者可能依赖于心理洞察力和说服能力,类似于人类的社会工程学技术。

这些发现汇总成一个"基于能力的越狱缩放规律":对于固定的目标模型,攻击成功率可以被准确地预测为攻击者-目标能力差距的函数。这个关系呈S形曲线,可以用logit空间中的线性模型精确描述。

四、越狱缩放规律:预测未来攻击成功率

基于上述发现,研究团队构建了一个预测模型,可以根据攻击者和目标之间的能力差距预测攻击成功率。这就像是一个天气预报系统,但它预测的是安全漏洞,而不是雨水。

研究人员对每个目标模型分别建立了预测模型,并发现对于Qwen2.5、Mistral和Vicuna模型,攻击成功率都遵循一致的S形曲线;而Llama3模型的曲线偏右,反映了更强的安全措施。早期的三个Llama模型在"强对弱"场景中表现异常稳健,表明MMLU-Pro可能不是衡量它们防御能力的良好指标。

假设同一模型家族和同一代的模型具有类似的安全调整,研究人员还展示了按家族聚合的缩放规律。Qwen2.5家族的曲线对新的前沿目标(最先进的闭源推理模型)泛化得最好。这些测试点始终具有负差距,因为它们的能力超过了分析中的每个攻击者。

基于这些模型,研究人员预测了固定攻击者(如人类)对未来模型的攻击成功率。由于目前尚不清楚未来模型是否会遵循像Llama3那样更安全的轨迹,还是像Qwen2.5那样更宽松的轨迹,他们使用了所有考虑的目标模型(不包括Llama2和Llama3-8b)的中值缩放规律来进行预测。

这个预测表明,随着模型能力的提升,人类红队测试的成功率将会下降。如果未来模型采用像早期Llama版本那样强的安全措施,这种下降可能会发生得更早。

五、深入分析:谁是最佳攻击者?评判重要吗?

除了主要发现外,研究团队还进行了一系列分析,深入探讨了影响攻击成功率的因素。

首先,他们分析了哪些能力使模型成为良好的攻击者。研究人员计算了平均攻击者成功率与各种基准测试分数之间的相关性,发现攻击成功率与MMLU-Pro的社会科学部分相关性最强,而与STEM部分相关性较弱。这表明,有效的攻击者可能依赖于心理洞察力和说服能力,类似于人类在社会工程学中使用的技术。

这一发现指出了当前安全讨论中的一个盲点:当前的安全讨论过度关注模型的危险技术能力,而对模型的说服力关注不足。随着模型能力的提升,它们的说服力也会增强,但用于衡量和限制这种特性的系统基准测试却很少。研究人员建议,评估和跟踪模型的说服和心理能力应成为优先事项,既可以预测攻击者的实力,也可以保护用户和基于LLM的系统免受操纵风险。

其次,研究团队调查了评判模型的选择对攻击成功率的影响。他们确认,更强大的模型确实是更好的评判者:评判者的MMLU-Pro得分与其评分与中性HarmBench评判的一致性呈正相关。然而,有趣的是,评判者并不影响攻击成功率,它只影响选择。ASR@25(在所有生成的提示词中的最大值)在不同评判者之间保持稳定,而ASR@1(仅使用排名最高的提示词)随评判者能力的提高而增加,因为更强的评判者能够选择更好的输入。

这一发现对越狱研究社区很有价值,因为它表明昂贵的闭源评判者在攻击循环内是不必要的,选择可以在事后完成。

最后,研究人员还分析了不同攻击方法如何影响缩放规律。他们发现,尽管斜率几乎保持不变,但更强的攻击会使曲线向左移动,增加可行越狱的能力差距。总体而言,Crescendo在相同查询预算下表现不如PAIR,这与最近的研究一致。研究人员将Crescendo的原始成功归因于它使用了高能力的GPT-4攻击者。

六、研究局限性与未来展望

像所有研究一样,这项工作也有其局限性。研究主要依赖PAIR和Crescendo攻击,这些可能无法穷尽人类红队测试者可能采用的所有策略。人类作为终身学习者,能够将新发现的漏洞从一种有害行为转移到另一种有害行为。虽然有研究如AutoDan-Turbo探索了这个方向,但最近的研究表明,PAIR类方法(如TAP)仍然是最有效的。

此外,一些研究讨论了训练专门的模型来学习越狱其他模型。如果较弱的模型可以被训练成更强的攻击者,研究团队的能力差距框架可能无法捕捉这种跳跃,因为它使用MMLU-Pro作为攻击能力的固定代理。然而,当前训练的攻击者模型通常难以泛化到新的目标,这突显了需要更好地理解从白盒和灰盒设置到新的黑盒场景的攻击转移的缩放规律。

这项研究对不同利益相关者有重要启示。对于模型提供者来说:安全调整是有效的,精心防护的模型即使面对远强于它们的攻击者也保持稳健;危险能力评估应超越"硬科学",检查模型的说服和心理技能;在发布前应对模型的攻击能力进行基准测试;更强大的开源模型的发布需要重新评估现有部署系统的稳健性。

对于越狱研究社区来说:攻击者的强度驱动了攻击成功率,昂贵的评判者的好处有限;随着能力差距的扩大,人工人类红队测试将变得更加困难,这使得自动化红队测试成为未来评估的关键工具。

七、结论:能力差距与AI安全的未来

归根结底,这项研究揭示了一个基本的缩放规律:越狱成功受攻击者和目标之间的能力差距支配。在500多个攻击者-目标对的实验中,研究人员证明了更强的模型既是更好的攻击者,也是更坚固的目标,并且他们推导出了一个可以从这种差距预测攻击成功率的缩放规律。

这些结果为推理基于LLM应用程序在面对不断进步的攻击者时可能保持安全的时间提供了实用框架。它们强调了模型提供者需要进一步投资于提高稳健性、可扩展的自动化红队测试和对模型说服和操纵能力的系统基准测试。

特别是,研究发现社会科学相关技能比STEM知识更强烈地预测攻击者成功率,这突显了需要测量和控制模型的说服和操纵能力。这对于预测攻击者的强度和保护用户免受操纵风险都至关重要。

这项研究不仅仅是学术探索,它对AI安全的实际应用具有深远影响。随着语言模型继续变得更加强大,理解这些能力缩放规律将有助于确保它们的安全部署和使用。正如研究人员所指出的,越狱成功取决于能力差距,而不是攻击者的绝对实力。这意味着,随着模型能力的提升,传统的人类红队测试可能会变得不那么有效,而自动化的AI红队测试将变得更加重要。

最终,这项研究为我们提供了一个窗口,让我们了解AI安全的未来可能如何发展。随着模型变得越来越强大,确保它们的安全性将需要新的方法和技术。理解能力缩放规律是朝着这个目标迈出的重要一步。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-