微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI安全测试遇上算力瓶颈：宾夕法尼亚州立大学团队如何让"红队攻击"提速7倍

大语言模型安全红队测试优化加速算法

当AI安全测试遇上算力瓶颈：宾夕法尼亚州立大学团队如何让"红队攻击"提速7倍

作者：科技行者

2026-05-08 11:05

分享至：

这篇来自宾夕法尼亚州立大学的研究提出了FlashRT框架，旨在解决对长上下文大语言模型进行优化型安全测试时面临的计算效率和内存瓶颈问题。该工作通过"选择性重计算"降低前向传播的计算开销，通过"上下文子采样梯度近似"降低反向传播的内存占用，在保持或提升攻击成功率的同时，实现了最高7倍的速度提升和最多4倍的内存节省，并在提示注入、知识污染、代码生成和AI代理等多个真实场景中得到验证，论文编号为arXiv:2604.28157。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-08 11:05 • 科技行者

这项由宾夕法尼亚州立大学计算机科学与工程学院团队完成的研究，以预印本形式发布于2026年4月30日，论文编号为arXiv:2604.28157，感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

**一场关于AI安全测试的困境**

现在的AI助手越来越厉害了。你可以给它一份几万字的文件，它帮你总结要点；你可以让它从几百个数据库条目里找答案；你甚至可以让它扮演一个贴身秘书，帮你处理复杂的多步骤任务。Gemini、GPT-5、Qwen这些大模型，正是凭借着处理超长内容的能力，成为了无数应用的核心引擎。

然而，这种能力也带来了新的安全隐患。攻击者可以把一段"毒药"藏在一篇几万字的报告里——也许是一句悄悄插入的指令，让AI忽视原本的任务，转而执行恶意命令；也许是一段伪造的知识片段，让AI相信某个错误的答案是正确的。这两类攻击分别有个专业名字，叫做"提示注入攻击"和"知识污染攻击"。

要了解AI到底有多脆弱，安全研究人员就需要扮演"攻击者"的角色，主动寻找漏洞。这个过程叫做"红队测试"——就像军事演习里，专门有一支部队假扮敌人来测试己方防线一样。其中，有一类基于数学优化的攻击方法效果最强、也最能真实反映模型的安全边界，但它有一个致命弱点：太耗资源了。

处理一篇几万字的文章，一次攻击测试可能需要一小时，占用几百GB的GPU内存。对于高校研究人员来说，这几乎是不可能完成的任务。正是为了破解这个困局，宾夕法尼亚州立大学的团队提出了一个名叫FlashRT的框架，让这种高强度测试既快又省，速度提升最高7倍，内存占用最多降低4倍。

**一、AI安全测试到底是怎么一回事**

要理解FlashRT解决了什么问题，先得搞清楚这个"基于优化的红队攻击"是怎么运作的。

把整个过程比作一个学生试图在考试中作弊。这个学生不能明目张胆地写小抄，必须把作弊信息藏在一篇看起来人畜无害的作文里，让AI老师在批改时不知不觉地按照"作弊指令"打出高分。这段藏在作文里的"暗语"，就是所谓的"对抗性文本"。

攻击者要做的，是反复调整这段暗语，直到AI每次都能被它欺骗。每一次调整的方向，来自一个叫"梯度"的数学信号——你可以把梯度理解为一张藏宝图，上面标注着"往哪个方向修改，AI就更容易上当"。

整个优化过程大致分为两步，交替进行。第一步是"看地图"：对当前的暗语做一次完整的数学反向计算（即反向传播），得到梯度藏宝图，然后根据地图生成一批候选的改进版暗语。第二步是"试效果"：把这一批候选暗语一个个地喂给AI，看哪个最有效，然后保留最好的那个，继续下一轮。

这两步反复进行成千上万次，最终找到一段能持续欺骗AI的恶意文本。

问题就出在这个过程的资源消耗上。当AI需要处理的内容很短时，一切都还好。但当内容长达几万个字的时候，两个问题同时爆发。

"看地图"这一步需要记录大量的中间计算结果来辅助反向传播，就像在一张巨大的画布上作画，每一笔的颜料都要保留，以备后续修改参考——内容越长，要保留的颜料就越多，GPU内存很快就被撑爆了。而"试效果"这一步则需要把几百个候选暗语一个个过一遍，每次都要重新处理文章里暗语之后的所有内容——一篇长文意味着"之后的内容"可能有上万个字，每次重算都是一笔巨大的开销。

从实验数据来看，这两个问题有多严重：在一个名为NarrativeQA的长文档数据集上测试Llama-3.1-8B模型，现有最好的方法（nanoGCG）光是完成前向传播（试效果）就花了2506秒，而反向传播（看地图）又额外占用了168.4GB的GPU内存。FlashRT的目标，就是同时解决这两个痛点。

**二、FlashRT的第一把钥匙：聪明地"偷懒"**

FlashRT解决效率问题的核心思路，可以用一个场景来理解：假设你是一名编辑，正在审阅一篇已经修改了无数次的稿子。每次作者只改了文章中间一小段，你不需要从头到尾重读整篇文章，只需要重点关注改动部分以及它对后文的影响。FlashRT对AI计算的优化，正是这个思路。

在原有方法中，当一个候选暗语被提交给AI评估时，AI会把暗语之后的所有文字全部重新计算一遍——哪怕其中绝大多数文字和上一个候选的情况几乎完全一样。这就像那个编辑不管作者改了什么，每次都从第一个字读到最后一个字一样浪费。

已有一种技术叫做KV缓存，它能把文章开头（暗语插入位置之前）的计算结果保存下来，供后续候选共用，避免重复计算开头部分。但问题在于，文章后半段（暗语插入位置之后）依然要每次全部重算，因为理论上暗语的改变可能影响后面每一个字的理解。

FlashRT在此基础上更进了一步，提出了一个叫做"选择性重计算"的方法。核心思路是：文章后半段的那么多文字，并不是每一个都对"AI是否被欺骗成功"有同等重要的影响。有些段落内容和攻击目标高度相关，AI的注意力会频繁落在上面；有些段落则几乎被AI忽视，对最终结果影响微乎其微。

FlashRT会计算一个"影响力分数"：利用AI内部的注意力权重，衡量文章后半段每个片段对生成目标答案的贡献程度——注意力权重越高，说明AI越关注这个片段，它对判断结果的影响也就越大。在实际计算时，只有影响力最高的那20%的片段（由参数β控制，默认值0.2）会被重新计算，剩下80%的片段则沿用上一个候选的缓存结果。

这样做的代价是损失了一点点计算精度——得到的损失值不再是精确值，而是近似值。但实验证明，这个近似误差对最终攻击效果几乎没有影响，而计算速度却因此大幅提升。

关于如何选择哪些片段值得重算，研究团队对比了好几种方案。简单按随机顺序选的话，攻击成功率是98%，总耗时716秒。用语义相似度来选（把每个片段的含义和攻击目标比较）则需要额外花234秒计算相似度，总耗时749秒。用"单独概率"（把每个片段单独喂给AI，看它影响结果的程度）则需要额外花472秒，总耗时反而变成了1064秒。而FlashRT基于注意力权重的影响力分数，只需额外花39.7秒，总耗时488.7秒，攻击成功率还是100%——这套方案在计算代价和选择质量之间找到了最佳平衡点。

实验还确认了一件事：每次只替换一到几个词的微小扰动，不会显著改变文章里各位置的注意力分布。在MuSiQue数据集上，注意力权重最高的前20%位置中，有96.2%在扰动后仍然保持在前20%。这说明，不必每次都重新计算影响力分数，只需在找到更好的暗语时才更新一次，进一步节省了计算量。

**三、FlashRT的第二把钥匙：用"草稿"代替"正稿"**

解决了"试效果"阶段的计算效率问题，FlashRT还需要对付"看地图"阶段的内存危机。

反向传播为什么这么耗内存？回到刚才画画的比喻：正向计算（从输入到输出）就像在画布上作画，每一笔都留下痕迹。而要做反向传播，就需要把这些痕迹全部保留在内存里，因为计算梯度时需要从最后一笔"倒推"回第一笔。文章越长，中间的痕迹越多，占用的内存就越大，而且是以超线性的速度增长。

FlashRT的解决思路是：梯度不需要那么精确。

在攻击过程中，梯度的作用只是提供一个"方向感"——大致告诉优化算法应该往哪个方向改。就像用导航找路，你不需要知道每一米的精确坐标，只需要知道大方向是"向北走，在第二个路口左转"就够了。

因此，FlashRT不再用整篇文章做反向传播，而是从文章里随机抽取一部分片段（由参数γ控制，默认20%），用这个"缩水版"文章来估算梯度。被处理的文章大幅缩短，内存消耗自然也随之骤降。

但随机性是把双刃剑：有时候抽到的片段代表性不够好，梯度估算出现偏差，优化过程可能会卡住，久久找不到更好的暗语。为了应对这种情况，FlashRT设计了一个"重采样"机制：如果连续100次尝试（参数τ）都找不到更好的结果，就重新随机抽取一批不同的片段，用新的视角重新估算梯度。这个机制类似于解数学题解不出来时换一种解法思路，能有效帮助算法跳出局部困境。

两个关键参数的调优实验给出了清晰的规律。对于β（选择性重计算比例），设得太小（比如0.01）意味着很少重算，每次前向传播虽然快，但估算太不准，需要更多次迭代才能收敛，反而总耗时更长；设得太大（接近1.0）就接近了全量重算，虽然每次估算准确，但速度回到了原点。在NQ数据集上，β约为0.05时总耗时最低。对于γ（梯度采样比例），同样存在一个最优区间：太小（0.05）梯度太不可靠，太大（接近1.0）内存节省有限，约0.2是性价比最高的选择。

**四、战场检验：FlashRT的表现究竟有多好**

理论说得好听，实验数据才是硬道理。研究团队在多个数据集和多个LLM上，把FlashRT与几种基准方法进行了系统比较。

参与比较的方法共有四类。第一类是"启发式攻击"，简单来说就是用人工设计的固定模板来攻击，不做任何自动优化，完全不消耗算力。第二类是nanoGCG，即当前最优的基于GCG算法的白盒攻击实现，加入了若干实践技巧。第三类是nanoGCG-OPT，在nanoGCG基础上加入了扰动幅度调度和随机重启等进一步优化，是目前综合效果最强的基准。第四类是"上下文裁剪"，这是一种简单粗暴的省资源方法——直接把文章随机裁掉80%，用剩下20%来做攻击，最多重启5次，本质上是把长文章变短文章来规避效率问题。

在提示注入攻击方向，FlashRT的表现非常出色。以最长的NarrativeQA数据集为例，启发式攻击成功率60%，上下文裁剪64%，nanoGCG达到88%，nanoGCG-OPT和FlashRT都达到了98%。关键的差距体现在资源消耗上：nanoGCG-OPT需要168.7GB内存和2695秒，而FlashRT只需53.7GB内存和1039.5秒——内存节省了约3倍，速度提升了2.6倍，同时攻击效果完全持平。另一个数据集GovReport上，nanoGCG-OPT需要88.3GB内存和1132秒，FlashRT只需36.3GB内存和519.6秒，攻击成功率双方都是100%，内存省了约2.4倍，速度提升了约2.2倍。

在知识污染攻击方向，节省效果更加显著。在MS-MARCO数据集上，nanoGCG-OPT需要67GB内存和919秒，FlashRT只需26.1GB内存和350.3秒，双方攻击成功率同为100%，内存省了约2.6倍，速度提升了2.6倍。HotpotQA数据集上则更夸张：nanoGCG-OPT内存91.1GB耗时1244.7秒，FlashRT内存30.1GB耗时479.7秒，内存省了3倍，速度提升了2.6倍。

资源节省的幅度随着文章长度的增加而扩大。研究团队专门测试了从4K到32K不同长度的上下文，发现FlashRT的内存使用增长速度明显慢于nanoGCG。在32K的超长上下文下，nanoGCG需要264.1GB内存，而FlashRT只需65.7GB——节省了整整4倍。这个规律非常直观：文章越长，"偷懒不重算"的部分就越多，节省也就越大。

另一个重要的测试维度是不同规模和类型的模型。在Llama-3.1-13B上，FlashRT用29.7GB内存和369秒达到了100%攻击成功率，而nanoGCG-OPT需要95.8GB内存和1211秒才能达到同样效果。最令人注目的是Llama-3.1-70B这个700亿参数的庞然大物——nanoGCG和nanoGCG-OPT在4块H100 GPU上完全跑不起来，内存直接溢出；而FlashRT用205.3GB内存和5281.5秒，成功完成了攻击测试，攻击成功率达到90%。对于大模型安全研究者来说，这意味着一扇原本紧闭的门被打开了。

对于DeepSeek-R1-Distill这类推理模型，FlashRT的处理方式也有针对性的调整。这类模型在给出最终答案前，会先经历一个"思考过程"。研究团队发现，如果把攻击目标设定为让模型在"思考"阶段就引入虚假信息——具体格式为`<think>[query][fake_knowledge]</think>`——模型就会自然地基于这个虚假前提给出攻击者期望的错误答案。nanoGCG在此数据集上攻击成功率仅4%，而nanoGCG-OPT和FlashRT都达到了86%，但FlashRT只需29.9GB内存，而nanoGCG-OPT需要87.6GB，速度也快了约2倍。

**五、红队测试的真实战场：突破防御机制**

FlashRT不只是在没有防御的模型上刷数据。研究团队还专门测试了它在真实防御体系下的表现，这才是最有价值的地方。

第一个防御对象是Llama-Prompt-Guard-2-86M——一个Meta开发的专门检测提示注入的"门卫"模型。它的工作方式是把输入内容切成300词一段，挨个检查，只要发现任何一段有问题，就拒绝整个请求。要绕过这个门卫，攻击不仅要让目标AI执行恶意指令，还要让门卫觉得输入内容是安全的。FlashRT通过在损失函数中加入一项"让门卫觉得安全"的目标来实现这一点。结果显示，FlashRT在MuSiQue数据集上达到92%的攻击成功率（与nanoGCG-OPT持平），内存从93.4GB降到42.8GB，速度从4711.6秒提升到1588秒——快了约3倍，内存节省约2.2倍。

第二个防御对象是Meta-SecAlign，这是Meta专门针对提示注入攻击进行了安全微调的模型系列，公开发布在Hugging Face上，代表了学术界可访问的最强防御之一。在8B版本上，nanoGCG-OPT在MuSiQue达到98%攻击成功率，FlashRT同样达到98%，但内存从82.7GB降到35.8GB，速度从1652秒提升到782秒——快了约2.1倍，内存节省约2.3倍。在GovReport上，nanoGCG-OPT攻击成功率100%，FlashRT同样100%，内存从86.7GB降到31.2GB，速度从1124.7秒提升到528.4秒。

更引人关注的是对Meta-SecAlign 70B版本的测试。由于内存限制，上下文被截断到16K词元。nanoGCG和nanoGCG-OPT在四块H100上完全无法运行，而FlashRT成功完成了测试：在MuSiQue上攻击成功率72%，在NarrativeQA上88%，在GovReport上更是达到了96%，比启发式攻击（分别为2%、6%、0%）高出了70个百分点以上。这一结果有重要的现实意义：一个被认为相当安全的70亿参数模型，在强力优化攻击面前仍然存在显著漏洞。

**六、不只是白盒攻击：FlashRT对黑盒方法的赋能**

FlashRT的技术不仅仅适用于白盒场景（即攻击者知道模型内部参数的场景）。研究团队还展示了两种把FlashRT技术延伸到黑盒攻击的方式。

第一种是组合流水线。思路是先用一个黑盒方法（比如TAP——Tree of Attacks with Pruning，一种用另一个AI来自动生成攻击提示的方法）做初步探索，找到一个效果不错但还不够好的"攻击载荷"，然后把这个载荷交给FlashRT做精细优化，在白盒条件下进一步提升成功率。

在Meta-SecAlign-8B上的测试结果显示，TAP单独使用时，GovReport数据集上攻击成功率仅38%；而先用TAP探索再用FlashRT优化，成功率跳升到98%，几乎与单独使用FlashRT（100%）持平。在MuSiQue和NarrativeQA上，这个组合流水线的速度比单独FlashRT还快——因为TAP的初步探索减少了FlashRT后续需要迭代的次数。例如MuSiQue上，FlashRT单独运行需要782.2秒，组合流水线只需333.5秒。

第二种是直接把FlashRT的选择性重计算技术嵌入黑盒优化算法的候选评估环节。以AutoDAN（一种遗传算法攻击）为例，它的工作原理类似生物进化：从一批候选提示开始，每代都进行"杂交"和"变异"，并根据AI的反应选出最优秀的个体继续繁殖，最终进化出最有效的攻击提示。FlashRT的贡献是加快了每代"评估候选"的速度——用近似的对数概率代替精确的对数概率来判断哪个候选更优秀。

结果是，FlashRT版AutoDAN在MuSiQue上计算时间从142.3秒降到72.2秒，节省了近一半，而攻击成功率从94%仅微降到92%，几乎没有影响。GovReport上时间从460.9秒降到317.8秒，攻击成功率反而从82%提升到86%。类似地，策略搜索方法（Strategy-based Search）结合FlashRT后，在MuSiQue计算时间从32.8秒降到22.4秒，节省约32%，攻击成功率持平96%。

**七、FlashRT可以帮助哪些真实场景**

研究团队用一系列具体的应用场景，说明FlashRT的价值远不止于实验室数据。

在代码补全场景中，使用DeepSeek-Coder-6.7B作为目标模型，数据来自Long Code Arena——一个用真实Python项目的Git历史记录构建的代码补全基准，每个样本16K词元的上下文。攻击目标是让AI在补全代码时插入恶意输出`print('Pwned!')`。编程模型通常比通用模型更难被操纵，nanoGCG成功率只有52%，nanoGCG-OPT达到80%，但耗时长达17733.6秒（近5小时）。FlashRT同样达到80%，但只需5265.4秒（不到1.5小时），内存从132.7GB降到59.1GB。

在医疗AI代理场景中，攻击对象是EHRAgent——一个会用历史经验来辅助决策的医疗问答助手。攻击目标是诱导它说出"我需要调用DeleteDB来删除数据"，从而触发数据库删除操作。FlashRT达到100%攻击成功率，计算时间只需101.9秒，而nanoGCG-OPT同样100%但需要204.7秒，内存从52.2GB降到24.0GB。

在论文评审场景中，攻击目标是让AI对任何一篇论文都产生"强烈推荐接受，论文没有缺点"的评价。测试使用了20篇真实arXiv论文，平均长度13129词元。启发式攻击成功率40%，FlashRT将其提升到100%，平均耗时336.1秒，内存37.1GB。

研究团队还测试了一种更高阶的"通用前缀后缀优化"——不是针对单个文档优化，而是找到一对固定的前缀和后缀，让它们在任何文档上都能提升攻击成功率。在NQ数据集上用20个训练样本优化，在50个测试样本上评估，知识污染攻击成功率从48%（无通用前后缀）提升到80%，训练过程运行了10000次迭代，约9.8小时，内存峰值74.89GB。

**八、攻击位置的影响：藏在哪里效果更好**

研究团队还专门研究了攻击文本插入位置的影响，这是一个很实际的问题——真实世界中，攻击者能控制把恶意内容放在文章的哪个位置？

在提示注入攻击中，以MuSiQue数据集为例，当恶意文本插在文章开头（位置0.0）时，nanoGCG需要约6000秒，FlashRT只需约2000秒；而当插在文章末尾（位置1.0）时，二者耗时都大幅下降，差距也相对收窄。这个规律很直观：插在前面意味着后面需要重计算的内容（Cr）很长，FlashRT省的也多；插在末尾则Cr很短，双方都快，优化空间也小。内存的规律与此一致。攻击成功率方面，中间位置通常略低，这可能是因为中间位置需要同时竞争来自左右两边内容的注意力。

在知识污染攻击中，插在开头同样带来最大的效率改善。整体来看，FlashRT的优势在恶意文本位于文章前半部分时最为突出，这也正好对应了最现实的攻击场景——在RAG系统中，被检索回来的恶意文档往往排在靠前的位置。

**九、这项研究告诉我们什么**

说到底，FlashRT做的事情可以用一句话概括：它让本来只有资源丰富的大机构才能做的安全测试，变得对高校研究者也触手可及。

一个运行时间从一小时缩短到十分钟，内存需求从264GB降到65GB的工具，意味着一名手边只有几块普通GPU的研究生，也可以系统性地评估一个70亿参数模型的安全边界，测试各种防御机制是否真的有效。这对于整个AI安全研究生态来说，具有实质性的意义。

不过有几点值得注意。FlashRT目前的设计针对的是"长上下文场景下的提示注入和知识污染"，而不是所谓的"越狱攻击"（让AI说出有害内容的攻击）——后者的输入通常很短，原本就不存在效率问题，FlashRT的优化意义不大。另外，β和γ这两个关键参数在不同数据集上的最优值有所差异，需要一定的调优经验，并非完全开箱即用。

FlashRT同时也是一把提醒：即使是专门经过安全强化的模型（如Meta-SecAlign-70B），在足够强力的优化攻击面前，依然存在可以利用的脆弱点。这不是在鼓励攻击，而是在提醒防御者：完善的安全评估必须包含计算充分的优化攻击，而不能只测试简单的启发式攻击就宣告安全。

归根结底，安全性的提升需要攻防双方都变得更强。FlashRT让攻击测试更容易进行，从长远来看，是为了让防御做得更扎实——就像更精准的安检设备，是为了让机场更安全，而不是为了制造麻烦。对于想深入探索这个方向的读者，可以通过arXiv编号2604.28157找到完整论文，或访问论文提到的GitHub代码仓库（wang-yanting/FlashRT）获取开源代码。

Q&A

Q1：FlashRT是什么，它解决了什么问题？

A：FlashRT是宾夕法尼亚州立大学开发的一个AI安全测试框架，专门针对长上下文大语言模型。它解决了现有优化型攻击测试方法（如GCG/nanoGCG）在处理长文档时过于耗时和占用内存的问题，将测试速度提升最高7倍，GPU内存消耗最多降低4倍，让高校研究者也能系统性地评估大模型的安全漏洞。

Q2：FlashRT的"选择性重计算"和"梯度近似"具体是怎么工作的？

A：选择性重计算是在评估候选攻击文本时，通过注意力权重找出文章后半段对结果影响最大的20%片段，只重算这部分而缓存其余内容，从而减少计算量。梯度近似则是在计算优化方向时，随机抽取20%的上下文片段来做反向传播，用缩短的上下文估算梯度方向，从而大幅降低GPU内存占用。两者都以轻微的精度损失换取了大幅的效率提升。

Q3：FlashRT是否可以用来攻击普通用户使用的AI产品？

A：FlashRT的白盒攻击模式需要访问模型的完整参数权重，普通用户无法通过API使用它来攻击GPT或Gemini等商业模型。该工具主要面向安全研究人员和模型提供商，用于在有权限访问模型内部的前提下进行红队测试，评估模型的安全边界和防御机制的有效性，而非用于实际攻击。

大语言模型安全红队测试优化加速算法

分享至