微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Amazon首次公开无需运行环境训练网络安全AI的突破性方法

Amazon首次公开无需运行环境训练网络安全AI的突破性方法

2025-10-10 10:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-10 10:29 科技行者

这项由亚马逊AI实验室Terry Yue Zhuo带领,联合莫纳什大学研究团队完成的突破性研究,于2025年2月发表在人工智能顶级会议论文中,研究编号为arXiv:2508.00910v2。对于那些想要深入了解技术细节的读者,可以通过该编号在学术数据库中查询完整论文。

网络安全专家训练AI模型时一直面临着一个令人头疼的问题,就像想要培训一个消防员,却没有真正的火灾现场让他练习一样。在网络安全领域,许多挑战环境和执行环境都是临时性的或者受到严格限制的,这让AI模型很难获得足够的实战经验。亚马逊的研究团队开发了一种名为"Cyber-Zero"的革命性框架,能够在没有任何运行环境的情况下,仅仅通过分析公开的CTF(夺旗赛)解题报告,就能生成高质量的训练数据来培训网络安全AI。

CTF比赛就像网络安全领域的奥林匹克竞赛,参赛者需要破解各种安全挑战来获得"旗帜"。比赛结束后,许多参赛者会写详细的解题报告分享他们的思路和方法。研究团队巧妙地利用这些报告,通过一种双AI模型的对话机制,模拟出完整的解题过程。

这种创新方法的核心思想是让两个AI模型扮演不同角色:一个扮演CTF玩家,负责分析问题和输入命令;另一个扮演终端系统,负责模拟系统响应。通过这种角色扮演,研究团队能够重现真实的网络安全操作场景,生成包含试错、探索和自我修复行为的完整训练轨迹。

研究团队从CTFtime等公开平台收集了6188个高质量的CTF解题报告,这些报告涵盖了从2017年到2025年间543场CTF比赛的4610个独特挑战。经过精心的数据清洗和质量筛选,他们构建了一个规模庞大且多样化的训练数据集。

**一、突破传统训练模式的创新框架**

传统的网络安全AI训练方式就像要求学生在没有教科书的情况下自学高等数学一样困难。以往的方法通常需要可执行的运行环境来收集真实的代理轨迹,但在网络安全领域,这样的环境往往难以获得或维护成本极高。许多CTF挑战的配置和执行上下文都是短暂的,比赛结束后很快就会消失,即使一些挑战后来开源,缺乏可执行环境也让收集真实代理轨迹变得几乎不可能。

Cyber-Zero框架的出现彻底改变了这种困境。研究团队意识到,虽然真实的挑战环境可能无法获得,但参赛者撰写的详细解题报告却是宝贵的知识资源。这些报告不仅包含了解题的最终答案,还详细记录了思维过程、尝试的方法、遇到的错误以及解决问题的步骤。

框架的运作过程分为三个主要阶段。首先是源数据收集阶段,研究团队从公开平台系统性地收集CTF解题报告。这个过程并非简单的数据抓取,而是需要精心的质量控制。许多网上的解题报告质量参差不齐,有些只是简单的提示或指向外部链接,有些则缺乏关键信息如任务描述或可用文件说明。研究团队使用了严格的筛选标准,只保留那些包含足够详细信息且能够验证最终答案的报告。

接下来是验证无关的轨迹生成阶段。这是整个框架最核心的创新部分。研究团队设计了一个双LLM方法来模拟完整的CTF解题过程。第一个模型被设定为经验丰富的安全工程师角色,具备丰富的攻击性安全知识,能够逐步分析挑战并发出相应的命令。第二个模型则扮演终端环境的角色,能够产生系统响应并维持现实的格式和输出结构。

这种双模型方法的巧妙之处在于角色分工的清晰性。玩家模型只能看到挑战内容,比如任务描述、可用文件和环境假设,但看不到原始解题报告或正确答案,这迫使它必须从基本原理出发来解决挑战。而终端模型则可以访问原始解题报告和参考答案,使其能够在轨迹生成过程中充当弱监督的角色。

为了提高交互质量,研究团队还实现了一个选择性干预机制。当玩家模型犯重复错误或走入死胡同时,终端模型可以注入最少的提示,用特殊的标签标记。这些简短的上下文建议能够重新定向玩家模型的思路,而不会透露完整的解决方案。

**二、数据质量保证与规模化生产**

数据质量控制是整个框架成功的关键所在。研究团队采用了多层验证机制来确保生成轨迹的质量和一致性,就像食品生产线上的多道质检程序一样严格。

首先是成功验证层面,每个生成的轨迹必须能够成功恢复正确的旗帜,通过精确匹配检测来验证。这确保了生成的解题过程确实能够达到预期目标,而不是半途而废或者得出错误结果。

其次是格式一致性检查,系统会验证Markdown格式的一致性、与代理脚手架的结构对齐,以及确保每个玩家响应中只包含单个命令。这种格式标准化对于后续的模型训练至关重要,就像标准化的教学材料能够提高学习效果一样。

第三层是输出规范验证,终端输出必须遵循要求的格式约定,包括准确的元数据头和现实的系统行为。这确保了生成的轨迹不仅在逻辑上正确,在表现形式上也足够真实。

最后是内容对齐评估,研究团队使用基于LLM的二元过滤器来评估原始CTF解题报告与生成轨迹之间的对齐程度。这个步骤就像让专家评估学生作业是否真正理解了课程内容一样重要。

在生成配置方面,研究团队选择了DeepSeek-V3-0324模型来同时扮演玩家和终端角色,这个选择基于该模型在多轮推理和代码生成方面的强大能力。每个模型都配置了温度0.6和top-p 0.95的参数,以在输出多样性和稳定性之间取得平衡。为了避免过长的代理轨迹,系统将最大代理-环境配对轮数限制为40轮。

为了增加采样多样性,研究团队为每个CTF解题报告生成三个不同的轨迹。这种多样性增强策略就像从不同角度拍摄同一个场景一样,能够提供更丰富的训练素材。最终,通过这种方法生成的数据集包含了9464个高质量轨迹,涵盖了密码学、取证、二进制利用、逆向工程、Web利用和杂项等六个主要类别。

**三、模型训练与性能突破**

基于Cyber-Zero生成的高质量轨迹数据,研究团队开展了大规模的模型训练实验。他们选择了三个不同的模型家族进行微调:Qwen3、Qwen2.5-Instruct和SWE-agent-LM。这种多模型验证策略就像在不同品牌的汽车上测试同一种燃料的效果,能够更全面地验证方法的普适性。

训练过程采用了监督微调的方式,通过NVIDIA NeMo框架实现。由于计算资源的限制,研究团队只保留了最大32768个令牌的合成样本,最终使用了9464个轨迹进行训练。训练超参数被一致设置为全局批次大小16、学习率5e-6和2个训练周期。这些参数的选择经过了精心调试,既能确保模型充分学习,又能避免过拟合。

为了确保评估的公平性和效率,研究团队还开发了ENIGMA+,这是对原有ENIGMA脚手架的增强版本。新版本实现了并行执行所有评估任务,将评估时间从原来的1-3天大幅缩短到5小时以内。这种效率提升是通过为每个Docker容器分配专用网络接口和隔离环境来实现的,让并发任务执行不会相互干扰。

实验结果令人惊喜。在三个知名的CTF基准测试中,经过Cyber-Zero训练的模型都取得了显著的性能提升。在InterCode-CTF基准上,Qwen3-32B模型的Pass@1性能从60.0%提升到82.4%,绝对提升达到22.4%。在NYU CTF基准上,性能从4.7%提升到13.5%,绝对提升8.8%。在Cybench基准上,性能从5.0%提升到17.5%,绝对提升12.5%。

更重要的是,最佳模型Cyber-Zero-32B的平均性能达到了33.4%,这个成绩能够与DeepSeek-V3-0324和Claude-3.5-Sonnet等顶级专有系统相媲美。这意味着通过无运行时轨迹合成训练的开源模型,已经能够达到商业级专有模型的性能水平。

**四、多维度扩展性验证**

为了深入理解网络安全代理在不同维度上的扩展特性,研究团队进行了三个关键维度的受控实验:推理时计算、任务多样性和轨迹密度。每个维度都提供了关于扩展网络安全代理的机会和局限性的重要洞察。

在推理时计算扩展性方面,研究团队通过生成多个推理轮次并计算Pass@k来研究增加采样如何影响性能。实验结果显示,经过微调的模型在所有采样预算下都始终优于零样本对应模型。例如,经过微调的Cyber-Zero-14B在NYU CTF基准上从2.6%的Pass@1提升到4.2%的Pass@2,并且随着k值增加,差距进一步扩大。这种模式与软件工程代理评估中的先前发现一致,即重复采样只有在模型的候选解决方案多样且基于有效推理模式时才有益。

更有趣的是,经过微调的模型的改进曲线在k超过5后显示出收益递减,这表明大多数有用的推理路径已经在前几个样本中被捕获。这个发现对于实际部署具有重要意义,因为它告诉我们不需要无限增加采样次数就能获得模型的最佳性能。

在任务多样性扩展性方面,研究团队在逐渐增大的Cyber-Zero数据集子集上微调Qwen3模型,分别使用10%、20%、50%和100%的可用挑战。实验结果展现了单调的性能改进趋势。例如,在InterCode-CTF上,Cyber-Zero-14B的性能从使用10%数据时的58.2%提升到使用100%数据时的73.6%。这种一致的改进模式表明,接触多样化的挑战类型能够增强模型识别和利用各种漏洞模式的能力。

有趣的是,在专业级基准如Cybench上的改进相比教育挑战InterCode-CTF来说不那么明显。这种差异表明,复杂的现实世界挑战需要更复杂的推理,这可能仅通过未经验证的合成轨迹更难捕获。这个发现提醒我们,虽然数据多样性很重要,但质量和复杂性也同样关键。

在轨迹密度扩展性方面,研究团队通过改变每个CTF解题报告生成的合成轨迹数量来检验轨迹密度如何影响下游性能。比较了每个任务训练1个、2个和3个轨迹的模型,同时保持任务覆盖范围不变以隔离轨迹多样性的影响。

结果显示,更密集的轨迹采样能够大幅提高所有基准测试的性能。对于NYU CTF基准上的Cyber-Zero-14B,性能从5.7%(1个轨迹)相对提升73%到9.9%(3个轨迹)。这种益处在长期或欠确定任务上尤为明显,在这些任务中,单个采样解决方案可能会错过关键决策点或反映次优推理路径。

**五、实际应用价值与成本效益**

Cyber-Zero框架不仅在技术性能上取得了突破,在实际应用的成本效益方面也表现出色。这对于推动网络安全AI技术的普及和民主化具有重要意义。

在成本效益分析中,研究团队比较了不同模型在性能和成本之间的权衡。专有模型如Claude-3.7-Sonnet和Claude-3.5-Sonnet虽然能够实现强劲的零样本性能(分别为43.3%和37.2%),但成本高昂,平均需要44.4美元和22.2美元来完成成功的任务。

相比之下,Cyber-Zero-32B以33.4%的成功率实现了可比较的性能,但成本显著降低。更重要的是,Cyber-Zero模型在提供显著更好性能的同时,保持了与其基础模型相似的成本效益。这些发现表明,在Cyber-Zero轨迹上训练的代理不仅实现了有竞争力的性能,还为实际网络安全应用提供了卓越的成本效益和样本效率。

研究团队还发现了一个有趣的现象:经过微调的模型显著减少了陷入循环的情况。在零样本设置下,模型经常在处理网络安全任务时陷入循环,即代理连续多轮生成相同动作。而在Cyber-Zero轨迹上的微调一致地将所有基准测试的陷入循环率降低了3.3%-28.7%。这种改进对于实际部署至关重要,因为陷入循环的代理无法有效完成任务。

从算法角度来看,研究团队还进行了重要的对比实验。他们发现,与单轮生成相比,多轮合成确实能提高探索效率。单轮轨迹往往过于直接,包含很少的执行错误,缩短了玩家和终端之间的交互次数。而多轮生成的轨迹更能反映真实的试错探索过程,这对于训练鲁棒的网络安全代理是必要的。

**六、技术创新与方法论贡献**

Cyber-Zero框架的技术创新不仅体现在具体的实现细节上,更重要的是它提出了一种全新的方法论,为在缺乏可执行环境的领域训练智能代理开辟了新的道路。

传统的代理训练方法严重依赖于可执行环境来收集真实的交互轨迹。然而,在许多重要的应用领域,特别是网络安全,这样的环境往往不可用或成本极高。Cyber-Zero通过巧妙地利用人类专家知识(以解题报告的形式)来克服这一根本性挑战,展现了从文本知识到可执行技能转换的可能性。

框架中的双LLM方法特别值得关注。这种设计不仅仅是技术实现的便利,更体现了对人机协作模式的深刻理解。通过让一个模型扮演问题解决者,另一个模型扮演环境反馈者,系统能够模拟出接近真实的学习交互过程。这种角色分工确保了生成的轨迹既保持了解决问题的逻辑性,又维持了环境反馈的真实性。

选择性干预机制的设计也体现了研究团队的精巧思考。在没有真实环境的情况下,如何平衡指导和自主探索是一个微妙的问题。过多的指导会导致轨迹过于人工化,失去探索的自然性;过少的指导则可能导致代理无法找到正确的解决路径。通过引入最小化的上下文提示,系统能够在关键时刻提供必要的方向指引,同时保持解决过程的自然性。

数据质量控制流程的设计同样体现了方法论的严谨性。多层验证机制不仅确保了数据的正确性,更重要的是确保了数据的多样性和代表性。通过成功验证、格式检查、输出规范和内容对齐等多个维度的质量控制,系统能够生成既准确又丰富的训练数据。

**七、开源贡献与社区影响**

Cyber-Zero项目的开源性质为整个网络安全AI社区带来了重要贡献。研究团队承诺将发布完整的数据集、代码和预训练模型,这种开放态度对于推动领域发展具有重要意义。

项目提供的修正版基准测试特别值得关注。在评估过程中,研究团队发现了现有CTF基准测试中的一些问题,影响了约6%的挑战。他们不仅识别了这些问题,还提供了修正版本,这对于确保未来研究的公平性和准确性至关重要。这种负责任的研究态度体现了学术界应有的严谨性。

ENIGMA+脚手架的开发和开源也是重要贡献。相比原始的ENIGMA,新版本不仅大幅提升了评估效率,还提供了更公平的模型比较机制。通过使用最大交互轮数而非基于成本的预算来限制生成,新系统确保了不同定价结构模型之间的一致评估条件。

从技术栈的角度来看,Cyber-Zero的实现充分利用了现有的开源工具和框架,如NVIDIA NeMo训练框架、pwntools安全测试工具等。这种基于开源生态的开发模式不仅降低了技术门槛,也为其他研究者复现和扩展这项工作提供了便利。

研究团队还特别关注了不同规模模型的性能表现。从8B到32B参数的模型都显示出了一致的性能扩展趋势,这为不同计算资源条件下的用户提供了选择空间。较小的模型虽然绝对性能较低,但在成本效益方面仍然表现出色,这对于资源受限的组织或研究者来说具有重要意义。

说到底,Cyber-Zero框架的意义远远超出了技术创新本身。它展示了一种新的可能性:即使在缺乏理想训练环境的情况下,我们仍然能够通过巧妙的方法设计来培训出高性能的AI系统。这种思路对于许多其他领域都具有启发意义,比如医疗诊断、法律分析、科学研究等需要专业知识但又难以获得大量实战数据的领域。

从更广阔的视角来看,这项研究体现了AI民主化的重要趋势。通过让开源模型能够达到商业级专有模型的性能,Cyber-Zero为更多组织和个人获得先进的网络安全AI能力提供了可能。这种技术普及对于提升整个社会的网络安全防护水平具有重要意义,特别是对于那些无法承担昂贵商业解决方案的中小型组织。

当然,任何强大的技术都具有双面性。正如研究团队在论文中坦诚地讨论的那样,这些网络安全能力既可以用于防御目的,也可能被恶意利用。无运行时方法使得先进的网络安全代理训练变得更加容易获得,这可能会降低攻击性和防御性应用的门槛。因此,研究团队呼吁研究者、模型开发者和安全机构之间的持续合作,以确保这些强大工具的负责任开发和部署。

最终,Cyber-Zero代表了网络安全AI发展的一个重要里程碑。它不仅解决了一个长期存在的技术挑战,更重要的是为未来的研究和应用开辟了新的方向。随着这种方法的进一步发展和完善,我们有理由期待看到更多创新的AI训练方法出现,推动整个人工智能领域向着更加实用和普惠的方向发展。

Q&A

Q1:Cyber-Zero框架是什么?它解决了什么问题?

A:Cyber-Zero是亚马逊开发的首个无运行环境训练网络安全AI的框架。它解决了网络安全领域训练数据稀缺的问题,通过分析公开的CTF解题报告,用双AI模拟的方式生成高质量训练数据,无需真实的挑战环境。

Q2:双LLM方法具体是怎么工作的?

A:这种方法让两个AI模型分工合作:一个扮演CTF玩家角色,只看挑战内容从零开始解题;另一个扮演终端系统,能看到标准答案并模拟系统响应。通过这种对话互动,重现真实的网络安全操作场景。

Q3:Cyber-Zero训练的模型性能如何?有什么实际优势?

A:经过Cyber-Zero训练的最佳模型性能达到33.4%,能与Claude-3.5-Sonnet等顶级商业模型媲美,但成本显著更低。在三个主要CTF基准测试中都取得了显著提升,最高绝对提升达22.4%。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-