微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

TECHNIQUERAG：一种创新方法，让安全专家更准确找出网络威胁技术

网络安全检索增强生成对抗性技术识别

TECHNIQUERAG：一种创新方法，让安全专家更准确找出网络威胁技术

作者：科技行者

2025-05-23 07:39

分享至：

TECHNIQUERAG是一种新型检索增强生成框架，专为网络安全领域的对抗性技术识别而设计。卡塔尔计算研究所的研究团队创新性地整合了现成检索器、LLM重排序和有限的文本-技术配对数据，有效解决了数据稀缺性和领域专业性挑战。实验表明，该方法在多个安全基准上实现了最先进的性能，无需大量标记数据或特定任务优化。TECHNIQUERAG通过零样本LLM重排序增强了检索质量，使防御者能更准确地从威胁情报文本中识别MITRE ATT&CK技术，为网络安全分析提供了强大工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-23 07:39 • 科技行者

网络安全是一场永无休止的攻与防较量。在这个战场上，准确识别攻击者使用的技术至关重要，就像医生需要精准诊断病症才能开出有效药方。2025年5月，卡塔尔计算研究所的艾哈迈德·莱克萨伊斯(Ahmed Lekssays)、独立研究员乌萨夫·舒克拉(Utsav Shukla)以及卡塔尔计算研究所的胡斯雷夫·塔哈·森卡尔(Husrev Taha Sencar)和穆罕默德·里兹万·帕尔维兹(Md Rizwan Parvez)在论文《TECHNIQUERAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text》中，提出了一种创新的解决方案。这项研究发表于arXiv预印本平台（arXiv:2505.11988v1），为安全分析师提供了更精准的工具，帮助他们在复杂的安全报告中识别攻击者的技术手段。

一、为什么我们需要自动识别攻击技术？

想象一下，你是一名网络安全分析师，每天面对大量的安全报告和事件描述。这些文本中隐藏着攻击者使用的战术、技术和程序（TTPs）信息，但要手动识别它们却异常耗时且需要专业知识。就像在厚厚的侦探小说中找出关键线索一样，这项工作既繁琐又容易出错。

MITRE ATT&CK框架已成为网络安全行业的标准，它提供了一个全面的知识库，用于分类和映射攻击者的行为。然而，将模糊的威胁描述与标准化的ATT&CK（子）技术对应起来是一项挑战。例如，当你看到"Monero矿工脚本从TeamTNT的服务器下载，并通过使用存储在'/tmp/TeamTNT'的私钥以'root'用户身份建立的SSH会话管道到'bash'"这样的描述时，你需要识别出多个相关技术，如"T1098.004：SSH授权密钥"、"T1195：供应链攻击"、"T1059.004：Unix Shell"等。

现有的自动识别方法面临一个根本性的权衡：它们要么依赖通用模型（准确性有限），要么需要资源密集型管道（依赖大量标记数据和特定任务优化）。这就像是在选择快速但粗略的草图和精细但耗时的油画之间做选择。而在专业领域中，像网络安全这样的专业领域中，我们很少有足够的资源来支持后者。

二、TECHNIQUERAG：构建一座通用性和专业性之间的桥梁

TECHNIQUERAG像是一位经验丰富的侦探助手，它能够在有限的线索和资源下，帮助分析师快速定位攻击技术。这个框架采用了一种领域特定的检索增强生成（RAG）方法，巧妙地将三个关键部分组合在一起：现成的检索器、经过指令微调的大语言模型（LLM）和最少量的文本-技术配对数据。

想象一下，这就像是一个三步法烹饪菜肴：首先，我们使用现成的食材（检索器从现有数据中找出相关例子）；然后，我们有一位经验丰富的厨师（LLM重新排序这些例子）；最后，我们有一本精简的食谱（少量的文本-技术配对数据用于微调生成模型）。

TECHNIQUERAG通过两个创新点解决了现有方法的局限性：

首先，它巧妙地缓解了数据稀缺问题。传统方法需要大量的标记数据来训练整个系统，但TECHNIQUERAG只对生成组件进行微调，仅使用有限的领域内示例，从而避免了对检索组件进行资源密集型的训练。这就像是我们不需要从头开始训练一名侦探，而只需要教会他如何使用现有的工具和少量示例进行推理。

其次，它增强了检索质量和领域特定性。虽然常规的RAG方法通过耦合检索和生成来减少"幻觉"（AI生成不存在的内容），但它们对通用检索器的依赖往往会引入噪声候选项，从而限制了领域特定的精确性。TECHNIQUERAG通过零样本LLM重新排序来解决这个问题，明确地将检索到的候选项与对抗性技术对齐。这就像是让一位专家对初步搜集的线索进行二次筛选，确保它们真正与案件相关。

三、TECHNIQUERAG如何工作？

让我们深入了解TECHNIQUERAG的工作原理，就像拆解一台精密仪器看它内部的齿轮如何运转。

首先，我们需要理解问题：给定一段安全文本（如攻击行为描述），我们的目标是预测相应的对抗性（子）技术，这些技术来自MITRE ATT&CK框架中定义的标准集合。

TECHNIQUERAG框架包含三个主要组件：检索器、重新排序器和生成器。

**检索器：找出相似的案例**

检索器的工作就像是在案例档案库中查找类似案例。当收到一个查询安全文本时，检索器会在已有的数据集中找出最相关的文本和相应的技术对。比如，当看到一个描述使用PowerShell下载文件的文本时，它会找出过去类似的例子，如"PowerShell.exe从45.33.12.x下载文件"及其对应的技术标签（如T1059.001、T1105）。

TECHNIQUERAG可以使用任何现成的检索器，不论是基于关键词的（如BM25）还是基于语义的（如预训练的句子嵌入模型）。这种灵活性使系统能够适应不同的场景和资源限制。

**重新排序器：专家审核初步结果**

检索出初步的候选项后，LLM重新排序器会对它们进行更精细的评估。这不是简单的排序，而是一次深入的分析过程，考虑到安全领域的特殊需求。

重新排序器面临三个关键挑战，并通过巧妙的提示工程来解决：

首先，安全文本中很少提供技术映射的明确理由。例如，文本"恶意软件连接到C2使用自定义编码"暗示了命令与控制（TA0011）和防御规避（TA0005）策略，但并未直接说明这种关系。重新排序器指导LLM通过结构化推理来分解这些隐含连接，将文本拆解为不同的攻击步骤或阶段，识别任何隐含或明确提到的行为。

其次，安全活动通常涉及多种技术。重新排序器确保通过并行评估进行全面覆盖，指导LLM探索每种可能的技术。对于同一个查询"恶意软件连接到C2使用自定义编码"，它会分析主要技术（T1071应用层协议，因为直接的C2通信行为）和次要技术（T1027混淆文件或信息，因为使用自定义编码进行规避）。

第三，某些技术有多个子技术，而有些则没有。TECHNIQUERAG评估它们之间的细微差异，来指导整体排名。它不仅分析主要技术，还评估特定的子技术是否适用，比如对编码PowerShell脚本的查询，会识别出PowerShell的精确子技术T1059.001。

这种结构化、推理式的方法使重新排序器能够重新排列候选项，同时保持与ATT&CK分类法的一致性，解决初始检索中的模糊之处。

**生成器：产生最终答案**

生成器是系统的最后一环，它接收查询文本和重新排序后的候选项，然后生成最终的技术标注。生成器通过微调训练，学习如何根据上下文生成最相关的技术。

这个过程就像是一位有经验的侦探，在检查了所有证据和相似案例后，做出最终的判断。生成器被设计为不仅关注文本的直接内容，还考虑到示例中提供的上下文，从而减少"幻觉"并提高预测的准确性。

四、实验设置与实施细节

研究团队在三个安全基准数据集上测试了TECHNIQUERAG，这些数据集代表了不同的挑战级别：Tram（单标签，包含198个唯一技术）、Procedures（单标签，包含488个唯一技术）和Expert（多标签，包含290个唯一技术）。

作为检索器，团队使用了BM25，设置为检索前40个结果，并选择前3个用于增强。对于重新排序，他们使用了DeepSeek v3模型，处理批次大小为40，重叠为20。生成器则是一个8B参数的Ministral Instruct模型，通过LoRA方法进行微调。

为了全面评估TECHNIQUERAG的性能，研究团队将其与多种基线方法进行比较：

基于检索/排序的方法：包括NCE（用于对比领域特定学习）、Text2TTP（结合双编码器语义搜索和交叉编码器重新排序）、基础BM25检索器和RankGPT重新排序框架。

基于生成的方法：包括强大的LLM模型如GPT-4、DeepSeek V3和Ministral 8B。对每个模型，团队实现了直接提示和思维链方法与自反思。他们还比较了IntelEX，这是一种混合检索和LLM判断方法。

此外，研究团队还实现了上述LLM的检索增强版本，使用来自TECHNIQUERAG检索和重新排序的相同示例。

五、令人印象深刻的实验结果

实验结果令人振奋，证明了TECHNIQUERAG的有效性和优势。

在技术级别预测方面，TECHNIQUERAG在Procedures数据集上取得了91.09%的F1分数，远超其他方法。在更具挑战性的Expert数据集上，它达到了50.19%的F1分数，与专有模型GPT-4o（RAG）的51.30%相当。当计算三个数据集上的平均F1分数时，TECHNIQUERAG达到了约80.76%，而GPT-4o（RAG）仅约58.11%。

在子技术级别预测方面，我们看到了类似的趋势。TECHNIQUERAG在Procedures上保持领先（F1为88.11%，而NCE为73.74%），并在Expert上取得了与GPT-4o（RAG）相近的性能（42.22%比43.73%）。

多标签预测任务证明比单标签更具挑战性。例如，GPT-4o在Procedure（单标签）数据集上达到了76.75%的F1分数，但在Expert（多标签）数据集上仅为19.77%。虽然检索增强生成提高了所有生成模型的性能，但开源LLM的提升仍然有限。

重新排序器的贡献尤为突出。在Expert数据集上的排名方法比较中，TECHNIQUERAG的重新排序器在技术级别取得了47.2%的F1@1分数，远高于其他方法，如NCE（35.9%）和Text2TTP（35.1%）。

六、深入分析：TECHNIQUERAG的优势与局限性

TECHNIQUERAG方法的成功归功于几个关键因素的结合。

首先，它优雅地解决了数据稀缺性问题。网络安全领域特有的标记数据有限——尽管MITRE ATT&CK框架定义了550多种对抗性（子）技术，但公开可用的标记示例仅约10,000个。TECHNIQUERAG通过仅对生成组件进行微调，最大化了这些有限数据的使用。

其次，通过零样本LLM重新排序，TECHNIQUERAG增强了领域特定性，而无需额外的训练数据。普通LLM在排序对抗性（子）技术时面临挑战，因为这需要区分可能在文本中共同出现且没有明确指标的细微不同技术。TECHNIQUERAG通过结构化分解和明确推理解决了这一问题。

然而，研究也揭示了一些限制和挑战：

预测不足：模型通常能够捕捉主要技术，但可能错过同一攻击模式中的相关技术。例如，识别T1055（进程注入）但错过T1106（本机API）。

上下文错误：模型在区分同一策略族内的类似技术时面临困难，特别是命令和脚本解释器技术（T1059.*）。它还可能错过文本中隐含但未明确说明的技术。

层次问题：在处理父子技术关系时存在困难，有时会生成无效的子技术ID。

重新排序器限制：由于模糊查询和复合语句，某些技术被遗漏，并通过传播影响生成器。