网络安全是一场永无休止的攻与防较量。在这个战场上,准确识别攻击者使用的技术至关重要,就像医生需要精准诊断病症才能开出有效药方。2025年5月,卡塔尔计算研究所的艾哈迈德·莱克萨伊斯(Ahmed Lekssays)、独立研究员乌萨夫·舒克拉(Utsav Shukla)以及卡塔尔计算研究所的胡斯雷夫·塔哈·森卡尔(Husrev Taha Sencar)和穆罕默德·里兹万·帕尔维兹(Md Rizwan Parvez)在论文《TECHNIQUERAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text》中,提出了一种创新的解决方案。这项研究发表于arXiv预印本平台(arXiv:2505.11988v1),为安全分析师提供了更精准的工具,帮助他们在复杂的安全报告中识别攻击者的技术手段。
一、为什么我们需要自动识别攻击技术?
想象一下,你是一名网络安全分析师,每天面对大量的安全报告和事件描述。这些文本中隐藏着攻击者使用的战术、技术和程序(TTPs)信息,但要手动识别它们却异常耗时且需要专业知识。就像在厚厚的侦探小说中找出关键线索一样,这项工作既繁琐又容易出错。
MITRE ATT&CK框架已成为网络安全行业的标准,它提供了一个全面的知识库,用于分类和映射攻击者的行为。然而,将模糊的威胁描述与标准化的ATT&CK(子)技术对应起来是一项挑战。例如,当你看到"Monero矿工脚本从TeamTNT的服务器下载,并通过使用存储在'/tmp/TeamTNT'的私钥以'root'用户身份建立的SSH会话管道到'bash'"这样的描述时,你需要识别出多个相关技术,如"T1098.004:SSH授权密钥"、"T1195:供应链攻击"、"T1059.004:Unix Shell"等。
现有的自动识别方法面临一个根本性的权衡:它们要么依赖通用模型(准确性有限),要么需要资源密集型管道(依赖大量标记数据和特定任务优化)。这就像是在选择快速但粗略的草图和精细但耗时的油画之间做选择。而在专业领域中,像网络安全这样的专业领域中,我们很少有足够的资源来支持后者。
二、TECHNIQUERAG:构建一座通用性和专业性之间的桥梁
TECHNIQUERAG像是一位经验丰富的侦探助手,它能够在有限的线索和资源下,帮助分析师快速定位攻击技术。这个框架采用了一种领域特定的检索增强生成(RAG)方法,巧妙地将三个关键部分组合在一起:现成的检索器、经过指令微调的大语言模型(LLM)和最少量的文本-技术配对数据。
想象一下,这就像是一个三步法烹饪菜肴:首先,我们使用现成的食材(检索器从现有数据中找出相关例子);然后,我们有一位经验丰富的厨师(LLM重新排序这些例子);最后,我们有一本精简的食谱(少量的文本-技术配对数据用于微调生成模型)。
TECHNIQUERAG通过两个创新点解决了现有方法的局限性:
首先,它巧妙地缓解了数据稀缺问题。传统方法需要大量的标记数据来训练整个系统,但TECHNIQUERAG只对生成组件进行微调,仅使用有限的领域内示例,从而避免了对检索组件进行资源密集型的训练。这就像是我们不需要从头开始训练一名侦探,而只需要教会他如何使用现有的工具和少量示例进行推理。
其次,它增强了检索质量和领域特定性。虽然常规的RAG方法通过耦合检索和生成来减少"幻觉"(AI生成不存在的内容),但它们对通用检索器的依赖往往会引入噪声候选项,从而限制了领域特定的精确性。TECHNIQUERAG通过零样本LLM重新排序来解决这个问题,明确地将检索到的候选项与对抗性技术对齐。这就像是让一位专家对初步搜集的线索进行二次筛选,确保它们真正与案件相关。
三、TECHNIQUERAG如何工作?
让我们深入了解TECHNIQUERAG的工作原理,就像拆解一台精密仪器看它内部的齿轮如何运转。
首先,我们需要理解问题:给定一段安全文本(如攻击行为描述),我们的目标是预测相应的对抗性(子)技术,这些技术来自MITRE ATT&CK框架中定义的标准集合。
TECHNIQUERAG框架包含三个主要组件:检索器、重新排序器和生成器。
**检索器:找出相似的案例**
检索器的工作就像是在案例档案库中查找类似案例。当收到一个查询安全文本时,检索器会在已有的数据集中找出最相关的文本和相应的技术对。比如,当看到一个描述使用PowerShell下载文件的文本时,它会找出过去类似的例子,如"PowerShell.exe从45.33.12.x下载文件"及其对应的技术标签(如T1059.001、T1105)。
TECHNIQUERAG可以使用任何现成的检索器,不论是基于关键词的(如BM25)还是基于语义的(如预训练的句子嵌入模型)。这种灵活性使系统能够适应不同的场景和资源限制。
**重新排序器:专家审核初步结果**
检索出初步的候选项后,LLM重新排序器会对它们进行更精细的评估。这不是简单的排序,而是一次深入的分析过程,考虑到安全领域的特殊需求。
重新排序器面临三个关键挑战,并通过巧妙的提示工程来解决:
首先,安全文本中很少提供技术映射的明确理由。例如,文本"恶意软件连接到C2使用自定义编码"暗示了命令与控制(TA0011)和防御规避(TA0005)策略,但并未直接说明这种关系。重新排序器指导LLM通过结构化推理来分解这些隐含连接,将文本拆解为不同的攻击步骤或阶段,识别任何隐含或明确提到的行为。
其次,安全活动通常涉及多种技术。重新排序器确保通过并行评估进行全面覆盖,指导LLM探索每种可能的技术。对于同一个查询"恶意软件连接到C2使用自定义编码",它会分析主要技术(T1071应用层协议,因为直接的C2通信行为)和次要技术(T1027混淆文件或信息,因为使用自定义编码进行规避)。
第三,某些技术有多个子技术,而有些则没有。TECHNIQUERAG评估它们之间的细微差异,来指导整体排名。它不仅分析主要技术,还评估特定的子技术是否适用,比如对编码PowerShell脚本的查询,会识别出PowerShell的精确子技术T1059.001。
这种结构化、推理式的方法使重新排序器能够重新排列候选项,同时保持与ATT&CK分类法的一致性,解决初始检索中的模糊之处。
**生成器:产生最终答案**
生成器是系统的最后一环,它接收查询文本和重新排序后的候选项,然后生成最终的技术标注。生成器通过微调训练,学习如何根据上下文生成最相关的技术。
这个过程就像是一位有经验的侦探,在检查了所有证据和相似案例后,做出最终的判断。生成器被设计为不仅关注文本的直接内容,还考虑到示例中提供的上下文,从而减少"幻觉"并提高预测的准确性。
四、实验设置与实施细节
研究团队在三个安全基准数据集上测试了TECHNIQUERAG,这些数据集代表了不同的挑战级别:Tram(单标签,包含198个唯一技术)、Procedures(单标签,包含488个唯一技术)和Expert(多标签,包含290个唯一技术)。
作为检索器,团队使用了BM25,设置为检索前40个结果,并选择前3个用于增强。对于重新排序,他们使用了DeepSeek v3模型,处理批次大小为40,重叠为20。生成器则是一个8B参数的Ministral Instruct模型,通过LoRA方法进行微调。
为了全面评估TECHNIQUERAG的性能,研究团队将其与多种基线方法进行比较:
基于检索/排序的方法:包括NCE(用于对比领域特定学习)、Text2TTP(结合双编码器语义搜索和交叉编码器重新排序)、基础BM25检索器和RankGPT重新排序框架。
基于生成的方法:包括强大的LLM模型如GPT-4、DeepSeek V3和Ministral 8B。对每个模型,团队实现了直接提示和思维链方法与自反思。他们还比较了IntelEX,这是一种混合检索和LLM判断方法。
此外,研究团队还实现了上述LLM的检索增强版本,使用来自TECHNIQUERAG检索和重新排序的相同示例。
五、令人印象深刻的实验结果
实验结果令人振奋,证明了TECHNIQUERAG的有效性和优势。
在技术级别预测方面,TECHNIQUERAG在Procedures数据集上取得了91.09%的F1分数,远超其他方法。在更具挑战性的Expert数据集上,它达到了50.19%的F1分数,与专有模型GPT-4o(RAG)的51.30%相当。当计算三个数据集上的平均F1分数时,TECHNIQUERAG达到了约80.76%,而GPT-4o(RAG)仅约58.11%。
在子技术级别预测方面,我们看到了类似的趋势。TECHNIQUERAG在Procedures上保持领先(F1为88.11%,而NCE为73.74%),并在Expert上取得了与GPT-4o(RAG)相近的性能(42.22%比43.73%)。
多标签预测任务证明比单标签更具挑战性。例如,GPT-4o在Procedure(单标签)数据集上达到了76.75%的F1分数,但在Expert(多标签)数据集上仅为19.77%。虽然检索增强生成提高了所有生成模型的性能,但开源LLM的提升仍然有限。
重新排序器的贡献尤为突出。在Expert数据集上的排名方法比较中,TECHNIQUERAG的重新排序器在技术级别取得了47.2%的F1@1分数,远高于其他方法,如NCE(35.9%)和Text2TTP(35.1%)。
六、深入分析:TECHNIQUERAG的优势与局限性
TECHNIQUERAG方法的成功归功于几个关键因素的结合。
首先,它优雅地解决了数据稀缺性问题。网络安全领域特有的标记数据有限——尽管MITRE ATT&CK框架定义了550多种对抗性(子)技术,但公开可用的标记示例仅约10,000个。TECHNIQUERAG通过仅对生成组件进行微调,最大化了这些有限数据的使用。
其次,通过零样本LLM重新排序,TECHNIQUERAG增强了领域特定性,而无需额外的训练数据。普通LLM在排序对抗性(子)技术时面临挑战,因为这需要区分可能在文本中共同出现且没有明确指标的细微不同技术。TECHNIQUERAG通过结构化分解和明确推理解决了这一问题。
然而,研究也揭示了一些限制和挑战:
预测不足:模型通常能够捕捉主要技术,但可能错过同一攻击模式中的相关技术。例如,识别T1055(进程注入)但错过T1106(本机API)。
上下文错误:模型在区分同一策略族内的类似技术时面临困难,特别是命令和脚本解释器技术(T1059.*)。它还可能错过文本中隐含但未明确说明的技术。
层次问题:在处理父子技术关系时存在困难,有时会生成无效的子技术ID。
重新排序器限制:由于模糊查询和复合语句,某些技术被遗漏,并通过传播影响生成器。
技术相似性:难以区分具有重叠描述和关键词的技术(如网络钓鱼相关技术T1598.003、T1566.002、T1204.001)。
类别不平衡的影响:模型性能受到数据不平衡的根本影响——在203种技术中,只有47种(23.2%)有超过50个训练样本。数据丰富的技术显示出高精确度和召回率,而稀有技术则受到误分类和预测不足的困扰。
七、TECHNIQUERAG对安全领域的意义
从MITRE ATT&CK框架中标注威胁情报文本中的对抗性技术是安全分析师每天必须执行的手动和耗时任务。其自动化需要能够在数百种可能性中准确识别技术和子技术的方法,同时处理复杂的安全术语、多样的文本格式和有限的标记数据。
TECHNIQUERAG通过检索增强微调方法有效地解决了这些挑战。它不仅在技术性能上超越了现有方法,还提供了一个实用的框架,该框架可以利用有限的资源进行部署和使用。
对于网络安全行业,这意味着:
更高效的威胁情报处理:分析师可以更快地处理更多的报告,从文本中自动提取关键技术信息。
更一致的分析:减少依赖分析师个人专业知识的差异,提供更标准化的结果。
更好的知识共享:系统地映射技术可以改进组织间的信息共享和威胁情报的整合。
在不断发展的网络安全领域,TECHNIQUERAG代表了一个重要进步,将人工智能的最新进展应用于实际安全挑战,帮助防御者更好地理解和应对复杂的威胁形势。
八、未来研究方向
尽管TECHNIQUERAG取得了显著成果,但研究团队也认识到了一些局限性和未来改进的方向:
数据平衡和覆盖:获取更加平衡的训练数据,特别是对于那些在现有数据集中代表性不足的技术。这就像是确保我们的侦探有足够多样的案例经验,涵盖各种类型的犯罪手法。
上下文理解增强:改进模型在识别文本中隐含但未明确说明的技术方面的能力,这需要更深入的上下文理解和推理能力。
跨语言和跨格式支持:扩展框架以支持多语言威胁情报和各种文档格式,增强其在国际网络安全环境中的适用性。
这些改进将进一步增强TECHNIQUERAG框架的有效性和实用性,使其成为网络安全社区中更加强大和全面的工具。
总的来说,TECHNIQUERAG不仅代表了一种技术创新,还为网络安全领域中人工智能应用开辟了新的可能性。它展示了如何将先进的AI技术与领域专业知识相结合,创造出既精确又实用的解决方案,帮助防御者在不断演变的网络威胁形势中保持领先地位。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。