这项由普渡大学的Md Ajwad Akil、Adrian Shuai Li、Imtiaz Karim和Elisa Bertino教授,以及思科研究院的Arun Iyengar、Ashish Kundu和Vinny Parla共同完成的研究发表于2025年7月。该研究探索了大语言模型(LLM)在恶意软件变种生成中的可行性,有兴趣深入了解的读者可以通过arXiv:2507.09411v1访问完整论文。
随着人工智能技术的快速发展,大语言模型已经在代码生成和软件开发领域展现出了惊人的能力。但这项技术的双刃剑属性也引发了新的担忧:如果恶意攻击者利用这些强大的AI工具来生成恶意软件变种,会发生什么?
普渡大学的研究团队正是带着这个问题,开展了一项具有前瞻性的研究。他们开发了一个名为LLMalMorph的半自动化框架,专门用于研究大语言模型是否能够有效地修改恶意软件源代码,生成既保持原有功能又能够逃避反病毒检测的变种。
这项研究的意义远超学术范畴。在当今这个网络安全威胁日益严重的时代,网络犯罪造成的损失预计将在2025年达到10.5万亿美元。每秒钟都有约19万个新的恶意软件事件发生,而勒索软件的平均赎金需求在2024年已经飙升至273万美元。面对如此严峻的形势,了解潜在攻击者可能如何利用最新的AI技术来武装自己,对于网络安全防护具有重要意义。
研究团队选择了10个不同类型和复杂度的Windows恶意软件样本作为测试对象,这些样本涵盖了从简单的病毒感染程序到复杂的勒索软件等多种类型。通过LLMalMorph框架,他们成功生成了618个恶意软件变种,并对这些变种进行了全面的检测逃避能力和功能保持性测试。
研究的核心创新在于,他们没有简单地让AI从零开始编写恶意软件,而是让AI学会如何巧妙地修改现有的恶意软件源代码。这就像让一个熟练的裁缝学会如何改造一件衣服,既要保持衣服的基本功能,又要让它看起来完全不同,从而避开安全检查。
一、破解AI恶意软件生成的技术难题
要让大语言模型有效地生成恶意软件变种,研究团队首先需要解决一系列技术挑战。传统的恶意软件变种生成方法主要依赖于二进制文件修改或者搜索算法优化,但这些方法往往需要大量的迭代训练,成功率也不够理想。
LLMalMorph框架的设计理念就像组装一台精密的机器。整个系统分为两个主要模块:功能变异器(Function Mutator)和变种合成器(Variant Synthesizer)。功能变异器负责提取恶意软件源代码中的函数,并通过精心设计的提示词指导大语言模型进行修改。变种合成器则负责将修改后的函数重新整合到原始代码中,编译生成新的恶意软件变种。
这个过程面临的第一个挑战是上下文限制问题。恶意软件通常包含大量代码,而大语言模型的输入容量是有限的。研究团队采用了一种巧妙的解决方案:他们开发了一个提取器子模块,能够自动分析源代码的抽象语法树,系统性地提取函数体、头文件信息和全局变量声明。这样,AI就能够在有限的上下文中获得足够的信息来进行有效的代码修改。
第二个挑战是保持代码的一致性。恶意软件项目通常跨越多个文件,修改其中一个部分往往需要在其他相关文件中进行协调修改。由于当前大语言模型在处理多文件依赖和项目级配置方面存在局限性,研究团队设计了一个人工参与的调试流程。当AI生成的代码无法编译时,研究人员会介入进行必要的调试和配置调整,但这个过程严格限制在语法错误修复和构建配置问题解决,不会改变AI生成代码的语义逻辑。
二、六种代码变形策略:让恶意软件穿上新外衣
为了让大语言模型能够系统性地生成多样化的恶意软件变种,研究团队设计了六种不同的代码变形策略。每种策略都有其独特的侧重点和技术手段,就像六种不同的化妆技巧,能够让同一个演员呈现出完全不同的外貌。
代码优化策略专注于提升代码的性能和效率。这种策略指导AI去除代码冗余,解决性能瓶颈,简化代码逻辑结构,并使用更现代的编程语言特性和库函数。这些优化不仅改变了代码的执行方式,也可能改变编译后二进制文件的特征,从而降低静态分析和启发式检测方法的成功率。
代码质量和可靠性策略着重于改善代码的错误处理和边界情况处理。通过添加更多的错误检查和异常处理代码,这种策略增加了代码的分支结构,使得恶意软件更加稳定,同时也增加了分析的复杂度。
代码重用性策略采用了模块化的思路,将大型函数拆分成多个小型函数模块。这种方法改变了程序的执行流程,使得基于控制流分析的检测方法更难识别恶意行为模式。当一个复杂的恶意操作被拆分成多个看似无害的小函数时,检测器就更难发现其真实意图。
代码安全策略专门针对加密和安全相关的操作进行修改。许多恶意软件,特别是勒索软件,都大量使用加密库进行数据加密。这种策略指导AI用替代的加密库来实现相同的功能,从而改变恶意软件的加密行为特征,使检测引擎更难识别其为恶意软件。
代码混淆策略是最直接的反检测方法。它通过重命名函数和变量为无意义的字符串,添加不必要的控制流结构,插入反调试技术等方式,使代码变得难以分析和逆向工程。这种策略还会添加一些只在极其罕见条件下才会执行的代码路径,进一步增加分析的难度。
Windows API特定变换策略专门针对Windows平台的API调用进行修改。由于许多恶意软件检测系统都依赖于对常见Windows API调用模式的识别,这种策略通过用等价的API调用或间接的包装函数来替换原始API调用,从而破坏这些基于API模式的检测机制。
三、精心设计的提示工程:教AI成为恶意软件"裁缝"
为了让大语言模型能够准确理解并执行代码变形任务,研究团队开发了一套精密的提示工程系统。这个系统就像一本详细的操作手册,不仅告诉AI要做什么,还明确规定了不能做什么。
提示系统采用了分层结构设计。首先是系统提示,它将AI定义为一个专门从事系统编程的智能编程助手,精通C、C++和C#语言以及Windows平台开发。这个角色设定为后续的代码修改任务奠定了基础。
接下来是介绍提示,它为AI提供了当前任务的具体上下文信息,包括需要修改的函数名称、相关的头文件、全局变量和类结构定义。这些信息对于AI生成语法正确且功能完整的代码至关重要。
策略提示部分根据选择的变形策略提供具体的修改指导。不同的策略会产生完全不同的提示内容,指导AI采用相应的代码变形技术。
保护规则提示是整个系统的核心安全机制。它明确要求AI必须保持代码的原始功能,不能修改全局变量和外部依赖,只能对指定的函数进行修改。这确保了生成的变种能够保持原始恶意软件的核心功能。
附加约束提示进一步细化了代码生成的格式要求。它要求AI生成完整的函数代码,不能遗留任何未完成的部分,必须将生成的代码包装在特定的代码块标签中,并且不能生成额外的自然语言解释。
四、实验设计:真实世界的恶意软件变种测试
为了验证LLMalMorph框架的有效性,研究团队精心选择了10个具有代表性的Windows恶意软件样本。这些样本涵盖了从简单的230行代码病毒到复杂的8000多行勒索软件等不同类型和复杂度的恶意软件。
选择这些样本的标准非常严格:它们必须能够编译成功能完整的可执行文件,并且在VirusTotal或Hybrid Analysis等主流反病毒检测平台上的检测率必须达到60%以上。这确保了实验的起点是真正具有威胁性的恶意软件,而不是一些无害的测试程序。
实验涉及的恶意软件类型丰富多样。Exeinfector是一个简单的病毒感染程序,代码量较小但功能完整。Fungus是一个复杂的通用恶意软件,具有反沙盒技术、USB传播能力和键盘记录功能。Dexter是一个专门针对销售终端系统的木马,能够窃取信用卡和借记卡信息。HiddenVNC是一个隐藏的远程控制工具,能够在用户不知情的情况下控制目标机器。
实验还包括了多个信息窃取软件,如Predator和Prosto-Stealer,它们能够窃取浏览器密码、加密货币钱包信息和各种应用程序的凭证。最具挑战性的是三个勒索软件样本:Conti、Babuk和RedPetya,它们代表了当前最危险的恶意软件类型。
研究团队使用Codestral-22B作为主要的大语言模型。这个模型具有220亿参数,12GB的模型大小,和32K的上下文窗口,在长距离代码补全任务上表现出色。选择这个模型是因为它能够较好地遵循复杂的提示指令,并且在代码生成方面表现稳定。
五、惊人的检测逃避效果:AI变种让反病毒软件"失明"
实验结果显示,LLMalMorph生成的恶意软件变种在逃避反病毒检测方面取得了显著成效。在VirusTotal平台的测试中,代码优化策略表现最为突出,它能够持续地降低各种恶意软件的检测率。
以Exeinfector为例,原始样本的检测率为72.009%,而通过LLMalMorph生成的变种平均检测率降低到了40.708%,相比基线降低了31.301%。最显著的效果出现在修改第4个函数之后,重用性、优化和安全策略的变种检测率都降到了30%以下,比基线低了42%以上。
对于更复杂的Fungus样本,优化策略在修改三个函数后实现了56.611%的最低检测率,而原始检测率为73.630%。值得注意的是,第三个被修改的函数位于mUsb文件中,这个函数负责操作USB驱动器创建隐藏目录并自动执行文件,是该恶意软件的核心功能之一。
在勒索软件方面,RedPetya的安全策略变种在修改第8个函数后检测率降至46.746%,比基线降低了15.75%。这个关键函数hard_reboot使用Windows API调用来调整进程权限并触发重启,这是该勒索软件在下次启动时重新获得控制权的关键持久化机制。
RansomWar样本的表现更加出色,平均检测率50.251%比基线65.728%低了15.478%,所有变种的检测率都低于基线。其中,Windows策略变种达到了28.651%的最低检测率,比基线低了37%。
Hybrid Analysis平台的结果进一步证实了这些发现。该平台结合了静态分析、机器学习和多引擎扫描,代表了更先进的检测技术。即使面对这样的检测系统,LLMalMorph生成的变种仍然显示出了良好的逃避能力。
六、机器学习分类器的攻击成功率:AI对AI的较量
除了传统的反病毒引擎测试,研究团队还评估了生成变种对机器学习恶意软件分类器的攻击成功率。他们选择了三个代表性的机器学习模型:Malconv、Malgraph和ResNet50分类器。
有趣的是,在0.1%误报率的严格阈值下,Malconv和ResNet50分类器都没有将原始的10个恶意软件样本识别为恶意软件,只有Malgraph分类器成功识别了Fungus、Dexter、Conti和Babuk四个样本。这反映了当前机器学习恶意软件检测技术在面对精心构造的恶意软件时仍然存在局限性。
对于被成功识别的四个样本,LLMalMorph生成的变种显示出了较高的攻击成功率。优化策略对Fungus样本的攻击成功率达到了88.889%,对Conti样本达到了71.429%。安全策略对Babuk样本的攻击成功率更是高达90.909%,对Dexter样本也达到了41.667%。
这些结果特别值得关注,因为研究团队在设计LLMalMorph时并没有专门针对任何机器学习分类器进行优化。这意味着仅仅通过提示工程和代码变形策略,就能够有效地欺骗基于机器学习的检测系统。
七、人工调试工作量:AI生成的代价
虽然LLMalMorph在生成有效的恶意软件变种方面表现出色,但研究团队也诚实地报告了该框架的局限性。由于大语言模型在生成复杂代码时仍然存在不完美之处,人工调试和修正工作是不可避免的。
研究团队详细量化了每种变形策略所需的人工工作量。他们使用两个指标来衡量这种工作量:代码编辑工作量(需要手动修改的代码行数)和人工调试时间(以小时为单位)。
代码优化策略虽然在检测逃避方面效果最佳,但也需要相当多的人工干预。对于Dexter样本,优化策略需要154行代码的手动修改,对于HiddenVNC样本需要85行。这主要是因为AI生成的优化代码有时会引入编译错误,需要人工修正或回退到原始函数。
Windows API特定变换策略在所有样本上都需要较高的调试工作量,这反映了大语言模型在处理复杂的Windows API调用时的局限性。AI有时会错误地使用API函数,或者生成不完整的代码块,需要人工添加必要的动态库加载代码。
安全策略同样需要大量的人工工作,特别是在集成新的加密库方面。AI虽然能够理解替换加密库的概念,但在实际实现中经常出现函数参数错误或库依赖问题,需要有经验的程序员进行调试。
八、功能保持性:变种的"灵魂"是否完整
生成能够逃避检测的恶意软件变种只是成功的一半,更重要的是确保这些变种能够保持原始恶意软件的核心功能。研究团队开发了一个功能保持性评估框架来量化这一点。
由于可执行文件的语义等价性判断本质上是一个无法完全解决的问题,研究团队采用了基于API调用序列比较的方法。他们使用最长公共子序列算法来比较原始恶意软件和变种的API调用序列,要求变种必须保持原始的API调用顺序,允许额外的API调用但不能破坏原有序列。
通过在专有沙盒环境中运行恶意软件样本,研究团队收集了详细的API调用序列数据。他们设定了0.96的归一化LCS阈值,这个阈值是通过对多个恶意软件变种的行为分析经验性确定的。
实验结果显示,不同样本的功能保持性差异很大。Exeinfector样本在VirusTotal检测中有75%的逃避变种保持了原始功能,在Hybrid Analysis中这一比例为72.222%。RedPetya样本表现最佳,功能保持率分别达到了85.714%和88.889%。
然而,一些复杂样本的功能保持性相对较低。Fungus样本只有约31.5%的逃避变种保持了原始语义,Conti勒索软件的功能保持率甚至只有19.565%。这主要是因为AI在修改关键安全钩子禁用、进程白名单和逻辑驱动器枚举等核心功能时,虽然能够通过调试确保编译成功,但生成的代码在功能上存在缺陷。
九、与现有攻击框架的比较:源代码级变形的优势
为了更好地评估LLMalMorph的实际效果,研究团队将其与现有的对抗性恶意软件生成框架Malguise进行了比较。Malguise是一个在二进制级别工作的先进框架,它通过语义NOP插入和基于调用的重分割技术来修改编译后的可执行文件。
比较结果显示,虽然LLMalMorph和Malguise采用了完全不同的技术路径,但两者在反病毒检测逃避方面的效果相当接近。在VirusTotal平台上,LLMalMorph生成的变种平均检测率比Malguise低了约3.8%。在Hybrid Analysis平台上,这一优势约为3%。
这个结果特别值得关注,因为LLMalMorph在设计时并没有针对任何特定的检测系统进行优化,而Malguise则是专门为绕过机器学习分类器而设计的。LLMalMorph能够在没有搜索算法优化的情况下达到相当的效果,说明了源代码级变形和大语言模型方法的潜力。
更重要的是,LLMalMorph生成的变种在多样性方面具有明显优势。由于大语言模型的随机性和创造性,每次生成的变种都可能采用不同的实现策略,这增加了检测系统建立有效防御的难度。
十、技术局限性与未来挑战
尽管LLMalMorph在概念验证方面取得了成功,但研究团队也坦诚地讨论了该框架的技术局限性。这些局限性不仅影响了框架的实际应用,也为未来的研究和防御工作指明了方向。
首先是大语言模型本身的局限性。当前的模型在处理复杂的多文件项目时仍然存在困难,特别是在依赖解析和项目级配置方面。这导致了较高的人工干预需求,限制了框架的自动化程度。
其次是上下文窗口的限制。虽然研究团队通过函数级提取部分解决了这个问题,但对于特别复杂的恶意软件项目,仍然可能遇到上下文不足的问题。
代码生成的质量也存在一定的不稳定性。AI有时会生成不完整的代码块,或者在理解复杂API调用时出现错误。这些问题需要有经验的程序员进行调试,增加了使用门槛。
功能保持性的评估方法也存在局限性。基于API调用序列的比较虽然能够提供一定的功能等价性指标,但不能完全保证恶意软件的所有恶意行为都得到了保持。
最后,该框架目前只支持Windows平台的C/C++恶意软件。扩展到其他操作系统和编程语言需要大量的额外开发工作。
说到底,这项研究为我们揭示了一个既令人担忧又充满启发的现实:人工智能技术正在以前所未有的方式改变网络安全的攻防格局。LLMalMorph框架的成功证明,即使是没有经过专门恶意软件生成训练的通用大语言模型,也能够通过精心设计的提示工程生成有效的恶意软件变种。
这项研究的意义不仅在于技术层面的突破,更在于它为网络安全社区敲响了警钟。传统的基于签名和启发式的反病毒检测方法在面对AI生成的变种时显得力不从心,这提醒我们需要开发更加先进和适应性更强的防御技术。
同时,这项研究也为防御方提供了宝贵的洞察。通过理解攻击者可能如何利用AI技术,安全研究人员可以更好地设计针对性的防御策略。研究中发现的不同变形策略的特点和局限性,为开发相应的检测方法提供了重要参考。
归根结底,这项工作提醒我们,在AI技术快速发展的时代,网络安全领域需要保持高度的警惕和持续的创新。只有深入理解新兴威胁的本质,才能够构建更加坚固的防御体系。有兴趣进一步了解这项研究技术细节的读者,可以通过论文链接arXiv:2507.09411v1获取完整的研究报告。
Q&A
Q1:LLMalMorph是什么?它有什么特殊能力? A:LLMalMorph是普渡大学开发的一个半自动化框架,它能够利用大语言模型来修改恶意软件的源代码,生成既保持原有恶意功能又能逃避反病毒检测的变种。通过六种不同的代码变形策略,该框架成功生成了618个恶意软件变种,平均检测率降低了10-31%。
Q2:AI生成的恶意软件变种会不会完全替代传统的攻击方式? A:目前不会完全替代,但会显著改变攻击格局。研究显示LLMalMorph仍需要大量人工调试(平均需要几十行代码修改和数小时调试时间),且只有66%的变种能保持原始功能。但这项技术确实为攻击者提供了新的工具,要求防御方必须升级检测技术。
Q3:普通用户如何防范这种AI生成的恶意软件? A:目前主流反病毒软件对这类变种的检测率仍有50-70%,基本防护措施仍然有效。用户应保持软件更新,使用行为分析型安全产品,避免运行未知来源的程序。更重要的是,安全厂商需要基于这项研究开发更先进的AI对抗检测技术。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。