
这项由卢森堡计算机事件响应中心(CIRCL)开展的研究,以预印本形式发布于2026年4月17日,arXiv编号为2604.16038,研究日期标注为2025年11月5日。有兴趣深入了解的读者可通过arXiv编号2604.16038查询完整论文。
一、安全世界里的"天气预报"难题
每天,互联网上都在发生数以百计的软件漏洞被公开、被讨论、被利用的事件。对于网络安全工作者来说,最头疼的问题不是漏洞多,而是不知道哪个漏洞会在什么时候突然爆发成大规模攻击。这就好比气象局不仅要知道今天有多少朵云,还要预判哪朵云会在三天后变成暴风雨。
卢森堡计算机事件响应中心的研究团队正在做的,就是这样一种"网络安全天气预报"的工作。他们的研究目标是预测"漏洞目击事件"——也就是某个软件漏洞被外界注意到、被讨论到、甚至被实际攻击利用的可见信号——未来几天会出现多少次。这些信号包括:有人在网上发布了针对某漏洞的攻击演示代码(通称PoC,即概念验证代码)、安全扫描工具新增了对该漏洞的检测模板、或者有人在去中心化社交平台Fediverse上讨论了这个漏洞。
研究团队在此前已经开发了一个名为VLAI的人工智能模型。VLAI基于RoBERTa这种语言理解技术,能够仅凭漏洞的文字描述就预测出该漏洞的严重程度评分,训练数据超过60万条真实漏洞记录。这次新的研究,就是在VLAI的基础上更进一步:把严重程度评分当作一个参考变量,尝试用多种统计和概率模型来预测漏洞目击事件的数量走势。
核心挑战在于数据的两个特性:稀疏性和爆发性。大多数漏洞在大多数时间里几乎没有任何目击记录,只有零星的一两条,然后在某个特定时刻,可能因为一段攻击代码的发布或一篇热门文章的传播,目击数量突然飙升,随后又迅速沉寂。这种模式就像沙漠里偶尔出现的暴雨——平时滴雨不落,爆发时汪洋一片,任何依赖"平稳趋势"的预测工具都会在这里碰壁。
二、第一把钥匙试错了:SARIMAX模型的困境
研究团队首先尝试了统计学领域最经典的时间序列预测工具之一——SARIMAX模型。可以把SARIMAX理解成一种"历史规律外推机":它通过分析过去一段时间的数据走势,找出其中的自相关规律、季节性周期和外部因素的影响,然后顺着这条规律线向未来延伸,预测接下来会发生什么。
研究团队首先尝试了带有季节性成分的完整SARIMAX版本,并对每日目击数量做了对数变换处理——这是一种常见的数学技巧,可以把那些偶尔出现的极大值"压缩"得更平稳,避免模型被个别峰值带偏。然而结果令人沮丧:模型给出的预测有时出现了负数(漏洞目击数量怎么可能是负数?),置信区间宽得像海湾一样,涵盖了从接近零到几十甚至几百的整个范围,根本毫无参考价值。
这个失败其实在意料之中。SARIMAX天生就假设你的数据是"比较平滑的",有一定的自相关性和可辨认的周期结构。但漏洞目击数据完全不符合这些假设——大部分时间是零,偶尔出现的几个峰值完全是随机的、事件驱动的。SARIMAX面对这样的数据,就像让一位擅长预测海浪的气象学家去预测沙漠暴风雨一样,工具和场景根本不匹配。
研究团队随后简化了方案,去掉季节性成分,只保留基本的自回归结构,并引入了VLAI严重程度评分作为外生变量(一种"辅助参考因素")。具体做法是:把每天的漏洞目击总数加一后取对数作为预测目标,把每天的VLAI评分作为辅助输入(由于漏洞公开后评分几乎不变,所以在预测阶段使用近期平均评分作为未来值)。这样做的逻辑是:严重程度越高的漏洞,是否会吸引更多的目光和讨论?
结果有所改善,但本质问题依然存在。当训练数据只有10到15天时,SARIMAX依然容易过拟合——也就是被训练数据中的某个突然峰值"吓到",然后预测后续会出现急剧下跌甚至负值。研究人员发现,SARIMAX想要稳定运作,通常需要50到100个观测数据点。对于大多数漏洞来说,积累50天以上的目击数据本身就是一件奢侈的事情。关于VLAI评分作为辅助变量的效果,结论也不乐观——因为严重程度评分一旦公布就基本保持不变,几乎没有随时间变化的信息,模型很难从中学到有用的东西。
值得一提的是,SARIMAX并非一无是处。研究团队引用了另一项研究(Vuln4Cast)的经验,指出当面对的是"整体漏洞数量的宏观趋势"而非"单个漏洞的微观动态"时,SARIMAX是可以发挥作用的。换句话说,当数据量足够大、时间序列足够长,这把钥匙仍然能开某些门,只是不适合眼前这扇门。
三、第二把钥匙更合适:泊松回归的登场
既然SARIMAX在稀疏计数数据面前频繁失手,研究团队转向了一种更符合数据本质的方法——泊松回归。
泊松回归的设计初衷就是处理"计数数据",也就是那些只能是非负整数的量:0次、1次、2次……永远不可能是-3次或0.7次。这就像预测一天内某个路口发生多少起交通事故,或者一小时内某个服务器收到多少条请求。漏洞目击数量天然就是这种数据,泊松回归对它来说像是量身定做的衣服。
该模型的另一个优势是可以自然地纳入协变量——比如漏洞公开后经过了多少天、VLAI评分是多少——来帮助解释目击数量为何高或低。而且由于泊松回归预测的是一个概率分布的均值,输出结果天然是非负数,不会出现SARIMAX那种荒谬的负值预测。
研究团队把这种方法应用到了每月漏洞报告中目击数量最多的那些高关注漏洞上,观察到了比ARIMA系列方法更合理的预测结果。预测值保持在非负范围内,趋势判断也更贴近实际观测。不过泊松回归也有自己的局限:它同样依赖足够的数据,在数据极度稀疏时会出现"欠分散"(方差比均值小)或"过分散"(方差比均值大)的情况,而标准泊松模型假设方差等于均值,这个假设在现实中经常被违反。当出现过分散时,需要改用"负二项回归"这个升级版本来处理。
研究团队还观察到泊松回归的一个有趣缺点:当漏洞目击数量突然急剧下降时,泊松模型往往反应迟钝,预测曲线仍然保持着上升或平稳的势头,未能及时捕捉到这种急转直下的信号。这个现象在CVE-2025-59287的实验中尤为明显——当截取2025年11月1日之前的数据来模拟"未来预测"时,模型的预测增长幅度比实际情况要强得多,最终高估了后续的目击数量。
四、两把备用钥匙:指数衰减与逻辑增长
面对复杂的统计模型在短数据面前频频碰壁的现实,研究团队探索了两种更简洁、更直觉化的数学工具。
第一种是指数衰减模型。这个模型的逻辑非常符合直觉:漏洞被公开后,最初会引发大量关注和讨论,然后随着时间推移,热度慢慢消退,目击数量呈现出类似放射性衰变的曲线——起点高,然后以一定速率持续减少,最终趋向某个较低的基础水平。用一个生活中的类比来说,就像一首新歌刚发布时播放量暴增,然后逐渐回落到日常水准。数学上,这个曲线由三个参数决定:初始幅度、衰减速率,以及最终趋近的基础水平。这种模型特别适合那些"已经过了爆发高峰期"的漏洞,对于仍在上升阶段的漏洞则不太适用。
第二种是逻辑增长模型,俗称S型曲线。这个模型描述的是另一种典型模式:漏洞刚被公开时,目击数量从零开始缓慢增加,然后在某个时间点突然加速,像滚雪球一样快速攀升,最后到达一个上限后趋于平稳。这个模式捕捉的是"爆发-平稳"的动态,特别适合刚刚发布或正在成为热点的漏洞。逻辑模型有三个关键参数:最终能达到的目击数量上限L、增长速率k,以及增长最快的那一天t?(专业术语叫"拐点")。
在CVE-2025-61932的实验中,研究团队展示了一个很有说服力的测试:用截止到2025年11月1日的数据来训练逻辑模型,然后预测此后的目击数量。对比实际发生的数据,预测结果相当合理——虽然不能精确命中每一天的数字,但整体趋势判断是正确的,预测的目击数量维持在低位稳定状态,与实际情况基本吻合。
五、最聪明的策略:让模型自己选择自己
研究团队提出了一个颇具实用智慧的自适应方案。既然指数衰减适合"正在下降的漏洞",而逻辑增长适合"正在上升的漏洞",何不让系统自动判断当前漏洞处于哪个阶段,然后自动选择合适的模型?
具体做法是分析近期目击数量的线性斜率——也就是最近几天的数据趋势是上升还是下降。如果斜率为正(目击数量在增加),就选用逻辑增长模型;如果斜率为负(目击数量在下降),就选用指数衰减模型。选定模型后,再通过曲线拟合估计具体参数,最后向未来10天延伸做出预测。
在CVE-2025-59287的实验中,这个自适应策略的表现令人满意。当研究团队用截至2025年11月1日的数据测试时,泊松回归预测漏洞目击数量将继续上升,但自适应策略识别出了下降趋势,正确地切换到指数衰减模型,给出了更贴近真实情况的预测。这种"因地制宜"的思路,比盲目坚持某一种模型要灵活得多。
六、三个真实漏洞的实地检验
研究团队选取了三个真实漏洞来验证上述所有方法的实际表现,选择依据是多样性:既有近期新出现的漏洞,也有已经被持续跟踪多年的老漏洞。
CVE-2025-61932是一个2025年10月才被公开的漏洞。从目击记录来看,它呈现出典型的爆发-衰减模式:在公开后的最初几天里出现了若干次数达十几次的目击高峰,随后逐渐回落到每天两三次的水平。SARIMAX模型在这个案例上展现出了所有典型问题——预测线基本贴着零轴蜿蜒,置信区间像喇叭口一样越来越宽,完全没有实用价值。相比之下,泊松回归和指数衰减模型都给出了基本合理的预测:预测曲线从历史数据的尾部开始,呈现出缓慢下降趋向低位稳定的形态,与实际观察到的趋势相符。
CVE-2025-59287则是一个在2025年10月中旬公开、目击记录更加丰富的漏洞。它最引人注目的特征是一个极端的单日峰值:某一天的目击数量突然飙升到超过50次,之后又迅速回落。SARIMAX面对这个数据集依然一败涂地,置信区间宽达几百次,完全无法给出有意义的预测范围。泊松回归在这个案例上表现相对较好,能够拟合出整体的趋势走势,但在试图预测"未来某段时间"时,因为无法感知到即将到来的下降趋势,最终高估了后续的目击数量。自适应策略在这里做出了正确判断,选择了指数衰减模型,给出的预测比泊松回归更接近实际情况。
CVE-2022-26134是一个来自2022年的老漏洞,因为长期被攻击者利用而在Shadowserver等扫描数据源中积累了超过三年的目击记录。这个案例的数据特点完全不同:目击数量每天基本保持在1次左右,偶尔在2024年底和2025年出现一些小幅波动,但整体非常平稳。对于这种长期、低强度、持续被监测的漏洞,逻辑模型表现出了令人惊喜的稳健性——它基本上不被近期的小幅波动所干扰,预测线稳定地延续了历史的平稳走势。泊松回归在这个案例中使用了周度聚合数据(把每周的目击数量加总),同样给出了相对合理的结果,但指数衰减模型在这里则不太适用,因为数据根本没有明显的衰减趋势。
七、研究团队给出的实操建议
基于上述所有实验的得与失,研究团队提炼出了一套面向实际操作的建议。
他们强调,数据质量和数量是一切预测的前提。在数据极度稀疏的情况下,连泊松模型也会力不从心,因此应当尽可能把来自多个渠道的目击数据整合在一起——漏洞利用数据库、Fediverse上的讨论、扫描工具的检测记录等等——来丰富每个漏洞的数据积累。对于那些刚刚公开、数据点只有十来个的新漏洞,简单的滚动平均或者指数衰减模型往往比SARIMAX这类复杂模型更可靠。
在数据预处理方面,需要特别警惕极端值和数据质量问题:某天突然出现几十次目击,可能是真实的爆发,也可能是数据重复上报或收集系统故障。对于这类异常值,可以采用对数变换(即前述的log(x+1)技巧)或者数值截断的方式降低其对模型的干扰。如果模型开始给出负值预测,这是一个清晰的警告信号,提示你应该切换到泊松等非负计数模型。
关于SARIMAX的使用场景,研究团队明确建议:把它保留给那些能够积累数月乃至数年观测数据的漏洞,比如从Shadowserver等持续扫描项目中获取到长期记录的已知高危漏洞。对于这类长期数据充足的场景,SARIMAX可以施展其真正的实力。
八、未来还想做什么
研究团队在论文末尾展望了几个方向,值得一提。
他们计划在实际的漏洞情报系统(Vulnerability-Lookup)中部署一个实时更新的预测模块,使预测结果能够随着每天新到达的目击数据自动调整,而不是像目前这样做离线的批量分析。他们还希望引入异常检测能力,当某天的目击数量出现不寻常的突然变化时,系统能够自动识别并据此选择或切换预测模型。
另一个重要的改进方向是对不同类型的目击记录进行区分处理。目前所有目击都被等同对待,但"只是有人提到了这个漏洞"和"这个漏洞被确认正在被实际利用"显然有着本质的不同。研究团队希望把目击类型(看见、确认、已被利用等)和VLAI严重程度评分结合起来,建立更精细的预测模型,最终能够估计某个漏洞从"被讨论"演变为"被大规模利用"的可能性和时间窗口。
说到底,这项研究的核心贡献在于诚实地面对了一个被很多人回避的现实:网络安全领域的数据往往又少又乱,而我们又偏偏需要在数据最少的时候(漏洞刚公开的那几天)做出最关键的判断。通过系统地测试和对比多种预测方法,研究团队不仅为同类研究提供了一份详细的"踩坑地图",也为实际操作中的安全分析师给出了具体可行的建议:别迷信复杂模型,先从简单方法入手,根据数据的实际情况灵活切换策略。在数据贫瘠的荒漠里,最聪明的导航工具往往是最朴素的那一个。对于那些在企业或机构中负责漏洞优先级管理的安全团队来说,这种"知道什么模型在什么条件下会失效"的清醒认知,本身就是一种宝贵的实用知识。感兴趣的读者可以通过arXiv编号2604.16038查阅完整论文,研究代码也已在GitHub上以特定提交版本开放。
Q&A
Q1:漏洞目击事件预测为什么这么难?
A:漏洞目击数据有两个让预测极度困难的特性:稀疏性和爆发性。大多数漏洞在大多数时间里几乎没有目击记录,数据全是零,但偶尔会因为一段攻击代码发布或一篇热门文章,目击数量突然在某一天飙升几十倍,然后又迅速归零。这种模式完全违反了经典预测模型(如SARIMAX)对数据"平稳性"和"周期性"的基本假设,因此那些在经济预测等领域表现优秀的工具,在这里会严重失效。
Q2:VLAI严重程度评分在漏洞目击预测中起到了什么作用?
A:VLAI是一个基于RoBERTa语言模型的人工智能工具,能从漏洞的文字描述中自动预测严重程度评分。研究团队尝试把这个评分作为"辅助因素"纳入SARIMAX预测模型,理论上严重程度越高的漏洞应该吸引更多关注。但实际效果有限,原因是漏洞公开后VLAI评分几乎不再变化,缺乏随时间波动的信息,模型难以从中学到有预测价值的内容。
Q3:指数衰减和逻辑增长模型分别适合什么情况?
A:指数衰减模型适合已经过了关注高峰、目击数量正在持续下降的漏洞,它描述的是"热度消退"的过程。逻辑增长模型(S型曲线)则适合刚刚公开或正在成为热点的漏洞,它能捕捉"从无到有、快速爆发、然后趋于平稳"的典型传播模式。研究团队还提出了一种自适应策略:通过分析近期数据的上升或下降趋势,自动选择更合适的那个模型。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。