机器学习技术将利用推文内容发现高危安全漏洞。
上周于旧金山举行的 RSA 安全大会上,不少主张安全至上的供应商将各类充满营销色彩的“威胁情报”与“漏洞管理”系统一股脑地堆在用户面前。而事实证明,目前已存在的正规、免费漏洞信息源足以提醒系统管理员,哪些错误问题真正需要修复,且该来源每周七天、每天二十四小时不间断更新——这就是Twitter。一组研究人员以实验方式对 Twitter 中的 bug 数据流价值进行了评测,同时构建起一款用于追踪相关信息的免费软件,用以消除可解决的各类软件缺陷并评估其严重程度。
俄亥俄州立大学、安全厂商 FireEye 以及研究企业 Leidos 的研究人员们于最近发表了一篇论文,其中描述了一种新型系统,能够读取数百万条推文中所提及的软件安全漏洞,而后利用机器学习训练算法,对描述方式与具体内容所代表的威胁状态进行评估。他们发现,Twitter 信息不仅可用于预测接下来几天出现在国家漏洞数据库中的大多数安全漏洞(即由国家标准与技术研究所追踪的各项安全漏洞的官方登记平台),同时也能够利用自然语言处理技术,大致预测出哪些漏洞将被赋予“危险”或者“高危”严重等级,准确率超过 80%。
俄亥俄州立大学教授 Alan Ritter 指出,“我们认为安全漏洞类似于 Twitter 上的一种热门主题,它们都有着能够追踪的显著趋势性。”相关研究成果将于今年 6 月在计算语言学协会的北美分会上正式发表。
举例来说,他们目前正在网上进行的原型测试显示,上周 Twitter 曾出现大量与 MacOS 系统中最新漏洞(被称为“BuggyCow”)相关的推文,同时也提到一种可能允许页面访问的 SPOILER 攻击方法(利用英特尔芯片中存在的某深层漏洞)。研究人员们开发的 Twitter 扫描程序将二者标记为“可能高危”,截至目前,这两项漏洞都还没有被收录至国家漏洞数据库当中。
当然,他们坦言目前的原型设计方案并不完美。当下这款程序每天只能更新一次,其中包括不少重复性内容,而且通过比较我们发现其结果中错过了一些后来被国家漏洞数据库收录的条目。但 Ritter 认为,此项研究的真正进步在于,以人类语言为基础对漏洞进行自动分析,同时准确地根据其严重程度做出排序。这意味着,其有朝一日也许会成为系统管理员在保护自身系统免受侵扰时,可资利用的一款强大信息聚合器,或者至少是商业漏洞数据源中的一种必要组成部分,甚至有望成为一种前所未有的、根据重要性进行加权排序的免费漏洞信息源。而这一切,都将成为系统管理员群体的巨大福音。
他解释称,“我们希望构建起一款能够读取网络信息并提取新软件漏洞早期报告的计算机程序,同时分析用户对其潜在严重性的整体观看。结合实际来看,开发人员往往面对着这样一个现实难题——面对复杂的分析结果,哪个才代表着真正可能令人们遭受重大损失的高危漏洞?”
事实上,其背后的思维方式并非新鲜事物。多年以来,人们一直在考虑如何通过网络上的文本信息总结出软件漏洞数据,甚至早已具体到 Twitter 之上。然而,利用自然语言处理技术对推文中漏洞的严重程度进行排序,则代表着一大“重要转折”,同样关注这一问题的摩郡马里兰大学教授 Anupam Joshi 对此深表赞同。他指出,“人们越来越关注网络之上关于安全漏洞的讨论内容。人们已经意识到,我们完全可以从 Twitter 等社交平台上获取早期警告信号,此外也包括 Reddit 帖子、暗网以及博客评论等。”
在实验当中,俄亥俄州立大学、FireEye 以及 Leidos 的研究人员们最初使用到与安全漏洞相关的 6000 条推文评论这一子集。他们向 Amazon Mechanical Turk 的工作人员展示了相关结果,即以人为方式按严重程度对其进行排序,而后过滤掉那些与大多数其他读者完全对立的异常结果。
接下来,研究人员利用这些经过标记的推文作为机器学习引擎的训练数据,并进一步测试其预测结果。着眼于接下来五天之内可能被纳入国家漏洞数据库的各项安全漏洞,该程序得以利用此数据库中的原有严重性排名,来预测此时段内的 100 项最严重漏洞,且准确率达到 78%。对于前 50 位,其对漏洞严重程度的预测则更为准确,正确率达到 86%。更重要的是,对于接下来五天内被国家漏洞数据库评为严重程度最高的 10 个安全漏洞,该程序的预测准确率高达 100%。
俄亥俄州立大学的 Ritter 警告称,尽管目前的测试结果非常喜人,但他们打造的这款自动化工具不应被任何个人或组织作为唯一漏洞数据源使用——至少,人们应该点击底层推文及其链接信息以确认分析结果。他指出,“其仍然需要人类介入进来。”在他看来,最好是能将这款程序纳入由人类负责规划的广泛漏洞数据源当中,并仅作为来源之一。
但鉴于漏洞发现速度的加快,以及社交媒体上与漏洞相关的信息不断增加,Ritter 认为这款程序有望成为从噪声中找寻有价值信号的一款重要工具。他总结道,“如今的安全行业面临着信息过多的问题。这款程序的核心在于建立算法,帮助大家对全部内容进行排序,从而找出真正重要的信息。”
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。