“网络的出现以及随之而来的信息爆炸,让记者准确迅速地报道新闻变得越来越具有挑战性。”全球新闻机构路透社的研发团队本周在arXiv上发表的一篇论文用了这样一句开场白。
对路透社而言,假新闻的出现让问题变得更加严重,这些假新闻扭曲了事件认知。
不过,像美联社等新闻机构已经开始采用自动化的新闻写作服务。这些报道使用了标准化的模式,例如财经新闻或者特定体育比赛结果,将数据填到预先写好的模板之中:“X在第三季度的财报显示盈利为Y百万,这一数值超出了华尔街的预期……”
所以其他新闻机构在自动化新闻制作方面都面临着很大的压力。今天,路透社介绍了该社是如何几乎完全自动化地识别突发新闻报道的。刘晓莫(Xiaomo Liu,音译)以及路透社研发部门和阿里巴巴的同事表示,新系统表现良好。事实上,它有可能能够彻底革新新闻业务。但是它也引发了人们的担忧——心怀叵测的人会如何利用这样一个系统。
这个新系统被称为路透社追踪器(Reuters Tracer)。它将推特(Twitter)作为一种全球传感器加以利用,新闻事件在发生的过程中,就会在推特上有相关记录。然后该系统会使用各种数据挖掘和机器学习技术来挑选最为相关的事件,确定它们的主题,排列它们的优先级,并写出标题和摘要。这个消息随后会被分发到该公司的全球新闻专线上。
整个流程的第一步是提取推特的数据流。该追踪器每天要查看大约1200万条推特消息,占所有推特消息总数的2%。其中一半是随机抽样,另外一半来自路透社记者创建的推特账户列表。其中包含其他新闻机构的账户、重要的公司、有影响力的个人等等。
下一步是确定新闻事件发生的时间。追踪器(Tracer)是根据这样一个前提假设完成这项工作的:如果几个人同时开始谈论这件事,这个事件就已经发生了。因此它使用聚类算法来寻找这些对话。
当然,这些聚类中包括垃圾邮件、广告、普通聊天等。其中只有一部分是具有新闻价值的事件。
所以下一个阶段是对事件进行分类和排序。追踪器(Tracer)使用一些算法来完成这项工作。第一个算法确定谈话的主题。然后将它与一个主题数据库进行比较,这个主题数据库中的内容是由路透团队从31个官方新闻账户——例如@CNN、@BBCBreaking和@nytimes,以及@BreakingNews等新闻聚合器所发布的推特消息中收集的。
在这个阶段,该算法还会使用包含了城市和基于位置关键字的数据库来确定事件发生的地点。
一旦一段谈话或流言被认定为新闻,一个重要的考量就是确认其准确性。为了确定这一点,追踪器(Tracer)通过识别对话中最早提及该话题的推特消息及其指向的站点来寻找来源。然后,它会查询一个数据库,其中列出了已知的假新闻的制作者,例如国家报告(National Report),或是洋葱(The Onion)这类讽刺新闻网站。
最后,该系统会写出标题和摘要,并在路透社整个组织内分发该消息。
在试验过程中,路透社的团队表示该系统表现良好。他们表示:“追踪器(Tracer)能够在新闻检测和提交方面实现很有竞争力的准确度、召回率、时效性和准确度。”
他们有统计数据可以支持这一观点。该系统每天处理1200万条推特消息,将其中的大约百分之八十的内容作为噪声加以拒绝。其余的内容则被划分进入6000个聚类,系统用这种方式将新闻事件划分为不同的类型。所有的这一切工作全部由13台运行着10种不同算法的服务器完成。
相比之下,路透社在全球雇佣了大约2500名新闻记者,他们每天使用各种来源——包括推特——总共产生大约3000条新闻提醒。其中,大约有250条被写成了新闻报道。
路透社将追踪器(Tracer)识别出的新闻同BBC和CNN等新闻机构的推送新闻进行了比较。刘和他的同事表示,“结果表明,追踪器(Tracer)可以用2%的推特数据覆盖大约70%的新闻报道。”
而这套系统的工作当然是非常迅速的。该团队举了2017年10月份在拉斯维加斯发生的枪击案作为例证,在那次事件中,有58人丧生。一位目击者在凌晨1点22分报告了这一事件,随即触发了一个追踪器(Tracer)聚类。但是,该聚类到凌晨1点39分之前都没有达到该系统确认新闻的标准。刘和他的同事表示:“路透社在凌晨1点49分报道了这一事件。”
这是一个有趣的工作,引发了很多问题,特别是围绕着该系统是多么容易被操纵这个问题。不难想象会有心怀叵测的人设计推特消息,以欺骗追踪器(Tracer),实现特定目的。
但是这套系统是否会比现有的系统更好糊弄,恐怕还很难说,人类也经常会被各种假消息欺骗。
还有人类在新闻业中扮演的角色。新闻的未来显然会变得日益自动化。人类如何适应这种变化还未见端倪。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。