微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 双向语言模型是更好的知识记忆者?WikiDYK成为大语言模型知识注入的全新标准

双向语言模型是更好的知识记忆者?WikiDYK成为大语言模型知识注入的全新标准

2025-05-23 15:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 15:32 科技行者

近日,来自加州大学圣地亚哥分校、腾讯AI实验室西雅图、华盛顿大学和思科公司的研究团队发表了一项开创性研究,探索了大语言模型(LLMs)的知识记忆能力。该研究题为"Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection"(双向语言模型是更好的知识记忆者?真实世界知识注入的基准评估),已于2025年5月发布在arXiv预印本平台上(arXiv:2505.12306v1)。这项研究不仅揭示了现有大语言模型架构在记忆新知识方面的重要差异,还开发了一个名为WikiDYK的新型基准测试,为语言模型的知识注入研究提供了更为严谨的评估标准。

当我们使用ChatGPT或其他大语言模型时,常常会遇到这样的问题:它们对某些事实知之甚详,而对另一些却一无所知,特别是对于近期发生的事件。这是因为这些模型在训练后的知识就被"冻结"了,像拍了一张世界的快照。研究人员一直在试图解决这个问题,寻找有效的方法让语言模型"学习"新知识。但是,要评估这些方法的效果,我们需要有一个标准的"考试",而过去的"考试"往往不够真实或不够全面。

想象一下,如果有人告诉你"巴黎是法国的首都",然后问你"法国的首都是什么?"这是一个直接的记忆测试。但如果问你"欧洲西部那个著名的浪漫之都是哪个国家的首都?"这就需要你不仅记住事实,还能理解上下文和关联信息。这正是研究团队所面临的挑战。

研究团队创建了一个名为WikiDYK的基准测试,它基于维基百科的"你知道吗?"板块,这个板块每天都由专业编辑精心挑选约10条最新添加的有趣事实。例如,"你知道吗?山狮在洛杉矶的圣莫尼卡山脉是仅有的两个生活在大都市中的野生大型猫科动物之一。"这些事实经过严格审核,确保其真实性和清晰度。

研究人员收集了从2022年1月到2025年4月的12,290条事实,并为每条事实创建了多种形式的问题,总计77,180个问题。这些问题涵盖了从简单的完形填空到复杂的多跳推理问题,全面测试模型对新知识的掌握程度。最重要的是,由于维基百科每天都会更新,这个基准测试可以持续自动扩展,无需人工干预。

在进行了大量实验后,研究团队发现了一个出人意料的结果:目前主流的因果语言模型(CLMs,如Llama、Qwen等)在记忆新知识方面的能力明显弱于双向语言模型(BiLMs,如T5、RoBERTa等)。具体来说,双向模型在可靠性指标上的准确率比因果模型高出约23%。

这就像两个学生在学习新知识时,一个只能从头到尾阅读一遍书(因果模型),而另一个可以自由地前后翻阅、建立联系(双向模型)。显然,第二种学习方式更有利于记忆和理解新信息。

基于这一发现,研究团队提出了一个创新的协作框架,将双向语言模型作为外部知识库与大型语言模型集成。这有点像给一个博学但记忆固定的专家配备了一个不断更新的专业助手团队。实验表明,这种框架可以将模型在可靠性方面的准确率提高29.1%。

接下来,让我们深入了解这项研究的细节,看看它如何改变我们对语言模型知识获取能力的认识,以及这对未来AI技术的发展意味着什么。

一、为什么需要新的知识注入基准测试?

大语言模型(LLMs)在预训练阶段获取了大量知识,就像一个学生在学校里学习各种科目。这些模型能够回忆事实、推理信息并生成连贯的文本,无需额外指导。因此,它们常被视为静态知识库——能够基于训练时所见内容回答事实性问题。

然而,这里存在一个根本性问题:这些模型能否真正记住并内化预训练后的新知识?想象一下,如果一个学生毕业后无法学习新知识,那将多么局限。

现有研究表明,有效更新语言模型内部知识面临重大挑战。就像一个人很难在已经塞满的大脑中挤入新信息一样,模型也面临着"记住新知识同时不忘记旧知识"的困境。但这些发现主要基于由嘈杂的维基百科快照派生的合成数据集,这些知识可能缺乏现实世界的重要性和内在复杂性。

更糟糕的是,使用合成问题进行评估常常缺乏明确定义的上下文。想象一下,如果有人突然问你"y的值是多少?"但没有提供任何背景,你会感到困惑。同样,这种模糊的问题也难以准确反映模型的表现。

研究团队通过构建一个新型大规模高质量基准测试——WikiDYK——来扩展先前的知识注入研究。这个基准测试源自一个自然的、专家策划的、不断更新的知识来源:维基百科的"你知道吗?"页面。

这些页面通过每日更新的事实展示了维基百科的持续增长和领域多样性。每天,大约10个事实从最近扩展的文章中被添加到列表中,这些文章很可能不存在于模型的预训练数据中,同时它们都遵循维基百科最重要的内容政策(如可验证性)。比如:"洛杉矶圣莫尼卡山脉的山狮是仅有的两个生活在大都市中的野生大猫的例子之一。"

WikiDYK利用这种结构化、人工驱动的过程来确保新知识的新颖性和质量,提供了一个独特资源,用于评估语言模型中知识注入的效果,超越了合成数据集构建的局限。

二、WikiDYK基准测试的构建方法

在WikiDYK的"你知道吗?"网页上,每天约有10个事实从最近创建的新文章或大幅扩展的现有文章中被选出。事实中的粗体实体(如"Gold Digger")链接到介绍新知识的原始文章。研究团队抓取了这些原始文本和附带的维基百科文章,并进行额外清理。为确保知识是最新的并与LLM知识截止日期保持一致,他们只收集了2022年1月至2025年4月期间的页面,总共12,290条事实。

为了全面评估知识记忆和关联能力,研究团队设计了多维度评估,包括五种不同类型的问题:

1. 可靠性(Reliability)问题:直接测试粗体实体的回忆能力,通过从原始事实的非粗体上下文构建问题。例如,对于粗体的"Gold Digger",问题可能是"Kanye West最初为哪首歌从女性视角写了副歌?"

2. 通用性(Generality)问题:从同一事实的非粗体组件中提取答案。例如,从"女性视角"推断"female",测试模型是否能准确回忆知识。

3. 改述(Paraphrase)问题:使用语法重新表述或词汇替换的原始事实版本。例如,从"originally wrote"变为"initially penned"。

4. 本地性(Locality)问题:评估注入新知识后预训练知识的保留情况,防止灾难性遗忘。具体来说,基于事实中非粗体实体的描述生成问题。

5. 可移植性(Portability)问题:需要在注入知识(如"副歌从女性视角写成")和预训练知识(如"开创性艺术家...实验性节拍")之间进行多跳推理。

为了保证未来扩展的便利性,所有评估问题都通过一种轻量级的基于提示的方法生成,该方法仅使用事实知识和相应的维基百科文章。这就像是设计了一个可以不断更新的考试题库,随着维基百科的更新而自动扩充。

三、惊人发现:双向语言模型竟然更擅长记忆知识?

在进行了大量比较实验后,研究团队发现了一个令人惊讶的现象:尽管在现代LLMs中占主导地位,因果语言模型(CLMs)展示出明显较弱的知识记忆能力,与双向语言模型(BiLMs)相比,其可靠性准确率低约23%。

这就像是比较两种阅读方法:一种只能从头到尾一次性阅读一本书(CLMs),另一种可以自由地在书中前后翻阅,建立不同段落之间的联系(BiLMs)。显然,第二种方法更有利于理解和记忆知识。

研究团队尝试了三种不同的训练目标来注入知识:

1. 下一个词预测(NTP):继续在原始文本知识上预训练LLM,最大化下一个词的对数似然。这就像让模型重复阅读一段文字,试图预测下一个词应该是什么。

2. 合成问答训练(QA):使用GPT-4.1-mini将事实知识转换为各种可能形式的问题,然后训练LLMs根据问题预测答案。这类似于通过问答卡片来学习知识。

3. 跨度预测(SP):对CLMs提出一种新的训练任务,模仿BiLMs的训练目标。具体来说,格式化每个输入为掩码预测提示:"预测以下句子中被掩盖的词:{输入字符串}\n被掩盖的词:\n",其中输入字符串是一个被破坏的文本,目标是恢复它的跨度。

同时,对于BiLMs,研究者采用了T5中的跨度预测目标,并设计了一种穷尽性掩码策略,以提高采样效率。

实验结果令人惊讶:即使是较小规模的BiLMs(如Flan-T5-770M)也显著优于最新的大型CLMs(如Llama-3.1-8B)在记忆知识方面的表现。例如,在可靠性方面,Flan-T5-770M达到了46.09%的匹配准确率,这表明该模型能够正确记忆近一半的知识。

更令人惊讶的是,即使在控制了训练目标和训练量之后,双向模型仍然显著优于因果模型。研究者将这种差异归因于CLMs在训练期间的上下文可见性降低,这阻碍了它们有效编码事实知识的能力。

这就像是学习新知识时,能够看到全文并理解上下文联系的学生(BiLMs)比只能一次看一个词的学生(CLMs)学习效果更好。双向注意力机制使模型能够更好地理解和记忆复杂的知识结构。

四、集成框架:让BiLMs为大语言模型提供知识支持

注入无限量的新知识将不可避免地降低效果并导致灾难性遗忘,就像一个人试图在短时间内记住太多新信息最终会混淆或忘记之前学过的内容。

为了解决这个问题,研究团队提出了一个模块化协作框架,将多个BiLMs作为外部知识库与LLMs协调工作。这就像给一个广博但固定知识的专家配备了一个由专业助手组成的团队,每个助手负责不同领域的最新信息。

这个框架通过两种互补的分区策略组织外部知识:

1. 语义聚类:使用高斯混合模型(GMM)基于密集语义嵌入将事实分组到集群中。这就像是按主题对新知识进行分类。

2. 时间聚类:利用事实时间戳按时间顺序划分知识。这类似于按时间线组织信息。

为确保路由的准确性,研究团队训练了一个范围分类器,用于区分内部集群(类间分离)和范围外查询。该分类器使用二元交叉熵损失进行优化,对所有范围外训练实例分配统一标签0。负面训练示例来自2004年至2009年之间的事实。

每个集群由一个专用BiLM内化,形成一个模块化知识库。在推理过程中,查询要么被路由到最相关的BiLM,要么如果被范围分类器判定为范围外,则转至基本LLM。

这种设计确保LLM的原始知识保持完整,同时注入的知识通过BiLM集成自适应使用,有效缓解了灾难性遗忘。该框架因此能够协同整合预训练和外部知识,同时不影响LLM的基础能力。

实验表明,这种集成方法能够将可靠性匹配准确率进一步提高29.1%,充分展示了模块化方法在处理不断增长的知识需求方面的潜力。

五、实验结果与分析

研究团队对三个模型家族(Llama-2/3、Qwen2.5和Gemma3)进行了全面比较,使用不同规模的模型和不同的训练目标。实验结果揭示了几个关键发现:

1. 下一个词预测(NTP)不适合知识注入:使用NTP训练后,前四种类型问题的匹配准确率大多低于1%,甚至低于静态分析中的基线结果。更令人担忧的是,这种方法会导致灾难性遗忘,例如Llama-2-7b的本地性匹配准确率下降了25.62%。

2. BiLMs明显更有效:尽管规模较小(220M对于基础版本,770M对于大型版本),Flan-T5模型表现出比CLMs更强的效果。例如,Flan-T5-770M在可靠性方面达到了46.09%的匹配准确率,表明模型能够正确记忆近一半的知识。

3. BiLMs的效果可能来自架构而非训练目标:在控制训练目标的实验中,BiLMs仍然显著优于CLMs,即使使用相同的训练目标和相同数量的训练样本。这直接表明BiLMs的性能优势可能与架构优势有关。

4. 集成管道可以进一步提高性能:实验结果表明,将10个Flan-T5模型集成在一起,未识别的问题由Llama-3.1-8B回答,可以进一步提高性能。例如,对于Flan-T5-220M,可靠性匹配准确率提高了29.1%;对于大型版本提高了6.73%。此外,两个版本的Flan-T5在本地性方面的匹配准确率都显著提高。

5. 知识关联方面的改进较少:所有模型和训练目标在可移植性问题上的改进都不如其他类型的问题明显。这一现象也在其他研究中被观察到,例如Xu等人发现持续预训练可靠地回忆编辑的三元组但在派生关联查询上失败,Zhong等人发现准确率从单跳回忆的近90%下降到两跳关联的15%以下。

研究团队还分析了注入知识数量的影响。随着训练数据从100逐渐增加到3500,Gemma-3-1B和Llama-3.2-1B的可靠性和改述性能急剧下降,而Flan-T5模型的性能保持相对稳定。但是,注入完整数据集后,特别是Flan-T5-220M的性能显著下降,表明其容量限制。

关于上采样数量的影响,研究者通过训练前1000个知识条目并增加上采样次数进行了控制实验。结果表明,除了Flan-T5-220M的可移植性性能(保持在5-15%之间)外,前四种问题类型的性能随着上采样的增加而进一步提高。例如,改述匹配准确率最多提高15%。然而,在6000次上采样后,大多数问题类型的性能趋于饱和。

最后,研究团队对聚类算法和范围分类器质量进行了消融研究。结果表明,语义聚类始终优于时间聚类,而且语义聚类的性能随着集群数量的增加而提高,而时间聚类则相反。通过在集成管道中使用真实分类器,研究者消融了范围分类器的影响,发现"Temporal-perfect"与"semantic-perfect"表现相似,表明主要是分类器影响了时间聚类的性能。

六、案例研究与实际应用

为了更直观地理解研究成果,让我们看一些实际案例。研究团队展示了使用Flan-T5-770M(在完整数据集上训练,上采样s=3,000)的模型预测结果。

例如,当被问到"谁是天主教会中一位国际知名的信仰治疗演讲者,他在2014年休假期间才对这个主题产生兴趣?",模型正确回答了"Mary Healy"。即使问题与原始事实在词汇上的相似性较低,预测的答案仍能与事实匹配,特别是第三个例子,它展示了一个可移植性问题,模型仍然给出了正确答案"Jack Berry"。

不过,研究团队也观察到了一些错误匹配的情况。例如,当被问到"华盛顿州304号公路被意外移除多长时间?"时,模型回答"three years",而正确答案应为"two years"。这表明即使是表现良好的模型也可能产生幻觉预测。

这些案例研究表明,尽管研究取得了重要进展,但知识注入仍面临挑战,特别是在处理细节和数字信息方面。

从实际应用角度看,这项研究的发现对AI系统的设计有重要启示。首先,它表明在需要不断更新知识的场景中,采用双向语言模型可能比因果语言模型更有效。这对于需要最新信息的应用(如新闻摘要、实时信息检索系统等)尤为重要。

其次,模块化协作框架为解决大语言模型知识更新问题提供了一个可行方案。通过将专业知识划分到不同的BiLM模块中,系统可以更高效地整合新知识,同时避免灾难性遗忘。这种方法特别适用于需要在多个领域保持最新知识的综合系统。

最后,WikiDYK基准测试本身也是一个重要贡献,为未来的知识注入研究提供了一个标准化、高质量的评估平台。由于它基于维基百科的持续更新,研究人员可以使用它来评估模型随时间推移适应新知识的能力。

七、结论与未来展望

这项研究为大语言模型的知识注入领域带来了两个重要贡献:首先,创建了WikiDYK,一个基于真实世界、大规模的基准测试,可以随时间自主演化;其次,揭示了双向语言模型在知识记忆方面优于因果语言模型的现象,并提出了一种有效的模块化框架来整合这两种模型的优势。

从根本上说,这项研究提出了一个有趣的问题:我们是否应该重新审视双向语言模型在知识密集型任务中的价值?虽然因果语言模型凭借其低延迟生成和简单架构设计成为LLM架构的主流选择,但研究结果表明,当配合填空型目标时,双向注意力能够使模型通过同时利用过去和未来上下文来捕获更丰富的词元间依赖关系。

研究发现双向架构在需要密集知识整合的场景中表现出色,例如实体消歧、事实推理或结构化数据理解。然而,这些结果并不否定因果模型在生成任务中的优势,而是强调了混合架构的机会。未来的工作可能探索自适应切换双向和单向模式的动态注意机制,或者模块化设计,其中专门的双向组件处理知识密集型子任务。

最终,这项研究不仅提供了关于语言模型架构的技术见解,还为构建能够有效管理不断增长知识的AI系统铺平了道路。通过结合不同模型的优势,研究人员可以开发出既能保留预训练知识的丰富性,又能适应新兴信息的系统,从而创建真正可持续的人工智能解决方案。

对于普通用户来说,这意味着未来的AI助手可能会更加灵活,能够更好地融合最新信息,同时保持其广泛的知识基础。而对于开发者,这项研究提供了一个可行的框架,使他们能够构建更加动态和适应性强的AI系统,特别是在知识密集型应用中。

随着研究的进展,我们可以期待更多针对BiLMs和CLMs协同工作方式的探索,以及更高效的知识注入方法的开发。这项工作为AI系统的持续学习和适应能力开辟了新的可能性,将我们引向更加智能和实用的人工智能未来。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-