这项由斯坦福大学、特拉维夫大学和麦吉尔大学联合开展的突破性研究发表于2025年3月,研究团队包括Daniela Gottesman、Alon Gilae-Dotan、Ido Cohen等多位研究者。有兴趣深入了解的读者可以通过论文链接huggingface.co/LMEnt和github.com/LMEnt访问完整的研究资源和代码。
想象一下,你正在观察一个学生如何从教科书中学习知识。传统上,我们只能看到学生最终掌握了什么,却无法追踪他在阅读每一页、每一段时具体学到了什么。现在,研究团队就像给这个学习过程装上了"监控摄像头",能够精确追踪AI语言模型在训练过程中的每一个学习瞬间。
这项研究的核心在于解决一个长期困扰科学家的难题:我们知道大型语言模型能够回答各种问题,展现出丰富的世界知识,但它们究竟是如何从海量的训练文本中获得这些知识的?就好比我们知道一个人很博学,但不知道他具体从哪本书的哪一页学到了什么。
研究团队创建了一个名为LMEnt的完整研究套件,这就像为语言模型的学习过程建立了一个"全程录像系统"。这个系统包含三个核心组件,每个组件都像精密仪器一样发挥着独特作用。
**一、给维基百科装上"身份识别器"**
研究的第一步是对维基百科进行前所未有的精细标注。传统的文本处理就像用粗糙的网筛过滤信息,而研究团队使用的方法更像是用高精度的显微镜逐个识别每个实体。
他们为维基百科中的每个实体都分配了独特的"身份证号"——Wikidata的QID编码。这样做的好处是什么呢?假如你要搜索关于"Buffalo"的信息,传统方法可能会混淆地把布法罗市、布法罗比尔队和布法罗动物的信息都找出来,就像在图书馆里搜书时把三个不同主题的书籍都拿了出来。而LMEnt的方法就像给每本书都贴上了精确的分类标签,确保搜索"布法罗比尔队"时绝不会意外获得关于城市或动物的信息。
为了实现这种精确识别,研究团队采用了三种互补的方法。首先是直接提取维基百科现有的超链接,这就像利用文章中已有的"参考文献"标注。接着使用实体链接技术,这类似于让AI助手阅读文本并识别其中提到的人物、地点和事物。最后采用共指消解技术,这就像教AI理解代词和描述性短语的指向——当文章说"这支球队"时,AI知道它指的是前面提到的"布法罗比尔队"。
这种三重保障机制的威力是巨大的。以Josh Allen(美式橄榄球四分卫)的维基百科页面为例,传统方法可能只能识别明确写出"布法罗比尔队"的地方,但LMEnt系统还能识别出"这支球队"、"the Bills"、"布法罗"等各种间接提及。就像一个经验丰富的读者,不仅能理解直接表述,还能理解各种暗示和指代。
**二、构建史上最精确的"信息雷达"**
传统的信息检索系统就像用关键词在图书馆里找书——输入"Buffalo"可能找到成千上万本不相关的书籍。LMEnt开发的检索系统更像是一个精通各种暗号的图书管理员,能够准确理解你要找的具体是什么。
这个系统建立了包含1050万个文本块的Elasticsearch索引,每个文本块都标注了其中涉及的实体及其置信度得分。这就像为图书馆的每本书都编写了详细的内容摘要和主题标签,而且还标明了每个主题在书中的重要程度。
更令人印象深刻的是,这个检索系统在实际测试中展现出了压倒性的优势。研究团队将其与现有的字符串匹配方法进行了对比,结果就像专业导游和业余向导的差别。LMEnt系统能够为66.3%到80.4%的实体找到更多相关信息,而且随着检索范围的扩大,传统方法的准确率会急剧下降到27%,而LMEnt始终保持在97%以上的高准确率。
这种差异产生的原因很容易理解。当你搜索一个实体时,传统方法只能找到完全匹配名称的地方,就像只认识一个人的全名。而LMEnt系统就像认识一个人的各种称呼方式——全名、昵称、职业描述、代词指称等等,因此能找到更多真正相关的信息。
**三、训练AI模型的"成长日记"**
研究团队训练了12个不同规模的语言模型,从1.7亿参数到10亿参数不等,每个模型都保存了训练过程中的110个中间检查点。这就像为一个学生的学习过程拍摄了延时摄影,记录下了每个学习阶段的状态。
这些模型虽然相对较小,但在知识问答任务上的表现令人惊喜。它们能够达到与用大量数据训练的主流开源模型相当的水平。比如在PopQA知识问答基准测试中,LMEnt的10亿参数模型在流行实体问题上达到了66%的准确率,与Pythia-1.4B(67%)和OLMo-1B(66%)等知名模型相当。
更重要的是,这些模型为研究知识获取提供了独特的视角。研究团队发现,模型的知识掌握情况与实体在训练数据中的"共现频率"高度相关。简单说,如果某个问题的主体和答案在同一个文本块中出现得越频繁,模型就越可能正确回答这个问题。这就像学生对于同时在一个章节中反复出现的概念联系记忆得更清楚一样。
**四、揭开知识学习的神秘面纱**
利用这个完整的研究体系,研究团队对知识在训练过程中的获取规律进行了深入分析。他们发现了一个既符合直觉又令人意外的现象。
符合直觉的部分是:事实出现频率越高,模型学会的概率越大。这就像学生对于课本中反复强调的重点知识掌握得更好一样。但令人意外的是,高频率的事实不仅更容易被学会,也更容易被遗忘。
具体来说,研究团队追踪了模型在训练过程中每两万步之间的知识变化。他们发现,对于出现频率很高的事实,模型在某个阶段学会了,但在后续训练中又可能忘记,然后再次学会。这种学习和遗忘的波动在高频事实中更为明显,就像学生对于重要概念会经历多次"懂了-糊涂了-又懂了"的循环过程。
这个发现对理解AI的学习机制具有重要意义。它表明,即使是看起来简单直接的知识获取过程,实际上也充满了复杂的动态变化。模型的知识状态并不是单调递增的,而是在不断的获得和失去之间波动前进。
**五、实际应用的无限可能**
LMEnt系统开辟了多个激动人心的应用方向。首先是知识可塑性研究。研究人员可以精确识别模型在训练过程中哪些阶段更容易接受新知识,这就像找到了学生学习效率最高的时间段。
在模型事实性改进方面,研究人员可以利用这个系统来优化训练数据的排列顺序,或者用实体的明确名称替换模糊的代词和描述,从而提高模型的知识准确性。这就像重新编排教材内容,让学习效果更佳。
对于机械可解释性研究,LMEnt提供的训练过程透明度为研究知识表征的形成和知识回路的构建提供了理想的实验环境。研究人员可以观察到知识是如何在神经网络中逐步构建和组织的,这就像观察大脑中记忆形成的过程。
**六、当前局限与未来展望**
研究团队诚实地承认了当前工作的局限性。LMEnt目前主要基于维基百科这样相对较小且知识密集的语料库,而现实中的大型语言模型通常使用包含数万亿字符的多样化数据进行训练。
此外,目前的研究主要关注预训练阶段,而现代AI系统还需要经历中期训练和后期调优等阶段。不过,研究团队已经规划了扩展方向,包括将标注方法应用到其他类型的语料库,以及研究知识在整个训练流程中的演变。
模型规模也是一个考量因素。虽然LMEnt的最大模型有10亿参数,相比现在动辄数千亿参数的大模型显得较小,但研究团队证明了这些模型在知识获取方面的表现与更大模型相当,为在学术环境中进行可控实验提供了可能。
归根结底,LMEnt就像为AI研究领域提供了一台"时光机器"和"透视镜"的组合装置。时光机器让我们能够回到模型训练的任何时刻,观察其当时的知识状态;透视镜让我们能够看透模型内部,理解知识是如何从原始文本转化为内部表征的。
这项研究不仅为理解现有AI系统提供了新工具,更为构建更好的AI系统指明了方向。当我们能够精确追踪和控制AI的知识获取过程时,就能构建出更可靠、更准确、更符合人类需求的智能系统。正如研究团队在论文中所说,这只是一个开始——LMEnt为整个AI研究社区打开了一扇通往AI内部世界的大门,等待着更多研究者来探索其中的奥秘。
Q&A
Q1:LMEnt到底是什么?它能帮我们解决什么问题?
A:LMEnt是一个完整的研究套件,就像给AI语言模型的学习过程装上了"监控摄像头"。它包含精细标注的维基百科数据、高精度检索系统和多个预训练模型。主要解决的问题是:我们终于可以精确追踪AI模型在训练过程中何时、从哪里学到了什么知识,而不再是只看结果不知过程的"黑箱"状态。
Q2:LMEnt的检索系统比传统方法好在哪里?
A:LMEnt就像一个精通各种暗号的图书管理员,而传统方法像只会按书名找书的新手。当你搜索"布法罗比尔队"时,传统方法只能找到写着完整队名的地方,但LMEnt还能找到"the Bills"、"这支球队"、"布法罗"等各种指代。实测显示,LMEnt能为66.3%-80.4%的实体找到更多准确信息,准确率始终保持97%以上。
Q3:研究发现的AI知识学习规律有什么特别之处?
A:最令人意外的发现是,出现频率高的事实不仅更容易被学会,也更容易被遗忘。AI模型对高频知识会经历"学会-忘记-再学会"的循环过程,就像学生对重点知识的掌握也有波动一样。这颠覆了我们以为AI学习是单纯累积过程的认知,揭示了AI内部复杂的知识动态变化机制。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。