微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI"读文章"时,它究竟在哪一层"看懂"了作者是谁?——来自法国国家信息与自动化研究院等机构的最新发现

当AI"读文章"时,它究竟在哪一层"看懂"了作者是谁?——来自法国国家信息与自动化研究院等机构的最新发现

2026-05-27 10:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-27 10:45 科技行者

这项研究由法国国家信息与自动化研究院(Inria Paris)、索邦大学(Sorbonne Université)、巴黎信息学研究所(IRIF)以及巴黎国立档案学院(Ecole nationale des chartes – PSL)和EPITA高等信息工程师学院语言资源实验室(LRE, EPITA)联合开展,于2026年5月19日以预印本形式发布,论文编号为arXiv:2605.19908v1,感兴趣的读者可通过该编号查阅完整论文。

每个人写作都有自己的"指纹"。有人喜欢用长句,有人爱打逗号,有人动不动就用"然而"、"此外"这类连接词,有人则偏好简短有力的表达。即使两个人写同一个话题,只要仔细观察这些细节,往往还是能分辨出谁是谁。这种"通过文字找人"的能力,在法庭上可以鉴定遗嘱真伪,在历史研究中可以还原古代文献的真实作者,甚至在学术界可以揭露抄袭。

现在,人工智能也在做同样的事情。研究人员把这项任务叫做"作者归属"——给AI两段文字,让它判断是不是同一个人写的。近年来,随着像BERT这样的大型语言模型出现,AI在这项任务上的表现突飞猛进。然而,这项研究发现了一个令人困惑的现象:用完全相同的AI模型底座、完全相同的训练数据、完全相同的训练方式,仅仅改变最后一步"打分的方式",模型性能竟然相差整整四倍。这究竟是为什么?研究团队用一套精密的"侦查工具"深入模型内部,找到了答案。

一、"作者指纹"识别游戏:AI是怎么判断谁写了什么的

要理解这项研究,先得搞清楚现代AI是怎么识别作者的。把这个过程想象成一个侦探游戏:侦探(AI模型)拿到三段文字——一段"目标文章"、一段"疑似同一作者的文章"、一段"明确是另一个作者的文章"。侦探的任务是:判断哪段文章和"目标文章"出自同一支笔。

AI完成这个任务分两步走。第一步叫做"编码",负责这步的部分叫做"编码器"。编码器读取每一段文字,把它变成一串数字——可以理解成把文章"压缩"成一张数字名片。第二步叫做"打分",负责这步的部分叫做"评分函数"。评分函数比较两张数字名片,给出一个相似度分数,分数越高说明越可能是同一个作者。

训练过程的逻辑很直接:同一作者的两段文章,相似度分数应该高;不同作者的两段文章,分数应该低。反复用大量文章对来调整模型,直到它能稳定地区分"同一作者"和"不同作者"。这种训练方式在学术上叫做"对比学习",本质上就是让AI不断做这道选择题,做对了继续,做错了纠正。

这项研究使用的是一个叫做HALvest-Contrastive的学术文章数据集,专门为作者识别设计。这个数据集有一个聪明的设计:同一作者的两篇文章来自不同学科领域,这样AI就不能靠"这两篇都在讨论量子物理,所以是同一个人写的"这种投机取巧的方式来答题,必须真正学会识别写作风格。

二、同样的厨房、同样的食材,为什么烤出来的蛋糕差这么多

现在来到这项研究的核心谜题。研究团队用同一个预训练模型底座(叫做ModernBERT,一个拥有1.49亿个参数、23层结构的语言模型)、同样的数据集、同样的训练策略,训练了几个不同的AI模型。唯一的区别,就是最后那个"打分"的方式。

第一种打分方式叫做"均值池化加余弦相似度"。这种方式先把文章里所有词的数字表示取平均值,压缩成一个单一的数字向量,然后比较两个向量的方向有多相似。可以把它理解成:把一篇文章的所有词混在一起,榨成一杯"文章汁",再比较两杯果汁的味道像不像。

第二种打分方式叫做"后期交互"(Late Interaction,简称LI),具体使用的是一种叫做MaxSim的算法,源自信息检索领域的ColBERT技术。这种方式不榨汁,而是保留每个词的原始数字表示,让第一篇文章里的每个词,分别去寻找第二篇文章里和它最相似的词,然后把所有这些"最佳匹配相似度"加起来。相当于:两篇文章的每个词面对面比较,找到各自的"最佳搭档",最后统计总得分。

第三种叫做"补丁级后期交互"(PLI,Patch-Level Late Interaction),是前两种的折中方案。它把文章切成若干小块(每块两个词),每块取平均后,再用MaxSim的方式在块与块之间比较。

结果是戏剧性的。均值池化模型在测试中Recall@20(前20个结果里找到正确答案的比例)只有0.121,而后期交互模型达到了0.485,补丁级后期交互更高达0.497。换句话说,后期交互找到正确答案的能力是均值池化的整整四倍。

这个差距让研究者非常困惑,也非常好奇。毕竟,三个模型用的是同一个"大脑",只是最后比较分数的方式不同。为什么会有这么大的差距?

三、侦探工具箱:研究团队用什么方法来揭开谜底

面对这个谜题,研究团队拿出了一套来自"机械可解释性"领域的侦查工具。所谓机械可解释性,就是尝试打开AI的"黑盒子",看清楚它内部究竟在做什么。

第一件工具叫做"线性探针"(Linear Probes),也叫LISA探针(取自后续工作的命名框架)。这个工具的工作原理类似于X光扫描:在模型的每一层,提取出文章的数字表示,然后训练一个简单的小程序,看看能不能从这一层的数字里读出文章的风格特征——比如平均词长、标点密度、功能词频率、句子长度等。如果能读出来,说明这层"记住"了这个特征;如果读不出来,说明这层把它"忘了"或者压根没有编码进去。研究团队在10000篇文章上训练探针,在另外2000篇上测试,用R?(决定系数)来衡量读出能力,R?越高说明这个特征越容易从该层提取。

第二件工具叫做"残差流修补"(Residual Stream Patching),这是一种因果干预实验,可以理解成"局部手术替换"。实验逻辑如下:给AI三段文字——目标文章、正确答案(同一作者)、错误选项(不同作者)。先让AI正常处理正确答案,记录下每一层的"内部状态"。再让AI去处理错误选项,但在某一层偷偷把错误选项的内部状态替换成正确答案的内部状态,看看AI的打分是否因此变得更准确。如果某一层被替换后,AI的打分显著改善,说明作者识别的关键信息就藏在那一层。如果替换了也没什么变化,说明那层还没有积累足够的作者信息。

为了量化"改善程度",研究团队使用了"等级恢复率"(Rank Recovery)——替换某层之后,AI还能不能把正确作者的文章排在错误选项前面?这是一个简单的是/否问题,恢复率在[0,1]之间,0.5相当于瞎猜。

第三件工具叫做"分数敏感度"(Score Sensitivity),更直接:替换某层之后,AI给出的相似度分数变化了多少?变化越大,说明那层对最终打分影响越大。

第四件工具是"训练动态追踪"。研究团队不只看最终训练好的模型,还保存了训练过程中八个不同时间点的模型(步骤0、500、1500、3000、5000、10000、20000和最终),在每个时间点都做一遍修补实验,观察"关键信息集中在哪一层"这件事是如何随着训练进展而变化的。

此外,研究团队还构建了一个精心设计的148个文章三元组的测试集,分成三个难度层次。第一层(Tier A,50组)是最基础的:正确作者的文章与错误选项来自同一学科领域,但作者完全不同,模型必须靠纯粹的文风差异来区分。第二层(Tier B,50组)更难:错误选项的作者与目标作者有部分重叠(比如两人都参与过某篇论文的合写),文风因此混杂,干扰了判断。第三层(Tier C,48组)测试跨领域识别能力:目标作者的两篇文章来自不同学科领域,考验模型能否在词汇和写法都变化的情况下认出同一个人。所有文章都被控制在约130个词元(token)的长度,减少篇幅带来的干扰。

四、打分方式决定"在哪一层看懂作者"

研究团队得到的第一个重要发现,是关于风格特征的"可见性"。用探针扫描四个模型(三个微调版本和一个从没训练过作者识别任务的E5模型)的每一层,研究团队发现:无论用哪种打分方式,无论有没有针对作者识别任务微调,所有模型在所有层都同样能读出相同的风格特征。

具体来说,平均词长是最容易读出的特征,R?约为0.576到0.580,在所有模型、所有层的表现几乎没有区别。功能词频率("的"、"了"、"在"这类虚词的使用频率)紧随其后,R?约0.493到0.505。标点密度、大写率、词型-词例比等特征也都能以相似的精度从任何模型的任何层读出来。

这意味着什么?这意味着"能不能从文章里提取出作者的风格信息"不是造成性能差距的原因。所有模型,包括那个完全没学过作者识别的E5,都能看到这些风格特征。差距在别处。

第二个发现,来自修补实验,才是真正揭开谜底的关键。

把修补实验的结果画成曲线,横轴是层数(0到22),纵轴是等级恢复率,可以看到一个清晰的分岔:均值池化模型的曲线在第9层左右越过"随机猜测"的基准线(0.5),在第13层附近就接近完美恢复。也就是说,到了第13层,模型已经把判断作者所需的信息充分"提炼"到了均值里,后面的层数几乎不再带来新的信息。

后期交互模型的曲线走的是完全不同的路线。在第3到12层,恢复率甚至低于随机猜测(只有0.3到0.4),说明在这些层替换信息反而会干扰模型判断。直到第15层左右,曲线才急剧攀升,到第20层附近超过0.9的高水平。补丁级交互模型的曲线几乎与后期交互重合,也在第14到16层出现转折。

研究团队把等级恢复率超过0.75的最早层次定义为"信号整合点"。按这个标准,均值池化模型在第10层整合,后期交互在第16层整合,补丁级交互在第15层整合。两类方式之间相差整整六层,而这个差距在三个难度层次的测试组中都一致出现。

分数敏感度的数据进一步印证了这一点。在每一层做替换后,后期交互模型的打分变化幅度比均值池化模型大出一个数量级。均值池化把所有词取平均之后,单独替换一层对最终的平均值影响极小;而MaxSim保留了每个词的独立状态,替换某一层可能改变"哪些词被选为最佳匹配",进而大幅改变总分。补丁级交互居于两者之间,比后期交互低10%到20%,因为块内平均削弱了单词层面的波动。

五、从梯度结构理解:为什么打分方式决定了信号在哪里"集中"

研究团队不满足于只描述现象,他们还推导出了一套理论,从数学层面解释为什么会出现这种差异。

在训练神经网络时,有一个核心机制叫做"梯度"(Gradient)。可以把梯度理解成"纠错信号":当模型打分打错了,系统会给每个参数发送一个信号,告诉它"你需要朝这个方向调整"。梯度越大,说明那个参数需要做的调整越多,学到的东西也越集中在那里。

对于均值池化,整个打分公式对每一个词的梯度都是相同的——因为不管哪个词,它对最终平均值的贡献都一样,都有一个1/m的权重(m是词的总数)。用通俗的话说:均值池化把每个词的贡献平摊了,每个词都平等地接收到纠错信号。这意味着模型没有办法特别关注那些对作者识别更有价值的词,比如高频功能词或特定标点,只能让所有词齐头并进地学习。

为了让这种"平均之后的比较"有意义,编码器必须早早地把"这是谁写的"这个信息压缩进那个平均值里。这个压缩过程必须在某个中间层完成,研究团队称之为"整合瓶颈"(Consolidation Bottleneck)。

对于后期交互(MaxSim),梯度的分布完全不同。在计算相似度时,MaxSim只选择"最佳匹配"的词对——也就是说,只有那些被argmax选中的词才会接收到纠错信号,其他词的梯度为零。模型自然而然地学会关注最有区分力的词,并且不需要提前把信息压缩进一个平均值,可以一直到最后几层都在精细调整每个词的表示。

从信息论的角度看,这个差距也很清晰。均值池化把m×d的词矩阵压缩成d维的平均向量,这个压缩过程不可逆地丢失了信息——比如,词序信息完全消失,两篇用词分布相同但顺序不同的文章在均值池化下完全无法区分,但在MaxSim下可以。MaxSim保留了完整的词矩阵,能利用的信息自然更丰富。

这个理论还正好解释了补丁级交互为什么落在"交互阵营"而不是"均值阵营"。虽然它在每个小块内部取了平均,但块与块之间的选择仍然由argmax主导,选择信号的稀疏性依然保留,所以它的整合点(第15层)比后期交互(第16层)只早了一层,远比均值池化(第10层)晚得多。

六、训练过程里的三条不同成长轨迹

通过追踪训练中间过程,研究团队发现三种打分方式在"学会识别作者"的路径上,走的是完全不同的轨迹。

均值池化模型的学习路径是自上而下的。在训练的早期(步骤500),只有最顶层的几层携带着对打分有用的信息,下层几乎没有作者信号。随着训练推进,这个信号的"驻扎地"逐渐向下迁移:步骤3000时移到第15层,步骤10000时移到第13层,最终定居在第9层。这就像是一个厨师先学会用最高端的锅具(顶层)做菜,然后逐渐学会用更基础的工具(底层),最终发现用中间的炒锅效率最高。

后期交互模型走的是一条更曲折的路。在步骤1500时,有一个奇特的现象:信号突然在第5到10层集中出现一个峰值,然后又消失了。研究团队的解读是:MaxSim可以直接利用词与词之间的精确匹配(比如两篇文章都用了某个罕见词汇),这种浅层的"词汇重叠"信号在底层就能被捕捉到,给模型提供了一个"捷径"。但随着训练中困难样本越来越多(同一学科的不同作者用词越来越相似),这条捷径不再可靠,模型就主动"抛弃"了它,转而在更深的上层寻找更抽象、更稳健的作者信号。到步骤5000,底层的那个临时峰值消失,信号完全转移到第19层以上。这个过程颇有几分"少年时靠颜值吃饭,成年后靠实力立足"的意味。

补丁级交互的轨迹最为平稳,没有后期交互那种戏剧性的早期峰值,因为块内平均把"精确词汇匹配"这个捷径磨平了。信号从一开始就逐渐在中高层积累,最终在第10到15层形成一个宽阔的驼峰,这是两类机制叠加的独特痕迹——块间的选择(类似MaxSim的稀疏特性)和块内的平均(类似池化的平滑效果)共同作用,留下了只属于PLI的信号分布形态。

七、"看得见"和"用得上"是两回事

归根结底,这项研究最重要的发现可以用一句话来概括:信息的"可见"和信息的"可用"是两件完全不同的事。

四个模型都能"看见"文章里的风格特征——词长分布、标点密度、功能词频率,这些信号在所有模型的所有层都能被探针读出,包括那个从没训练过作者识别的E5。风格特征是预训练语言模型自带的能力,不是作者识别任务赋予的。

然而,"看见"这些特征不等于"用上"了它们。决定模型能不能真正利用这些特征的,是打分方式。均值池化迫使模型早早地把信息压缩进一个平均值,从而丢失了大量细节,也限制了模型能利用的深度。后期交互允许模型保留每个词的独立状态,一直到最深的层次都在精炼信息,充分挖掘了预训练模型积累的语言知识。

这个发现对作者识别领域有直接的实践意义:优化打分方式,比优化模型架构或加大训练数据量更直接有效。同时,它对更广泛的自然语言处理研究也有启发:当我们用线性探针来判断一个模型"学没学会某个特征"时,高探针准确率并不意味着模型在实际任务中真的用上了这个特征。任务性能和探针性能可以完全解耦。

说到底,这项研究告诉我们一件听起来简单、但细想颇有深度的事:同一个大脑,读同样的文章,用不同的方式来"做题",结果可以相差四倍。不是因为信息不在那里,而是因为有没有把信息用在正确的地方、以正确的方式读出来。

当然,这项研究也有它自身的边界。所有实验都基于同一个ModernBERT底座,作者识别信号在哪一层集中的具体层数(均值池化第10层、后期交互第15到16层)可能会随架构变化而移动,但定性规律——均值池化整合早、后期交互整合晚——应该在其他架构上也成立。研究中的测试集只有148个三元组,对于精细比较后期交互和补丁级交互之间一两层的差异,统计精度仍显不足。补丁级交互也只研究了块大小为2的情况,更大的块会如何影响整合深度,是一个自然的后续问题。

对于任何对文体分析、法证语言学或深度学习可解释性感兴趣的读者,这篇研究都提供了一个精巧的实验框架:如何在控制所有其他变量的前提下,单独研究打分机制的作用。有兴趣深入阅读的读者可以通过arXiv编号2605.19908查阅完整论文。

Q&A

Q1:作者归属任务中,均值池化和后期交互的性能差距是多少,为什么会有这么大的差距?

A:在HALvest-Contrastive数据集上,后期交互模型的Recall@20达到0.485,而均值池化只有0.121,相差约四倍。差距的根本原因不是两种模型学到的风格特征不同——实验证明两者能从文章中提取的风格信息完全相同——而是均值池化把所有词取平均后压缩成单一向量,丢失了词序和细粒度信息,并且迫使模型在较早的层次就完成信息整合;后期交互保留每个词的独立表示,允许模型利用更深层次的抽象表示,才能充分利用预训练模型积累的语言知识。

Q2:残差流修补实验是怎么判断作者识别信号在哪一层"集中"的?

A:这个实验的逻辑是:给模型三段文字,让它区分哪段是同一作者所写。先正常处理正确答案,记录每一层的内部状态;再处理错误选项,但悄悄把某一层的内部状态替换成正确答案的版本,观察模型的打分是否因此变准确。如果替换某层后模型能重新正确排名,说明作者信号已经在那层"集中"完毕。实验发现均值池化模型在第10层就完成整合,后期交互直到第15到16层才完成,两者相差六层。

Q3:线性探针的高准确率能不能说明模型"学会了"识别作者风格?

A:不能直接等同。线性探针只能说明某个特征在模型内部"可以被读出来",但不代表模型在实际任务中真的利用了这个特征。这项研究最典型的证据是:包括从未训练过作者识别任务的E5模型在内,所有四个模型的探针准确率几乎完全一致,但它们的实际任务性能差距高达四倍。可见,探针准确率衡量的是特征的"可见性",而不是特征的"可用性",两者可以完全解耦。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-