微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI"读文章"时，它究竟在哪一层"看懂"了作者是谁？——来自法国国家信息与自动化研究院等机构的最新发现

自然语言处理机械可解释性后期交互

当AI"读文章"时，它究竟在哪一层"看懂"了作者是谁？——来自法国国家信息与自动化研究院等机构的最新发现

作者：科技行者

2026-05-27 10:45

分享至：

研究揭示，AI作者识别性能四倍差距不来自学习到的特征，而来自打分方式决定了模型在哪一层整合作者信号。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-27 10:45 • 科技行者

这项研究由法国国家信息与自动化研究院（Inria Paris）、索邦大学（Sorbonne Université）、巴黎信息学研究所（IRIF）以及巴黎国立档案学院（Ecole nationale des chartes – PSL）和EPITA高等信息工程师学院语言资源实验室（LRE, EPITA）联合开展，于2026年5月19日以预印本形式发布，论文编号为arXiv:2605.19908v1，感兴趣的读者可通过该编号查阅完整论文。

每个人写作都有自己的"指纹"。有人喜欢用长句，有人爱打逗号，有人动不动就用"然而"、"此外"这类连接词，有人则偏好简短有力的表达。即使两个人写同一个话题，只要仔细观察这些细节，往往还是能分辨出谁是谁。这种"通过文字找人"的能力，在法庭上可以鉴定遗嘱真伪，在历史研究中可以还原古代文献的真实作者，甚至在学术界可以揭露抄袭。

现在，人工智能也在做同样的事情。研究人员把这项任务叫做"作者归属"——给AI两段文字，让它判断是不是同一个人写的。近年来，随着像BERT这样的大型语言模型出现，AI在这项任务上的表现突飞猛进。然而，这项研究发现了一个令人困惑的现象：用完全相同的AI模型底座、完全相同的训练数据、完全相同的训练方式，仅仅改变最后一步"打分的方式"，模型性能竟然相差整整四倍。这究竟是为什么？研究团队用一套精密的"侦查工具"深入模型内部，找到了答案。

一、"作者指纹"识别游戏：AI是怎么判断谁写了什么的

要理解这项研究，先得搞清楚现代AI是怎么识别作者的。把这个过程想象成一个侦探游戏：侦探（AI模型）拿到三段文字——一段"目标文章"、一段"疑似同一作者的文章"、一段"明确是另一个作者的文章"。侦探的任务是：判断哪段文章和"目标文章"出自同一支笔。

AI完成这个任务分两步走。第一步叫做"编码"，负责这步的部分叫做"编码器"。编码器读取每一段文字，把它变成一串数字——可以理解成把文章"压缩"成一张数字名片。第二步叫做"打分"，负责这步的部分叫做"评分函数"。评分函数比较两张数字名片，给出一个相似度分数，分数越高说明越可能是同一个作者。

训练过程的逻辑很直接：同一作者的两段文章，相似度分数应该高；不同作者的两段文章，分数应该低。反复用大量文章对来调整模型，直到它能稳定地区分"同一作者"和"不同作者"。这种训练方式在学术上叫做"对比学习"，本质上就是让AI不断做这道选择题，做对了继续，做错了纠正。

这项研究使用的是一个叫做HALvest-Contrastive的学术文章数据集，专门为作者识别设计。这个数据集有一个聪明的设计：同一作者的两篇文章来自不同学科领域，这样AI就不能靠"这两篇都在讨论量子物理，所以是同一个人写的"这种投机取巧的方式来答题，必须真正学会识别写作风格。

二、同样的厨房、同样的食材，为什么烤出来的蛋糕差这么多

现在来到这项研究的核心谜题。研究团队用同一个预训练模型底座（叫做ModernBERT，一个拥有1.49亿个参数、23层结构的语言模型）、同样的数据集、同样的训练策略，训练了几个不同的AI模型。唯一的区别，就是最后那个"打分"的方式。

第一种打分方式叫做"均值池化加余弦相似度"。这种方式先把文章里所有词的数字表示取平均值，压缩成一个单一的数字向量，然后比较两个向量的方向有多相似。可以把它理解成：把一篇文章的所有词混在一起，榨成一杯"文章汁"，再比较两杯果汁的味道像不像。

第二种打分方式叫做"后期交互"（Late Interaction，简称LI），具体使用的是一种叫做MaxSim的算法，源自信息检索领域的ColBERT技术。这种方式不榨汁，而是保留每个词的原始数字表示，让第一篇文章里的每个词，分别去寻找第二篇文章里和它最相似的词，然后把所有这些"最佳匹配相似度"加起来。相当于：两篇文章的每个词面对面比较，找到各自的"最佳搭档"，最后统计总得分。

第三种叫做"补丁级后期交互"（PLI，Patch-Level Late Interaction），是前两种的折中方案。它把文章切成若干小块（每块两个词），每块取平均后，再用MaxSim的方式在块与块之间比较。

结果是戏剧性的。均值池化模型在测试中Recall@20（前20个结果里找到正确答案的比例）只有0.121，而后期交互模型达到了0.485，补丁级后期交互更高达0.497。换句话说，后期交互找到正确答案的能力是均值池化的整整四倍。

这个差距让研究者非常困惑，也非常好奇。毕竟，三个模型用的是同一个"大脑"，只是最后比较分数的方式不同。为什么会有这么大的差距？

三、侦探工具箱：研究团队用什么方法来揭开谜底

面对这个谜题，研究团队拿出了一套来自"机械可解释性"领域的侦查工具。所谓机械可解释性，就是尝试打开AI的"黑盒子"，看清楚它内部究竟在做什么。

第一件工具叫做"线性探针"（Linear Probes），也叫LISA探针（取自后续工作的命名框架）。这个工具的工作原理类似于X光扫描：在模型的每一层，提取出文章的数字表示，然后训练一个简单的小程序，看看能不能从这一层的数字里读出文章的风格特征——比如平均词长、标点密度、功能词频率、句子长度等。如果能读出来，说明这层"记住"了这个特征；如果读不出来，说明这层把它"忘了"或者压根没有编码进去。研究团队在10000篇文章上训练探针，在另外2000篇上测试，用R?（决定系数）来衡量读出能力，R?越高说明这个特征越容易从该层提取。

第二件工具叫做"残差流修补"（Residual Stream Patching），这是一种因果干预实验，可以理解成"局部手术替换"。实验逻辑如下：给AI三段文字——目标文章、正确答案（同一作者）、错误选项（不同作者）。先让AI正常处理正确答案，记录下每一层的"内部状态"。再让AI去处理错误选项，但在某一层偷偷把错误选项的内部状态替换成正确答案的内部状态，看看AI的打分是否因此变得更准确。如果某一层被替换后，AI的打分显著改善，说明作者识别的关键信息就藏在那一层。如果替换了也没什么变化，说明那层还没有积累足够的作者信息。

为了量化"改善程度"，研究团队使用了"等级恢复率"（Rank Recovery）——替换某层之后，AI还能不能把正确作者的文章排在错误选项前面？这是一个简单的是/否问题，恢复率在[0,1]之间，0.5相当于瞎猜。

第三件工具叫做"分数敏感度"（Score Sensitivity），更直接：替换某层之后，AI给出的相似度分数变化了多少？变化越大，说明那层对最终打分影响越大。

第四件工具是"训练动态追踪"。研究团队不只看最终训练好的模型，还保存了训练过程中八个不同时间点的模型（步骤0、500、1500、3000、5000、10000、20000和最终），在每个时间点都做一遍修补实验，观察"关键信息集中在哪一层"这件事是如何随着训练进展而变化的。

此外，研究团队还构建了一个精心设计的148个文章三元组的测试集，分成三个难度层次。第一层（Tier A，50组）是最基础的：正确作者的文章与错误选项来自同一学科领域，但作者完全不同，模型必须靠纯粹的文风差异来区分。第二层（Tier B，50组）更难：错误选项的作者与目标作者有部分重叠（比如两人都参与过某篇论文的合写），文风因此混杂，干扰了判断。第三层（Tier C，48组）测试跨领域识别能力：目标作者的两篇文章来自不同学科领域，考验模型能否在词汇和写法都变化的情况下认出同一个人。所有文章都被控制在约130个词元（token）的长度，减少篇幅带来的干扰。

四、打分方式决定"在哪一层看懂作者"

研究团队得到的第一个重要发现，是关于风格特征的"可见性"。用探针扫描四个模型（三个微调版本和一个从没训练过作者识别任务的E5模型）的每一层，研究团队发现：无论用哪种打分方式，无论有没有针对作者识别任务微调，所有模型在所有层都同样能读出相同的风格特征。

具体来说，平均词长是最容易读出的特征，R?约为0.576到0.580，在所有模型、所有层的表现几乎没有区别。功能词频率（"的"、"了"、"在"这类虚词的使用频率）紧随其后，R?约0.493到0.505。标点密度、大写率、词型-词例比等特征也都能以相似的精度从任何模型的任何层读出来。

这意味着什么？这意味着"能不能从文章里提取出作者的风格信息"不是造成性能差距的原因。所有模型，包括那个完全没学过作者识别的E5，都能看到这些风格特征。差距在别处。

第二个发现，来自修补实验，才是真正揭开谜底的关键。

把修补实验的结果画成曲线，横轴是层数（0到22），纵轴是等级恢复率，可以看到一个清晰的分岔：均值池化模型的曲线在第9层左右越过"随机猜测"的基准线（0.5），在第13层附近就接近完美恢复。也就是说，到了第13层，模型已经把判断作者所需的信息充分"提炼"到了均值里，后面的层数几乎不再带来新的信息。

后期交互模型的曲线走的是完全不同的路线。在第3到12层，恢复率甚至低于随机猜测（只有0.3到0.4），说明在这些层替换信息反而会干扰模型判断。直到第15层左右，曲线才急剧攀升，到第20层附近超过0.9的高水平。补丁级交互模型的曲线几乎与后期交互重合，也在第14到16层出现转折。

研究团队把等级恢复率超过0.75的最早层次定义为"信号整合点"。按这个标准，均值池化模型在第10层整合，后期交互在第16层整合，补丁级交互在第15层整合。两类方式之间相差整整六层，而这个差距在三个难度层次的测试组中都一致出现。

分数敏感度的数据进一步印证了这一点。在每一层做替换后，后期交互模型的打分变化幅度比均值池化模型大出一个数量级。均值池化把所有词取平均之后，单独替换一层对最终的平均值影响极小；而MaxSim保留了每个词的独立状态，替换某一层可能改变"哪些词被选为最佳匹配"，进而大幅改变总分。补丁级交互居于两者之间，比后期交互低10%到20%，因为块内平均削弱了单词层面的波动。

五、从梯度结构理解：为什么打分方式决定了信号在哪里"集中"

研究团队不满足于只描述现象，他们还推导出了一套理论，从数学层面解释为什么会出现这种差异。

在训练神经网络时，有一个核心机制叫做"梯度"（Gradient）。可以把梯度理解成"纠错信号"：当模型打分打错了，系统会给每个参数发送一个信号，告诉它"你需要朝这个方向调整"。梯度越大，说明那个参数需要做的调整越多，学到的东西也越集中在那里。

对于均值池化，整个打分公式对每一个词的梯度都是相同的——因为不管哪个词，它对最终平均值的贡献都一样，都有一个1/m的权重（m是词的总数）。用通俗的话说：均值池化把每个词的贡献平摊了，每个词都平等地接收到纠错信号。这意味着模型没有办法特别关注那些对作者识别更有价值的词，比如高频功能词或特定标点，只能让所有词齐头并进地学习。

为了让这种"平均之后的比较"有意义，编码器必须早早地把"这是谁写的"这个信息压缩进那个平均值里。这个压缩过程必须在某个中间层完成，研究团队称之为"整合瓶颈"（Consolidation Bottleneck）。

对于后期交互（MaxSim），梯度的分布完全不同。在计算相似度时，MaxSim只选择"最佳匹配"的词对——也就是说，只有那些被argmax选中的词才会接收到纠错信号，其他词的梯度为零。模型自然而然地学会关注最有区分力的词，并且不需要提前把信息压缩进一个平均值，可以一直到最后几层都在精细调整每个词的表示。

从信息论的角度看，这个差距也很清晰。均值池化把m×d的词矩阵压缩成d维的平均向量，这个压缩过程不可逆地丢失了信息——比如，词序信息完全消失，两篇用词分布相同但顺序不同的文章在均值池化下完全无法区分，但在MaxSim下可以。MaxSim保留了完整的词矩阵，能利用的信息自然更丰富。

这个理论还正好解释了补丁级交互为什么落在"交互阵营"而不是"均值阵营"。虽然它在每个小块内部取了平均，但块与块之间的选择仍然由argmax主导，选择信号的稀疏性依然保留，所以它的整合点（第15层）比后期交互（第16层）只早了一层，远比均值池化（第10层）晚得多。

六、训练过程里的三条不同成长轨迹

通过追踪训练中间过程，研究团队发现三种打分方式在"学会识别作者"的路径上，走的是完全不同的轨迹。

均值池化模型的学习路径是自上而下的。在训练的早期（步骤500），只有最顶层的几层携带着对打分有用的信息，下层几乎没有作者信号。随着训练推进，这个信号的"驻扎地"逐渐向下迁移：步骤3000时移到第15层，步骤10000时移到第13层，最终定居在第9层。这就像是一个厨师先学会用最高端的锅具（顶层）做菜，然后逐渐学会用更基础的工具（底层），最终发现用中间的炒锅效率最高。

后期交互模型走的是一条更曲折的路。在步骤1500时，有一个奇特的现象：信号突然在第5到10层集中出现一个峰值，然后又消失了。研究团队的解读是：MaxSim可以直接利用词与词之间的精确匹配（比如两篇文章都用了某个罕见词汇），这种浅层的"词汇重叠"信号在底层就能被捕捉到，给模型提供了一个"捷径"。但随着训练中困难样本越来越多（同一学科的不同作者用词越来越相似），这条捷径不再可靠，模型就主动"抛弃"了它，转而在更深的上层寻找更抽象、更稳健的作者信号。到步骤5000，底层的那个临时峰值消失，信号完全转移到第19层以上。这个过程颇有几分"少年时靠颜值吃饭，成年后靠实力立足"的意味。

补丁级交互的轨迹最为平稳，没有后期交互那种戏剧性的早期峰值，因为块内平均把"精确词汇匹配"这个捷径磨平了。信号从一开始就逐渐在中高层积累，最终在第10到15层形成一个宽阔的驼峰，这是两类机制叠加的独特痕迹——块间的选择（类似MaxSim的稀疏特性）和块内的平均（类似池化的平滑效果）共同作用，留下了只属于PLI的信号分布形态。

七、"看得见"和"用得上"是两回事

归根结底，这项研究最重要的发现可以用一句话来概括：信息的"可见"和信息的"可用"是两件完全不同的事。

四个模型都能"看见"文章里的风格特征——词长分布、标点密度、功能词频率，这些信号在所有模型的所有层都能被探针读出，包括那个从没训练过作者识别的E5。风格特征是预训练语言模型自带的能力，不是作者识别任务赋予的。

然而，"看见"这些特征不等于"用上"了它们。决定模型能不能真正利用这些特征的，是打分方式。均值池化迫使模型早早地把信息压缩进一个平均值，从而丢失了大量细节，也限制了模型能利用的深度。后期交互允许模型保留每个词的独立状态，一直到最深的层次都在精炼信息，充分挖掘了预训练模型积累的语言知识。

这个发现对作者识别领域有直接的实践意义：优化打分方式，比优化模型架构或加大训练数据量更直接有效。同时，它对更广泛的自然语言处理研究也有启发：当我们用线性探针来判断一个模型"学没学会某个特征"时，高探针准确率并不意味着模型在实际任务中真的用上了这个特征。任务性能和探针性能可以完全解耦。

说到底，这项研究告诉我们一件听起来简单、但细想颇有深度的事：同一个大脑，读同样的文章，用不同的方式来"做题"，结果可以相差四倍。不是因为信息不在那里，而是因为有没有把信息用在正确的地方、以正确的方式读出来。

当然，这项研究也有它自身的边界。所有实验都基于同一个ModernBERT底座，作者识别信号在哪一层集中的具体层数（均值池化第10层、后期交互第15到16层）可能会随架构变化而移动，但定性规律——均值池化整合早、后期交互整合晚——应该在其他架构上也成立。研究中的测试集只有148个三元组，对于精细比较后期交互和补丁级交互之间一两层的差异，统计精度仍显不足。补丁级交互也只研究了块大小为2的情况，更大的块会如何影响整合深度，是一个自然的后续问题。

对于任何对文体分析、法证语言学或深度学习可解释性感兴趣的读者，这篇研究都提供了一个精巧的实验框架：如何在控制所有其他变量的前提下，单独研究打分机制的作用。有兴趣深入阅读的读者可以通过arXiv编号2605.19908查阅完整论文。

Q&A

Q1：作者归属任务中，均值池化和后期交互的性能差距是多少，为什么会有这么大的差距？

A：在HALvest-Contrastive数据集上，后期交互模型的Recall@20达到0.485，而均值池化只有0.121，相差约四倍。差距的根本原因不是两种模型学到的风格特征不同——实验证明两者能从文章中提取的风格信息完全相同——而是均值池化把所有词取平均后压缩成单一向量，丢失了词序和细粒度信息，并且迫使模型在较早的层次就完成信息整合；后期交互保留每个词的独立表示，允许模型利用更深层次的抽象表示，才能充分利用预训练模型积累的语言知识。

Q2：残差流修补实验是怎么判断作者识别信号在哪一层"集中"的？

A：这个实验的逻辑是：给模型三段文字，让它区分哪段是同一作者所写。先正常处理正确答案，记录每一层的内部状态；再处理错误选项，但悄悄把某一层的内部状态替换成正确答案的版本，观察模型的打分是否因此变准确。如果替换某层后模型能重新正确排名，说明作者信号已经在那层"集中"完毕。实验发现均值池化模型在第10层就完成整合，后期交互直到第15到16层才完成，两者相差六层。

Q3：线性探针的高准确率能不能说明模型"学会了"识别作者风格？

A：不能直接等同。线性探针只能说明某个特征在模型内部"可以被读出来"，但不代表模型在实际任务中真的利用了这个特征。这项研究最典型的证据是：包括从未训练过作者识别任务的E5模型在内，所有四个模型的探针准确率几乎完全一致，但它们的实际任务性能差距高达四倍。可见，探针准确率衡量的是特征的"可见性"，而不是特征的"可用性"，两者可以完全解耦。

自然语言处理机械可解释性后期交互

分享至