微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI学会"看穿"写作风格:俄勒冈大学研究团队教会机器分辨"谁写的文章"

当AI学会"看穿"写作风格:俄勒冈大学研究团队教会机器分辨"谁写的文章"

2026-05-04 14:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-04 14:36 科技行者

这项由美国俄勒冈大学与Adobe研究院联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.21300,有兴趣深入了解的读者可通过该编号查询完整论文。

**每个人都有独特的"写作指纹"**

每个人写东西都有自己独特的习惯。有人喜欢用长句子,有人说话简短有力;有人爱用感叹号,有人行文一本正经;有人写着写着总把话题扯回自己最喜欢的领域。这些细微的语言习惯,就像指纹一样,构成了一个人独特的"写作风格"。

正因如此,版权纠纷里可以通过文风来判断谁才是真正的作者,学术界可以用这种方法来查论文是否造假,甚至刑事调查中也能靠分析文字来锁定犯罪嫌疑人。这个研究领域有个专业名称叫"作者归因",说白了就是:给你一段文字,让机器猜出是谁写的。

但近年来,随着ChatGPT等大型语言模型的兴起,这件事变得越来越难了。现在的AI写出来的文章流畅自然,越来越难以与人类写作区分。于是,"这篇文章是不是AI写的"这个问题也变得同样迫切。

俄勒冈大学与Adobe研究院的研究团队为此开发了一套全新的系统,取名为"可解释作者变分自编码器",英文缩写为EAVAE。这套系统的核心目标,是教会机器真正读懂"风格",而不是被文章的话题所迷惑——因为在这件事上,以往的机器犯了一个很常见但很根本的错误。

**一、机器是如何"认错作者"的**

以一位专门写侦探小说的作家柯南·道尔为例。他的作品里充满了推理、谋杀、线索和侦探,这些是他的"内容标签"。以往的机器学习系统在接触大量他的作品之后,会建立起一个简单粗暴的关联:柯南·道尔等于侦探小说。

这就引发了一个严重的问题。假设另一位作家阿加莎·克里斯蒂也写侦探小说,当你拿出一段阿加莎的文字让机器判断是谁写的,机器看了看——哦,是侦探题材——于是自信满满地回答:柯南·道尔写的!

机器错不是因为它不聪明,而是因为它在走捷径。它学会的是"这类话题通常对应这位作者",而不是"这位作者的写作习惯有哪些独特之处"。这个问题在学术界被正式称为"话题混淆"——机器把话题当成了风格。

这就好比一个餐厅评论员,他见过太多次一家叫"小李川菜"的餐厅做麻辣红油的菜,于是只要在任何地方看到麻辣红油,就认为那一定是小李做的——哪怕其实是隔壁老王的手艺。风格与话题之间的混淆,让机器无法真正做到跨领域、跨话题地认识一个人的写作。

为了解开这个死结,研究团队设计了一套全新的框架,核心思路是:把"写作风格"和"文章内容"彻底分开来学习,让机器学会用两只眼睛看文章,一只眼睛专门看"写的是什么话题",另一只眼睛专门看"怎么写的、有什么语言习惯"。

**二、两阶段训练:先打基础,再精细拆分**

EAVAE系统的训练分为两个大阶段,可以理解为先上"基础课",再上"高级课"。

基础课阶段叫做"对比预训练"。研究团队首先收集了一个规模极为庞大的数据集,其中包含了来自黑客新闻、Stack Exchange问答平台、推特、《纽约时报》评论区、亚马逊商品评论、博客、Yelp餐厅点评、Reddit论坛、豆瓣读书、电影评论等数十个不同来源的文章。最终,这个数据集包含了超过2744万篇文档,来自超过134万个不同作者,覆盖了各种话题和写作风格。

数据集中的每一篇文章都知道是谁写的。训练的方法是这样的:把同一个作者写的两篇文章拉在一起,让机器学会把它们的"表示"(可以理解为机器对这篇文章的"理解摘要")靠近;同时,把不同作者的文章推远。久而久之,机器就能学会:哪些文字特征是属于这个作者的标记。

为了让这个训练更有难度、更有效,研究团队还特意引入了"难负样本挖掘"的技巧。具体来说,对于每一篇文章,系统会用一种叫BM25的信息检索技术,从数据库里找出那些词汇上与当前文章极其相似但其实是别人写的文章,然后把这些"几乎一样但不是同一作者"的文章作为对比训练材料。这样一来,机器就必须学会更细微、更深层的风格差异,而不能只靠词汇表面的相似度来做判断。

除此之外,训练所用的语言模型本身也采用了一种叫"双向注意力机制"的技术。通俗地说,普通的语言模型看文字像读书一样,从头到尾顺着读。而双向注意力机制让模型既能向前看也能向后看,就像人类阅读时可以随时回头重读前文一样,这样能更充分地理解句子的整体含义。

这个基础课阶段结束后,机器已经有了相当不错的作者识别能力。但研究团队认为还不够,因为风格与话题的纠缠问题并没有从根本上解决。于是进入了第二阶段——高级课。

**三、双镜头架构:分开学习风格与内容**

高级课阶段是EAVAE真正的核心创新,采用了一种叫做"变分自编码器"的技术框架,英文缩写VAE。

变分自编码器是什么?可以这样理解:假设你是一个很厉害的画家,每次看到一幅画,你能把它的精髓归纳成一个简短的"描述",然后凭借这个描述就能重新画出一幅相似的作品。这个"归纳描述"的过程叫编码,"根据描述重新画出来"的过程叫解码。VAE做的就是这件事——把文章压缩成一个"潜在表示",然后从这个表示重新生成原文。

EAVAE的关键改进在于:它不用一个画家,而是用两个专门化的画家。一个只负责归纳"文章写的是什么话题、内容是什么"(内容编码器),另一个只负责归纳"这篇文章的语言习惯、句式结构、用词偏好是什么"(风格编码器)。这两个编码器完全独立,各司其职,互不干扰。

风格编码器是从第一阶段训练好的模型继承而来的,它已经具备了不错的风格识别能力。内容编码器则是另一个现成的语言模型,专门处理语义内容。

两个编码器各自产生自己的"描述",然后有一个共用的"重建器"把风格描述和内容描述合并起来,尝试重新生成原始文章。如果重建得越像原文,说明这两个描述合在一起没有损失太多信息;而如果它们各自都很专注于自己的任务,那么风格描述里就不会混杂话题信息,内容描述里也不会混杂语言习惯信息。

这个过程在数学上通过一个叫"KL散度"的计算来约束,确保编码出来的"描述"不会过于发散,始终保持在合理范围内。研究团队为风格和内容分别设置了独立的约束参数,精细控制两边的学习力度。

**四、会"说话"的评判官:可解释鉴别器**

仅有双编码器还不够,因为机器很容易"表面上分开,实际上还是混在一起"。研究团队为此引入了第三个关键组件:一个会生成自然语言解释的鉴别器。

这个鉴别器的工作是这样的:给它两个风格描述,它不仅要判断"这两段文字是不是同一个人写的",还要用自然语言解释自己为什么这么判断。同样地,给它两个内容描述,它要判断"这两段文字讲的是不是同一类话题",同样要给出解释。

这个"要说出理由"的设计非常巧妙。普通的鉴别器只输出一个是或否的答案,机器可以用各种捷径来得到正确答案。但当鉴别器必须生成一段有逻辑的文字解释时,它就不得不真正理解自己在看什么——风格描述里到底有没有混入话题信息,内容描述里到底有没有混入风格信息。这种"倒逼理解"的机制,让整个系统的风格和内容分离做得更彻底。

此外,这个设计还带来了一个额外好处:用户可以看到机器的判断依据,而不是面对一个黑箱子。机器说"这两篇是同一个人写的,因为他们都喜欢用非正式口语,而且写完食谱点评后都习惯说'下次还会做'",这种解释对人类来说是可信的、可验证的。

在技术实现上,鉴别器和重建器被整合到了一个统一的生成模型里。这个生成模型使用了一种叫"混合提示"的技术:既有固定的文字模板来告诉模型该做什么任务,也有可学习的"软提示"来让模型灵活适应不同需求。具体操作是,先把文字模板输入模型的嵌入层获得一串向量,然后把其中的占位符位置替换成风格或内容的编码向量,再让模型根据这个混合了指令和内容的输入来生成目标文字。这个替换操作还特意保留了位置信息,确保模型知道每个表示在语境中的位置关系。

**五、精心筛选的训练数据:只用最难的例子**

高级课阶段的训练数据也经过了专门设计。研究团队不是随机取数据,而是专门挖掘两类"难题"。

第一类难题:同一个作者,写的是截然不同话题的两篇文章。比如同一个人既写过科技评测也写过美食日记,这两篇放在一起,话题毫无共同点,但风格应该是一致的。这类数据逼迫系统学会:即使话题不同,也要识别出相同的风格特征。

第二类难题:不同的作者,写的是极其相似话题的两篇文章。比如两个不同的人都写了关于同一款手机的评测,话题几乎一模一样,但他们的写作习惯是不同的。这类数据逼迫系统学会:即使话题相同,也要区分出不同的风格特征。

为了找出这些难题数据,研究团队先用一个叫GTE-Qwen2-1.5B的语言模型计算文章之间的语义相似度,再用K均值聚类算法把所有文章按话题分成1000个簇,从而系统性地识别出跨话题同作者和同话题跨作者的组合。最终,这个精心筛选的微调数据集包含了13.2万对文章,来自1.2万个不同作者。

每一对文章还附带了由QwQ-32B这个大型语言模型生成的详细说明,解释为什么这对文章在风格上相同或不同,在内容上相同或不同。这些说明就成了鉴别器学习"如何解释判断"的训练素材。

**六、实验结果:在三个测试场景中的表现**

研究团队在多个不同场景下测试了EAVAE的表现。

第一个测试场景是作者级归因,用的是亚马逊商品评论数据集和PAN21数据集。测试方法是:给定一批候选作者,系统对他们的文章做了归纳,然后来一篇新文章,看系统能不能从候选人中找出正确的作者。评判标准有两个:MRR(平均倒数排名,衡量正确答案排在第几位)和R@8(正确答案是否在前8名之内的比例)。

在亚马逊数据集上,EAVAE的MRR达到了97%,R@8达到了99%,相比此前最强的对比系统LUAR分别提升了3.6和3.3个百分点。在PAN21数据集上,MRR达到61%,R@8达到66.2%,与历史最佳成绩持平或略有超越。值得注意的是,仅做第一阶段对比预训练的版本MRR是94%,加上第二阶段的VAE微调后提升到了97%,说明风格内容分离的架构本身带来了实质性的提升,而不仅仅是因为用了更大的语言模型。

第二个测试场景更为严苛,用的是HRS语料库,包含五个完全不同领域的内容:桌游评论网站BoardGameGeek、全球新闻媒体Global Voices、手工制作教程网站Instructables、文学类Stack Exchange问答和STEM类Stack Exchange问答。这五个来源的话题分布差异极大,而且作者之间有大量交叉——同一个人可能在好几个平台上都有发言,但讲的是完全不同的事情。这是对"跨话题风格识别"最严苛的测试。

在这个测试集上,EAVAE的平均MRR达到了47.3%,平均R@8达到了72.2%,相比此前最强对比系统(Man和Nguyen 2024年的方法)分别提升了10.7个百分点和27.4个百分点。以R@8来说,这是超过40%的相对提升幅度,差距相当显著。单看第一阶段训练的版本,平均MRR是41.2%,加入VAE微调后跳到了47.3%,这6.1个百分点的提升再次验证了风格内容分离架构的价值。

第三个测试场景是AI生成文本检测,用的是M4数据集,包含来自多个大型语言模型在四个不同领域(学术论文ArXiv、学术评审PeerRead、操作指南WikiHow、百科全书Wikipedia)的输出。测试方法是:给系统一篇文章和几篇参考文档,让它判断这篇文章是不是某个AI模型生成的。评判标准是pAUC(曲线下面积的部分统计值),特别关注在误报率极低时的检测精度。

在"单目标检测"模式(系统知道要检测的是哪个特定AI模型的输出)下,EAVAE的平均pAUC@1为65.7%,pAUC@5为93.5%,pAUC@10为98.5%。在"多目标检测"模式(同时检测多个可能的AI来源)下,平均pAUC@1为62%,pAUC@5为87.4%,pAUC@10为94.7%。这些成绩相比对比系统有所提升,而且这一切都在EAVAE完全没有针对AI检测任务进行专门训练的前提下取得的,完全依赖它学到的通用风格表示能力。

**七、拆开零件看贡献:消融实验的发现**

为了弄清楚是哪个设计起了关键作用,研究团队做了一系列"拆零件"实验,每次去掉一个组件看性能如何变化,全部在最难的HRS测试集上进行。

去掉VAE微调阶段,只保留对比预训练:平均MRR从47.3%跌到41.2%,R@8从72.2%跌到52.7%,两项指标都大幅下降,证明微调阶段的价值不可忽视。

把双编码器架构改成单编码器(风格和内容共用同一个编码器):MRR从47.3%跌到44.5%,R@8从72.2%跌到58.3%,跌幅达13.9个百分点。这是所有消融实验中最大的单项跌幅,证明"把风格和内容分开学习"是整个系统中最关键的设计选择,不可或缺。

把可解释鉴别器去掉,只保留VAE重建损失:MRR从47.3%跌到45.4%,R@8从72.2%跌到66%,说明鉴别器的对抗训练对强制实现风格内容分离有独立贡献。

把可解释鉴别器换成普通的MLP分类器(只输出是否判断,不生成解释):MRR是45.5%,R@8是65.4%,比可解释鉴别器稍差,说明生成自然语言解释的机制确实有助于更彻底的分离。

把生成模型的混合提示机制(固定模板加可学习软提示)改成只用可学习软提示:MRR跌到43.3%,比使用混合提示的版本低了4个百分点,说明固定文字模板提供的任务指引对生成质量有重要影响。

**八、机器的解释:它到底在看什么**

论文还展示了一个真实的案例,让读者看到EAVAE的鉴别器是如何解释自己的判断的。

两段被测试的文字,第一段是某位作者对一道菜谱的评价,说做出来味道太淡,下次会加墨西哥香料和辣椒,末尾注明"为PAC Spring 09制作"。第二段也是食谱评价,说柠檬味纸杯蛋糕口感绝佳,自己加了新鲜柠檬汁,但从烤盘里取出时容易碎,末尾注明"为Comfort Cafe Summer 09制作"。

系统判断这两段文字是同一个人写的,然后给出了解释:两段文字都使用了口语化的非正式表达,比如第一段的"就那样"和第二段的"绝了";都是在写食谱评价的同时描述自己的改动,第一段提到加香料,第二段提到加柠檬汁;两段结尾都有"下次还会做"这类重复出现的表达;而且格式上都附有"为...制作"这样的注记,保持了相似的记录习惯。

这个解释抓住的都是风格层面的特征,而不是内容——虽然两段文字一个写的是墨西哥风味鸡肉菜,另一个写的是柠檬纸杯蛋糕,话题完全不同,但机器识别出了它们在语言习惯上的共性,而这正是作者归因真正应该关注的东西。

**说到底,这项研究意味着什么**

归根结底,EAVAE做到的事情可以用一句话概括:它教会机器真正地读懂"怎么写",而不只是"写了什么"。

这件事的意义远不止于文学鉴定或学术诚信审查。随着生成式AI越来越普及,网络上的AI生成内容将越来越多,而且质量越来越高。依靠话题特征来判断是否是AI写的方法会越来越失效,因为AI可以写任何话题。只有真正抓住语言习惯层面的深层特征,才能在日新月异的AI时代保持识别能力。

当然,这套系统并非无懈可击。研究团队自己也指出,鉴别器生成的自然语言解释依赖于底层语言模型的能力,解释的质量和人类的直觉并不总是完全吻合,还需要进一步提升解释的准确性和实用性。此外,当前系统主要针对单人作者的归因,面对多人合写或协作写作的场景还需要调整。还有一个更深层的挑战是:随着AI写作能力不断增强,它们生成的文字正在越来越接近人类的独特风格,风格识别方法的长期有效性仍需持续关注。

研究团队还展望了未来的工作方向:把这套框架扩展到多语言场景,将情感、正式程度等更多风格维度纳入分析,甚至应用到代码或语音等其他模态。这些方向让人期待,毕竟一个真正能读懂"一个人独特表达方式"的系统,在未来的信息世界里将有极广泛的应用空间。

对这项研究感兴趣的读者,可以通过arXiv编号2604.21300查阅完整论文,系统的代码也已在GitHub公开,数据集也在HuggingFace平台上公开供研究使用。

Q&A

Q1:EAVAE是如何区分写作风格和文章话题的?

A:EAVAE使用了两个独立的编码器,一个专门学习文章的话题内容,另一个专门学习作者的语言习惯和表达方式。这两个编码器在训练过程中被强制分开工作,不能互相"借用"对方的信息。此外,系统还引入了一个需要生成文字解释的鉴别器,通过要求机器说明判断理由来进一步确保风格和内容真正被分开学习,而不是表面分开、实际混用。

Q2:EAVAE检测AI生成文章的准确率有多高?

A:在M4数据集的测试中,EAVAE在单目标检测模式下的pAUC@5平均达到93.5%,pAUC@10平均达到98.5%,这意味着在误报率控制在10%以内的条件下,检测成功率接近99%。值得注意的是,EAVAE并没有专门针对AI检测任务进行训练,这些成绩完全来自它在作者风格识别上学到的通用能力。

Q3:训练EAVAE需要多少数据?

A:EAVAE的预训练阶段使用了超过2744万篇文档,来自约134万个不同作者,涵盖新闻、博客、社交媒体、评论等多种类型。后续的精细微调阶段使用了13.2万对精心挑选的文章对,这些文章对专门选取了"同作者跨话题"和"跨作者同话题"两类最难的样本,以训练系统真正学会分辨风格与话题的差异。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-