
这项研究由巴伐利亚科学院、慕尼黑大学(LMU Munich)、慕尼黑机器学习中心(MCML)以及弗莱堡大学的联合团队完成,论文以预印本形式发表于2026年5月,编号为arXiv:2605.09156v2,感兴趣的读者可通过该编号在arXiv平台查询完整内容。
一、一门濒危语言里藏着的千年谜题
在法国南部、比利牛斯山脉附近,曾经流传着一种叫做"奥克语"(Occitan)的语言。在中世纪,它是整个欧洲文化与贸易圈里举足轻重的存在——吟游诗人用它写诗,法官用它审案,医生用它记录病历。然而今天,联合国教科文组织已经将它列为濒危语言。这门古老语言里,隐藏着一个语言学家追问了数百年的谜题:拉丁语里有三种性别——阳性、阴性和中性,但演变到奥克语之后,中性彻底消失了。那些原本是中性的拉丁单词,有的变成了阳性,有的变成了阴性,是什么决定了它们各自的去向?
这个问题听起来像是语言学家的"内部事务",但实际上,它触及了人类语言演化最核心的一个问题:语言里的性别分类,到底是由单词的形状(长什么样)决定的,还是由它在句子里的环境(周围是什么词)决定的?换句话说,一个词的"性别身份",是写在它自己的"基因"里,还是由周围的"邻居"塑造的?
研究团队决定用现代人工智能来回答这个古老的问题。他们搭建了一套可解释的深度学习框架,对中世纪奥克语进行了系统分析。这项研究的特别之处在于,它不仅仅是一个技术实验,更是人文学科与计算机科学之间一次真实的跨界合作——用算法去触碰那些尘封在羊皮纸上的文字。
二、从三性到两性:一场发生在一千年前的"性别改革"
要理解这项研究,先得弄清楚拉丁语的性别系统是怎么运作的。拉丁语里,每个名词都有固定的性别:阳性、阴性或中性。这不是指单词描述的事物真的有生理性别,而是一种语法分类,就像给词语贴标签一样。比如"战争"是阳性,"大地"是阴性,"礼物"是中性。
随着罗马帝国的衰落,拉丁语逐渐演变成各地的罗曼语族语言——法语、西班牙语、意大利语、葡萄牙语,还有奥克语。在这个漫长的演变过程中,一件大事发生了:中性性别几乎在所有这些语言里都消失了。那些原本是中性的词,最终都被划入了阳性或阴性阵营。
研究者们从三份核心的中世纪奥克语文献中收集数据:一份是法律文本《洛科迪》(Lo Codi),一份是医学文献《阿尔布克》(Albuc),还有一份是记录十字军东征的史诗诗歌《克鲁瓦扎德》(Croisade)。这三份文献跨越不同的文体和话题,为研究提供了相对多元的语料。最终整理出的数据集包含了拉丁语与奥克语的词对,以及每个词的性别信息,其中来自《洛科迪》的词条约占46%,来自DOM词典项目的约占41%,来自《克鲁瓦扎德》的约占13%。
数据分析的结果非常清晰:在所有追踪到的性别转移案例中,拉丁语中性词变成奥克语阳性词的有3055个,变成阴性词的有1448个。也就是说,大约三分之二的中性词最终"投奔"了阳性阵营,剩下三分之一变成了阴性。这个比例并非均等,背后一定有某种规律在驱动。
进一步观察词尾(单词的最后几个字母)时,研究者发现了一个耐人寻味的现象:拉丁语中性词最常见的词尾"-um",在变成阳性词的群体里出现频率最高,但同时,它也是变成阴性词的群体里最常见的词尾。这看似矛盾,实则是因为整体上变成阳性的词要多得多,所以任何频繁出现的词尾都会在阳性那一侧显得特别突出。相比之下,"-ia"和"-la"这样的词尾则更稳定地指向阴性结果,提示词尾信息确实携带了性别线索,但单靠词尾并不能解释全部。
三、研究团队的侦查策略:先选"工具",再解"谜题"
确定了要研究的问题之后,研究团队面临的第一个挑战是:用什么样的计算机模型来处理这门古老而稀缺的语言?
中世纪奥克语对于计算机来说是一个巨大的难题。这门语言不仅数据稀少,而且拼写极度不稳定——同一个词在不同的手稿里可能有七八种不同的写法,更没有统一的拼写规范。这就像试图用现代电脑处理一堆没有统一格式的古代账本,每位抄写员都有自己的"书写癖好"。
研究团队首先对三种主流的语言表示模型进行了系统比较:FastText、mBERT和ByT5。可以把这三种模型理解为三种不同的"语言理解引擎"。FastText擅长通过单词的片段(子词)来理解词义,有点像通过一个人的面部局部特征来识别身份;mBERT是一种多语言模型,能同时理解100多种语言,像一个精通多国语言的翻译官;ByT5则更底层,直接在字节(最小的数字单元)层面处理文本,像是逐个字母地去分析单词。
为了决出最优选择,团队设计了三个互补的测试。第一个测试是"冻结编码器探针"——用固定不动的模型来预测奥克语词汇的性别,看哪个模型对词汇信息的把握最准确。第二个测试是"变体检索"——给定一个拉丁词,看模型能不能在奥克语语料库里找到拼写不同但本质相同的对应词,考察的是模型对拼写变异的容忍度。第三个测试是"无监督聚类"——把奥克语词汇的向量表示扔进聚类算法,看同一个拉丁词的不同拼写变体是否能自然地聚在一起,考察的是模型对词汇内在结构的感知。
三项测试结束后,mBERT以最高的综合成绩胜出:在性别预测任务中取得了72.04的宏平均F1分数,在变体检索任务中的召回率达到0.59,在聚类任务中的轮廓系数为0.049,均优于另外两个竞争对手。于是团队决定以mBERT作为所有后续实验的基础模型。
四、分词策略:让计算机读懂"乱码"般的古代拼写
选好了模型,下一个难题是分词。所谓分词,就是把一段文字切割成计算机能够处理的最小单元。对于现代标准语言来说,这不是什么大问题;但对于中世纪奥克语来说,这是一个真实的瓶颈。
拼写不稳定带来了大量"词汇表外词语"(Out-of-Vocabulary,OOV)——即模型完全不认识的词。如果把这些词标记为"[未知]",就等于白白丢弃了大量信息。研究团队测试了四种分词策略:标准的mBERT WordPiece分词器、两种不同规模的BPE(字节对编码)分词器,以及一种混合分词器。
混合分词器的核心思路是:优先使用针对奥克语语料库定制训练的BPE分词,遇到实在处理不了的词时,退回到整词处理(word-level fallback),确保没有任何词被简单地抛弃。
测试结果显示,混合分词器在两项关键指标上表现最优:OOV率为零(完全没有无法处理的词),同时在遮蔽词汇恢复(masked token recovery)任务中的准确率达到25.23%,远超标准mBERT分词器的15.78%,以及BPE-600的3.43%和BPE-800的4.76%。除了数字上的优势,混合分词器还能产生更有语言学意义的切割边界。
论文中给出了一个生动的例子:对于"primpcipat"(一个带有不规范辅音群的词),混合分词器把它切割成"pri, mp, ci, pat",其中"mp"这个片段正好对应了拼写不规范的辅音群变体,帮助模型跨越不同拼写版本识别同一个词;对于"secretament"(副词形式),分词器把结尾的"t"单独切割出来,因为在古奥克语里,副词结尾的"-t"有时会被省略,单独切割出来让模型更好地泛化这种历史性变体。
确定了mBERT加混合分词器的组合之后,团队还对模型进行了领域自适应的遮蔽语言模型(MLM)微调,也就是让模型在大量未标注的奥克语文本上进行"自学",专门适应这门语言的特点。微调的效果非常显著:模型的验证困惑度从942.85骤降至10.44,使用混合词表的版本更进一步降至9.52。困惑度越低,意味着模型对语言的理解越准确,这个数字的变化幅度堪称惊人。
五、词形本身藏着多少秘密?——词汇层面的性别预测
有了合适的模型和分词策略,研究团队开始正式回答第一个核心问题:仅凭一个词的"长相"(形态特征),能不能预测它在奥克语里的性别?
这就像是通过一个人的名字、身高、发型来猜测他的某种属性,而完全不看他在什么场合、和什么人在一起。研究团队从拉丁语词和奥克语词中提取了多种形态特征,分门别类、层层叠加。
首先是字符n-gram特征,也就是单词开头和结尾的字母组合,长度从1到4个字符不等。这是因为在罗曼语系里,词尾往往是性别信息的重要载体,比如以"-a"结尾的词通常是阴性。其次是音节结构特征,包括音节数量和元音-辅音模板(VC模板)。举个例子,"festum"(拉丁语,节日)有两个音节,VC模板是CVCCVC;而它对应的奥克语形式"festa"虽然同样有两个音节,但VC模板变成了CVCCV。"tempus"(时间)在拉丁语里有两个音节,对应的奥克语"temps"只剩一个音节,VC模板也从CVCCVC简化成了CVCCC。这些结构变化本身就是语言演化的痕迹。
研究团队还引入了一个"粗粒度重音位置代理"特征,用启发式规则来估计单词的重音落在哪个音节上(最后一个、倒数第二个还是倒数第三个)。这个特征并非精确的语音学标注,研究者们明确指出它只是一个近似估计,存在一定的噪音。此外,词的长度、拉丁词长度与奥克语词长度之差和比例,也都被纳入了特征集合。
在分类器的选择上,团队没有只押注一种模型,而是测试了一个从简单到复杂的谱系:逻辑回归(线性模型,最透明)、随机森林、XGBoost(树集成方法,非线性但可解释)、前馈神经网络、双向长短时记忆网络(BiLSTM),以及带有多头自注意力机制的双层BiLSTM(最复杂)。为了防止数据泄露,所有实验都采用了以词元(lemma)为单位的10折交叉验证——同一个词的不同拼写变体不会同时出现在训练集和测试集里。
由于数据本身存在明显的类别不平衡(阳性词约是阴性词的两倍),团队使用了焦点损失(focal loss)和类别权重等技术来缓解这个问题,让模型不会简单地偏向多数类。
最终结果显示,在mBERT嵌入加双层BiLSTM加多头自注意力机制的最佳组合下,模型取得了0.8224的宏平均F1分数和0.8327的准确率。ByT5组合的最佳结果为0.8106,FastText为0.7734。值得注意的是,mBERT相对于ByT5的优势经过严格的配对自助法(paired bootstrap)检验,统计显著性极高(p < 10??,95%置信区间为[+0.0250, +0.0543]),绝非偶然。
六、哪些特征最关键?——特征消融与SHAP归因
知道了最佳模型的整体性能,研究团队进一步追问:这些性能是由哪些特征贡献的?哪些特征是"主力干将",哪些只是"凑数的"?
回答这个问题的方法叫做"特征消融"(feature ablation):每次去掉一组特征,看模型性能下降了多少,下降越多,说明这组特征越重要。这就像做一道菜,每次故意漏放一种调料,通过味道的变化来判断每种调料有多关键。
在mBERT为基础的最佳模型上,去掉拉丁语字符n-gram特征后,宏平均F1从0.8224下降到0.8092,下降了0.0132,降幅约1.61%;去掉元数据特征(词长等)后,下降0.0056,降幅0.68%;去掉奥克语n-gram特征后,下降0.0055,降幅0.67%;去掉音节数量特征后,下降0.0030,降幅0.37%;去掉VC模板特征后,下降幅度极小,仅0.0004;而去掉重音位置特征后,模型性能反而略微提升了0.0015,说明这个用启发式规则估算的重音特征不仅没有帮助,还引入了一点噪音。
在FastText和ByT5为基础的实验中,各特征的相对重要性排序基本一致:拉丁语字符n-gram最重要(1.66%和1.83%的降幅),元数据和奥克语n-gram次之,VC模板和重音特征贡献最小。这种高度一致性说明结论是稳健的,不依赖于特定的嵌入模型。
研究团队还使用了SHAP(SHapley Additive exPlanations)方法来可视化特征贡献。SHAP是一种基于博弈论的可解释性工具,能为每个预测案例中的每个特征赋予一个贡献值,并且在全局层面加以汇总。SHAP分析的结果与消融实验高度吻合:词尾的字符n-gram特征(尤其是奥克语和拉丁语的1-gram和2-gram词尾)对模型决策的影响最大,词长等元数据特征居其次,VC模板和重音特征的影响则相对有限。这意味着,对于中世纪奥克语的性别预测来说,"词尾长什么样"是最关键的线索,与历史语言学家长期积累的直觉高度吻合。
七、句子上下文能带来多少额外信息?——语境层面的性别预测
词形本身已经携带了相当多的性别信息,但它并非全部。研究团队的第二个核心问题是:当我们把一个词放进完整的句子里,周围的词(比如定冠词"lo"还是"la",形容词是阳性变化还是阴性变化)能给性别预测带来多少额外帮助?
为了回答这个问题,团队使用了约13万词元的未标注奥克语文本,涵盖法律、诗歌和医学三种文体。他们首先对文本进行了预处理(统一小写、去除重音符号、标准化标点),然后运用一个奥克语-拉丁语词元词典,通过模糊匹配算法将文本中的每个名词与词典里的条目对应起来。
模糊匹配的相似度计算结合了两种方式:余弦相似度(基于语义向量的相似性)和归一化编辑距离(基于字符序列的相似性),两者按0.3和0.7的权重加权组合。只有综合相似度超过0.85的候选匹配才被接受,这个阈值是与奥克语语言学专家反复核对后确定的。
有了包含上下文的数据集,研究团队设计了三种实验配置,形成一组对照实验。第一种叫"仅词汇"(word-only):模型只看奥克语词本身的嵌入、对应的拉丁语词嵌入,以及拉丁语性别的独热编码,完全不看句子上下文。第二种叫"上下文聚焦"(context-focused):模型看完整的句子,但在注意力机制中以目标名词的表示作为查询,让名词"主动"从周围的词里汲取信息,并与拉丁语词和性别信息拼接在一起做预测。第三种叫"遮蔽上下文"(masked-context):将目标名词替换为[MASK]标记,让模型只看名词"缺席"后的句子语境,考察仅凭周围词汇能够还原多少性别信息。
三种配置使用同一个MLP预测头,保证对比的公平性。实验采用了3折以词元为单位的分组交叉验证,固定随机种子为13以保证可重复性。
结果如下:仅词汇配置的准确率为0.808,宏平均F1为0.665;上下文聚焦配置的准确率跃升至0.979,宏平均F1高达0.929;遮蔽上下文配置的准确率为0.977,宏平均F1为0.902。这组数字讲述了一个非常清晰的故事:加入句子上下文之后,性别预测的准确性发生了质的飞跃,宏平均F1从0.665一路攀升至0.929;而当名词自身被遮蔽后,模型仍然能取得0.902的F1,虽然略低于名词可见时的成绩,但远远超过仅靠词汇信息的基线。这说明名词本身的形态特征依然是最主要的性别信号,而句子中的"邻居"(尤其是定冠词和形容词)提供了重要的补充信息。
为了确认上下文不仅提升了准确率,还真实地提高了模型对正确答案的"信心",研究团队计算了概率delta和对数概率delta。具体来说,他们测量了加入上下文后,模型对正确性别标签所赋予的概率相比仅词汇配置提升了多少。结果显示,四种delta统计量(?prob?、?prob?、?logp?、?logp?)均为正值,95%置信区间均不包含零,这意味着上下文的加入在统计上显著地提升了模型对正确答案的确信程度,而非只是碰巧猜对了更多题目。
八、模型在"看"什么?——注意力机制与词性贡献分析
研究团队还深入挖掘了模型的内部机制,试图理解它是"看"哪些词做出预测的。这部分分析让研究从"能不能做到"上升到了"怎么做到的"层面。
在上下文聚焦模型中,团队使用了8头多头自注意力机制,以目标名词的隐藏状态作为查询,整个句子的隐藏状态作为键值对。通过可视化8个注意力头的权重分布,研究者发现了一个符合语言直觉的规律:注意力权重高度集中在目标名词自身上,其次最高的权重通常落在与名词直接相关的冠词上。在奥克语里,"lo"是阳性定冠词,"la"是阴性定冠词,这两个词是性别信息最直接的外显标记。八个注意力头的行为相对分散,没有哪一个头专门负责某种词性,这说明模型在多个维度上综合利用了上下文信息。
进一步的分析使用了词性条件遮蔽(PoS-conditioned occlusion)方法:每次遮蔽句子中属于特定词性的所有词(比如把所有冠词替换为[MASK]),然后观察模型对正确性别的置信度如何变化。置信度下降越多,说明这类词对性别预测的贡献越大。
分析结果(汇总自约20万个词性标记的词汇实例)显示:名词类词汇的遮蔽导致平均delta为+0.0026(遮蔽后置信度下降,说明名词提供了正向信息),冠词/限定词为+0.0010,形容词为+0.0003,这三类都具有统计显著的正向贡献(p < 10??)。相比之下,并列连词(CCONJ)的delta为-0.0010,介词(ADP)为-0.0007,动词(VERB)为-0.0003,这些类别的遮蔽反而让模型信心提升,说明它们提供的是"负向"信息(即它们的存在会干扰预测)。标点符号和代词的delta未达到统计显著性(p值分别为0.096和0.997),说明它们对性别预测几乎没有影响。
这个结果与语言学的直觉高度吻合:性别信息在奥克语句子里主要由名词和与之一致变化的冠词、形容词承载,而动词、介词、连词等不参与性别一致的成分则对性别推断没有正向贡献。
九、当模型犯错时,问题出在哪里?——错误分析
任何模型都不是完美的,研究团队对BiLSTM+注意力模型在所有折叠中产生的294个错误分类案例进行了系统分析,以找出模型的弱点所在。
他们为此训练了一个"元模型"——一个XGBoost错误预测器,输入是57个可解释特征(包括词的形态特征、出现频率、句子属性、词性分布、邻近词的词性等),输出是"这个词会不会被主模型分类错"。然后再用SHAP对这个元模型进行解释,找出哪些特征最能预测错误的发生。最终错误预测器在5折交叉验证下取得了0.62的ROC-AUC,说明错误确实是有规律可循的。
分析揭示了三类主要的错误驱动因素。第一类是"上下文稀疏":当句子中缺乏足够的性别一致词(尤其是右侧紧邻词为形容词时),模型更容易出错。这说明上下文对性别预测的帮助是真实存在的,一旦这些线索缺失,模型就会陷入困境。第二类是"形态歧义":名词出现在句子边界(句首或句尾)时,错误率明显升高,可能是因为边界位置的上下文信息天然更稀少。第三类是"词频效应":中等频率的词比极高频或极低频的词更容易出错,极高频词可能被模型"记住"了,而极低频词则符合规则容易泛化,中间频段的词两头不靠反而最难处理。从性别分布来看,阳性词的错误率略高于阴性词,但差异很小。
此外,当拉丁语信息被从上下文模型中移除时,模型仍然能达到0.961的准确率和0.879的宏平均F1,但上下文所带来的置信度提升(delta值)从约0.28大幅下降到约0.09-0.11,缩小了约3倍。这说明拉丁语词源信息为模型理解词汇的"历史背景"提供了关键的补充,进一步放大了上下文线索的作用。
十、一个具体的案例:AI如何纠正自己的错误
为了让这些抽象的分析结果变得可触摸,论文呈现了一个具体的纠错案例,非常直观地展示了词汇信息与上下文信息的协作关系。
被测试的词是"ome"(意为"人,男人")。仅靠词形信息,模型把它错误地预测为阴性,这个错误颇为反常,因为"男人"按照自然性别应当是阳性。
然后研究团队把这个词放回原始句子:"aquill ome qui tenunt uera fe e pois tornunt en heresia deuent auer atrestal pena cum li altre e tant maior quant maior peccat ill fant."(大意是:那些持有真正信仰但随后转向异端的人,应当与其他人受到同等乃至更重的惩罚,因为他们的罪孽更大。)
加入句子上下文后,模型立即纠正了预测,将"ome"标记为阳性,并且贡献归因分析显示,"aquill"(一个阳性形式的指示代词,相当于"那些")对这次正确预测的贡献最大。换句话说,模型通过读取与名词在性别上保持一致的指示代词,意识到这个词应该是阳性的,从而纠正了自己单凭词形做出的错误判断。这个案例生动地说明了上下文信息在处理形态歧义时的实际价值。
说到底,这项研究最终想告诉我们的,是一个关于语言如何携带信息的基本事实:一个词的性别,从来不只是写在它自己身上的——它分散在词的形状里,也分散在句子里与它为伴的每一个词里。拉丁语的中性词在演化成奥克语时"选择"了哪个性别阵营,既受到词尾形态的约束,也受到历史语境和使用习惯的影响。AI所做的,不过是把这个分散在数千个词对和无数句子里的规律,重新整理成了人类可以理解和验证的形式。
对于那些研究其他濒危语言或历史语言的学者来说,这套框架本身或许比结论更有价值:它提供了一套可操作的方法,用于处理拼写混乱、数据稀少、缺乏标注金标准的语言,而这正是全球数千种"沉默的语言"所共同面临的处境。
当然,研究团队也坦诚地指出了这项工作的局限性。数据规模依然有限,类别不平衡问题虽然通过技术手段缓解但未能根除;重音位置特征是用启发式规则估算的,存在噪音;词性标注器的准确率约为71%,意味着基于词性的分析结果会受到一定程度的标注错误干扰;此外,上下文模型在句子边界处或周围一致性线索稀少时表现更差,这为未来的改进指明了方向。更重要的是,这项研究衡量的是语言信息在同步层面(共时层面)的分布,并未直接回答"是什么历史力量驱动了拉丁语中性词的性别重分配"这个真正的历史语言学问题——那需要平行的历时数据和不同的实验设计,等待未来的研究者去接棒。
感兴趣的读者可以通过arXiv:2605.09156v2查询这篇论文的完整内容,研究团队也在GitHub(https://github.com/ahan2000/Lost-in-Translation-)上开放了全部代码、数据集和实验结果,欢迎进一步探索。
Q&A
Q1:中世纪奥克语的拉丁语中性词变成阳性还是阴性,主要由什么决定?
A:研究发现,词尾的字符序列(也就是单词最后几个字母)是最强的预测信号,比如"-ia"和"-la"结尾更倾向于变成阴性,而"-um"结尾则大多变成阳性。但词尾信息并不是全部,句子中与名词相关联的冠词(如"lo"或"la")和形容词也携带了重要的性别线索,当词形本身不够明确时,上下文往往能提供关键的补充信息。
Q2:为什么在中世纪奥克语研究里,普通的分词方法行不通?
A:中世纪奥克语的拼写极度不稳定,同一个词在不同的手稿里可能有七八种写法,没有统一的规范。普通的分词器会把大量不认识的词标记为"未知",白白丢失信息。研究团队设计的混合分词器将定制训练的BPE分词与整词备用方案结合,在实验中实现了零"未知词",同时遮蔽词汇恢复准确率达到25.23%,远超其他方案。
Q3:仅靠词本身的形态能预测奥克语性别到什么程度?
A:在最佳模型配置(mBERT嵌入加双层BiLSTM加多头自注意力机制)下,仅凭词汇形态特征进行性别预测的宏平均F1可以达到0.8224。加入完整句子上下文后,这一指标跃升至0.929。两者的差距说明词形信息是主要来源,但句子上下文额外贡献了不可忽视的判断依据。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。