微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

ModernGBERT：德国语言的新标杆，维尔茨堡大学推出全透明1B参数编码器模型

自然语言处理德语编码器模型长文本理解

ModernGBERT：德国语言的新标杆，维尔茨堡大学推出全透明1B参数编码器模型

作者：科技行者

2025-05-30 11:16

分享至：

这篇论文介绍了ModernGBERT，一个由维尔茨堡大学研究团队开发的高性能德语编码器模型家族（1.34亿和10亿参数版本）。研究将ModernBERT的创新架构应用于德语，同时通过LLM2Vec方法将德语解码器模型转换为编码器以进行对比研究。在SuperGLEBer和MTEB等基准测试中，ModernGBERT 10亿参数模型不仅超越了之前最先进的德语编码器，还在性能和参数效率方面优于转换后的编码器。研究团队还证明了更大模型能有效利用大规模单语语料库，为德语自然语言处理提供了全透明、高性能的资源。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 11:16 • 科技行者

在自然语言处理技术日新月异的今天，虽然解码器模型（如ChatGPT这类大语言模型）风头正盛，但编码器模型依然在很多实际应用中扮演着不可替代的角色。这就像是虽然智能手机风靡全球，但专业相机在特定场景下仍有其独特价值一样。近日，来自德国维尔茨堡大学的研究团队发布了一项重要研究成果：ModernGBERT，一个完全透明的德语编码器模型家族。这项研究由Anton Ehrmanntraut、Julia Wunderle、Jan Pfister、Fotis Jannidis和Andreas Hotho共同完成，于2025年5月发表在arXiv预印本平台，编号为2505.13136v1。

研究团队来自维尔茨堡尤利乌斯-马克西米利安大学(JMU)的人工智能与数据科学中心(CAIDAS)，他们的目标是为德语自然语言处理社区提供更高效、更强大的工具。想象一下，如果德语是一座古老的城堡，那么ModernGBERT就是一把能打开城堡各个房间的精巧钥匙，让人们能更深入地理解和利用德语文本中的丰富信息。

为什么编码器模型在解码器模型大行其道的今天仍然重要？这就像是虽然大型超市能提供各种商品，但专业精品店在特定商品上仍有其不可替代的优势。编码器模型以其双向注意力机制，能够更全面地理解文本，同时所需计算资源更少，特别适合在资源受限的环境下部署，比如为本地搜索引擎提供支持。

研究团队开发了两个版本的ModernGBERT：一个拥有1.34亿参数的小型模型和一个拥有10亿参数的大型模型。为了全面评估从头训练编码器模型的实际效果，他们还开发了LLaMmlein2Vec系列模型（包括1.2亿、10亿和70亿参数版本），这些模型是通过LLM2Vec技术从德语解码器模型转换而来。通过这种设计，研究人员能够系统地比较不同架构和训练策略的优劣。

所有这些模型都在自然语言理解、文本嵌入和长文本推理任务上进行了严格测试。结果令人振奋：ModernGBERT 1B模型不仅超越了之前最先进的德语编码器模型，还在性能和参数效率方面优于通过LLM2Vec适配的编码器。这就像是一辆精心设计的紧凑型汽车，不仅速度快，油耗还低。

最令人称道的是，研究团队完全公开了所有模型、训练数据、检查点和代码，为德语自然语言处理生态系统提供了透明、高性能的编码器模型资源。这种开放态度无疑将推动德语自然语言处理技术的进一步发展。

一、研究背景与动机

在人工智能领域，虽然像ChatGPT这样的解码器型大语言模型已经成为明星，但编码器模型仍然在很多场景中有着不可替代的价值。就像虽然智能手机功能全面，但专业相机在拍摄质量上仍有优势一样。

在德语自然语言处理领域，GBERTLarge（拥有3.37亿参数）一直是广受欢迎的编码器模型。尽管它规模不大，训练数据也有限（只有163GB），但它在各种任务上的表现仍能与大得多的德语解码器模型相媲美，正如Pfister和Hotho在2024年的研究中所证明的那样。这就像是一位经验丰富的老师，虽然没有最先进的教学设备，但凭借深厚的知识积累和教学技巧，仍能帮助学生取得优异成绩。

最近，Warner及其团队在2024年推出的ModernBERT为英语编码器带来了多项架构改进，包括增强的相对位置嵌入和高效的注意力模式，使模型能够处理更长的文本。这些创新就像是为老式汽车安装了更高效的引擎和更精确的导航系统，大大提升了其性能和适用范围。

受此启发，同时借鉴了Pfister等人在2024年成功开发的LLaMmlein（一个在约6TB的RedPajamaV2文本上透明训练的德语解码器模型家族）的经验，研究团队决定开发ModernGBERT——一个完全开放、高性能的德语编码器模型家族，包括1.34亿和10亿参数两个版本。

这个项目不仅能探索ModernBERT的架构创新对德语编码器性能的影响，还能研究当在大规模单语语料库上训练时，参数规模如何影响模型质量。这就像是进行一项精心设计的烹饪实验，探索不同配方和烹饪技巧如何影响最终菜肴的口感和风味。

为了更全面地评估从头训练编码器模型的实用性和权衡，研究团队还开发了LLaMmlein2Vec编码器（1.2亿、10亿和70亿参数），这些模型是使用LLM2Vec方法从解码器模型转换而来的。由于所有模型都基于相同的训练数据集，这种设置为系统分析不同架构和训练策略之间的关系提供了基础。

研究团队通过多种方式对这些模型进行了全面评估：自然语言理解能力（使用SuperGLEBer基准）、嵌入性能（使用MTEB）以及长文本理解能力（使用问答针头在干草堆中任务）。研究发现：

1. ModernGBERT 1.34亿和10亿参数模型是高度竞争力的德语编码器，能够很好地处理长达8,192个标记的文本，其中10亿参数版本超越了之前最先进的GBERTLarge。

2. LLaMmlein2Vec 70亿参数模型也优于GBERTLarge，尽管在相似规模下，专门训练的编码器仍然优于转换后的模型。

这些发现为德语自然语言处理领域提供了宝贵的见解和强大的新工具，就像是为建筑师提供了更精良的设计软件，使他们能够创造出更精美、更实用的建筑作品。

二、数据集的选择与处理

任何卓越的模型背后都离不开高质量的数据，就像烹饪美食需要新鲜优质的原料一样。研究团队在数据集的选择和处理上投入了大量精力，确保ModernGBERT能够学习到丰富、多样的德语知识。

首先，研究团队使用了与LLaMmlein解码器模型相同的预训练数据，即开源的RedPajamaV2数据集。这个数据集包含了2014年至2023年间的德语CommonCrawl快照。为了保持ModernGBERT和LLaMmlein之间的数据一致性，研究团队遵循了LLaMmlein的数据处理流程，选择了质量更高的文档级去重的"头部"和"中部"部分，排除了质量较低的"尾部"部分。对于1.34亿参数的模型，研究团队只选择了头部部分数据。

数据处理过程也相当精细。首先，使用布隆过滤器进行段落级别的去重，移除冗余内容，如GDPR通知和网页样板文本，从而提高数据多样性。然后，应用token-to-word比率过滤器进一步提高文本质量。最终的数据集约为6TB，其中头部约2TB，中部约4TB。使用GBERTLarge分词器，这相当于约1.27万亿个标记。

除了预训练数据集，研究团队还构建了上下文扩展数据集，这是模型能够处理长文本的关键。就像运动员不仅需要基础训练，还需要专项训练来提升特定能力一样，模型也需要特定的数据来增强其长文本处理能力。

ModernBERT通过两个阶段的微调来增强其上下文容量，从1,024提高到8,192：首先在原始预训练数据集的约250B标记子样本（8,192标记序列）上进行训练，然后在一个精心策划的约50B标记数据集上训练，该数据集混合了短序列和长序列（最长8,192标记）。

遵循这一设置，研究团队构建了自己的德语上下文扩展数据集：对于第一阶段，他们从预训练数据集中抽样长序列；对于第二阶段，他们使用了被称为"HQ"的高质量数据集，包括德语部分的Fineweb2数据集、德语维基百科和OpenLegalData转储。整个HQ数据集包含144亿个标记。

这种精心设计的数据集为ModernGBERT提供了坚实的学习基础，就像为学生提供丰富多样的教材和练习，使他们能够全面发展各种技能。通过这种方式，模型不仅能够理解各种德语文本，还能处理长达8,192个标记的长文档，大大扩展了其应用范围。

三、模型架构与训练方法

当我们谈论模型架构时，可以将其想象为建筑的骨架和布局。不同的架构就像不同风格的建筑，各有其特点和优势。研究团队在本研究中采用了两种主要方法：从头训练编码器模型（ModernGBERT）和将解码器模型转换为编码器（LLaMmlein2Vec）。

ModernGBERT模型采用了ModernBERT的架构和训练策略，并针对德语进行了调整。ModernGBERT 1.34亿参数模型与基础ModernBERT模型大小相当（22层，768个隐藏单元，但由于词汇量较小，参数比原版少1600万），而ModernGBERT 10亿参数版本则由28层和2,048个隐藏单元组成。

两个模型都遵循ModernBERT的预训练方法：使用掩码语言建模（MLM）而不进行下一句预测，采用30%的掩码率，序列长度最多为1,024个标记（RoPE theta为10,000）。ModernGBERT 10亿参数版本先在头部分区然后在中部分区上训练，总共使用了1.27万亿个标记；而ModernGBERT 1.34亿参数版本仅在头部分区（0.47万亿个标记）上训练，因为下游评估显示它很早就达到了饱和。

在MLM训练后，研究团队按照ModernBERT的方法进行了两个阶段的上下文长度扩展，将RoPE theta提高到160,000并在更长的序列上进行训练。在第一个扩展阶段，1.34亿参数模型在LONG-Head上训练，10亿参数模型在LONG-Head/Middle上训练。在第二阶段，两个模型都在HQ数据集上训练。

值得注意的是，研究团队没有开发新的德语分词器，而是使用了原始的BERT风格的GBERTLarge分词器（产生31,168个词嵌入层）。虽然LLaMmlein提供了专用的德语Llama风格分词器，但初步测试一致显示其导致下游性能下降，这与Warner等人在开发原始ModernBERT时观察到的结果一致。

在训练过程中，保存并评估了检查点，所有检查点都公开发布以支持进一步研究。此外，研究团队记录并发布了训练过程中看到的数据点顺序，使所有检查点都能与看到的确切数据点联系起来，这种透明度对科学研究至关重要。

对于LLM2Vec方法，其核心思想是将解码器型大语言模型转换为有效的文本编码器。这个过程包括几个步骤：首先，将因果注意力掩码替换为全注意力掩码，使标记之间能够进行双向注意；其次，使用掩码下一标记预测（MNTP）目标训练模型；第三，应用无监督对比学习（SimCSE）改进嵌入质量。

为了与ModernGBERT的训练目标保持一致，研究团队仅使用MNTP目标训练了所有三个LLaMmlein模型。与ModernGBERT一样，LLaMmlein2Vec模型也进行了两个上下文扩展阶段，每个阶段使用相应的两个数据集：LLaMmlein2Vec 1.2亿参数模型遵循ModernGBERT 1.34亿参数版本（第一阶段使用LONG-Head，第二阶段使用HQ）；LLaMmlein2Vec 10亿和70亿参数模型遵循ModernGBERT 10亿参数版本（第一阶段使用LONG-Head/Middle，第二阶段使用HQ）。

对于每个模型，研究团队在每个相应数据集上单独应用MNTP训练，产生两个不同的适配器模块——每个阶段一个。他们评估了单独的适配器（ext1和ext2）以及合并模型（ext1+2）。值得注意的是，即使没有看到全部训练数据，这些模型也能达到相当的结果，这与Pfister等人在2024年的观察一致，表明未来训练可能减少计算量。

通过这种精心设计的架构和训练方法，研究团队创造了强大而灵活的德语编码器模型，能够有效处理各种自然语言处理任务，从短文本分类到长文档理解，为德语自然语言处理提供了全新的可能性。

四、评估方法与实验设计

要评估一个模型的优劣，就像品尝一道菜肴，需要多角度、多维度的测试。研究团队设计了全面而严格的评估体系，从多个方面检验模型的能力。

首先，研究团队使用德语SuperGLEBer基准评估模型的自然语言理解能力。这个基准包括29个任务，涵盖文本分类、序列标注、问答和句子相似性等多个领域，涉及新闻、法律文本和消费者评论等多样化的领域。对于每个任务，默认使用QLoRA（一种高效的微调方法）或在必要时使用LoRA进行微调。除了评估最终检查点外，研究团队还按照LLaMmlein的方法评估了中间检查点，使用代表性的SuperGLEBer子集：NLI、FactClaiming Comments、DB Aspect、WebCAGe、EuroParl和PAWSX。

其次，研究团队在德语版本的大型文本嵌入基准MTEB(deu,v1)上评估了模型。除了SuperGLEBer已经涵盖的文本对分类和语义文本相似性外，MTEB还包括聚类、重新排序和检索任务。这些任务能更全面地评估通用句子嵌入的能力，特别关注模型产生稳健语义表示的能力。

为了适应嵌入任务，研究团队使用Sentence-Transformer框架在监督设置下微调了基础模型。微调使用了德语部分的机器翻译多语言mMARCO段落排序数据集的10,000个样本，最大化查询和正面段落之间的相似性，同时最小化与负面段落的相似性。句子嵌入通过对最终标记表示进行平均池化获得，使用InfoNCE损失函数，批量大小为128，学习率为5×10^-5。

第三，研究团队评估了模型的长文本理解能力。在德语中评估长文本能力面临高质量原生数据集稀缺的挑战，从英语翻译的数据集往往会引入人工痕迹。为了解决这个问题，研究团队基于人工标注的GermanQuAD数据集构建了一个问答针头在干草堆中（QA-NIAH）评估。给定一个问题，目标是从长文档中提取答案跨度。他们将GermanQuAD调整为QA-NIAH设置：对于每个问题-段落（"针头"）对，他们抽样最多3个干扰段落并与针头段落一起打乱，形成最多1,024个标记的"干草堆"文档。答案始终仅出现在针头段落中。在评估时，他们将干扰增加到最多20个，产生长达8,192个标记的文档，这样可以测试模型对长文本的理解能力。

最后，研究团队还评估了模型的推理效率。使用四个综合数据集（包括固定长度序列和正态分布序列长度）评估了不同序列长度下的推理效率。ModernGBERT模型采用了ModernBERT的unpadding方法：移除填充标记并将批次中的序列连接起来，允许Flash Attention处理可变长度的注意力掩码。这种计算等价性通过精心制作适当的注意力掩码实现。相比之下，所有其他模型都依赖传统的填充方式。

通过这些全面而严格的评估方法，研究团队能够客观、全面地评估不同模型在各种任务上的表现，为德语自然语言处理社区提供有价值的参考。这种多角度的评估就像是对一款新车进行全方位的测试，从速度、油耗到舒适性、安全性等各个方面进行评估，确保用户了解其全面性能。

五、研究结果与发现

经过全面而严格的评估，研究团队获得了一系列令人振奋的发现，这些发现不仅验证了他们的设计选择，还为未来的研究提供了宝贵的指导。

首先，通过评估训练过程中的中间检查点，研究团队发现了有趣的训练动态模式。ModernGBERT 10亿参数模型的平均性能在整个训练过程中稳步提高，而ModernGBERT 1.34亿参数模型则很快达到饱和。具体来说，ModernGBERT 1.34亿参数模型在720亿个标记（数据的15%）后停滞，没有进一步的显著改进。相比之下，ModernGBERT 10亿参数模型在相同数据集部分上显示出显著的提升（p < 0.0001），并在中部分区训练期间继续获得收益（p < 0.00052）。然后，性能在8640亿个标记（整个预训练数据集的67%）后趋于平稳，SuperGLEBer分数仅从0.777略微增加到0.791，尽管又处理了4060亿个标记。

在六个选定的子任务上，对于1.34亿参数变体，只有PAWSX显示出训练标记数量与性能之间显著的正相关关系（r = 0.655；p < 0.003），而其他任务则没有。对于10亿参数变体，除了EuroParl外，所有任务都显示出显著的正相关关系（r > 0.57；p < 0.00014）。特别是，尽管在预训练的最后三分之一中总体分数基本保持稳定，但在复杂任务如NLI和PAWSX上，随着训练的增加，我们仍然看到轻微的改进。

这些饱和模式，包括每个任务的趋势和整体性能平台，与Pfister等人（2024年）对解码器模型的发现以及Antoun等人（2024年）对他们的ModernBERT变体ModernCamemBERT（1.36亿参数）的法语训练结果一致。这些结果证实，虽然小型ModernBERT模型很快达到饱和，但更大的模型能够从额外数据中受益。根据ModernGBERT 1.34亿和10亿参数之间观察到的扩展行为，研究团队推测，训练更大的70亿参数编码器可能能够进一步利用广泛的单语数据集，超越ModernGBERT 10亿参数的性能。

在自然语言理解评估中，ModernGBERT模型在SuperGLEBer基准上表现出色。ModernGBERT 1.34亿参数变体的平均分数为0.749，超过了所有类似大小的基线，包括GBERTBase（0.718）、XLM-RoBERTaBase（0.689）、GeBERTaBase（0.716），甚至XLM-RoBERTaLarge（0.730）和LLaMmlein 10亿参数（0.733）。ModernGBERT 10亿参数变体在整个SuperGLEBer上取得了0.808的新最先进平均分数，比GBERTLarge（0.768）高出4%，并击败了参数量是其七倍的LLaMmlein2Vec 70亿参数模型（0.787）。它在四个评估类别中的三个中领先，包括分类（0.812）、命名实体识别（0.845）和问答（0.876）。只有在句子相似性（0.699）上，参数量是其七倍的LLaMmlein2Vec 70亿参数模型才取得更好的结果。

通过LLM2Vec适配也为各个模型带来了一致的收益。第一次LLM2Vec调整（类似于ext1）显示出最明显的积极效果，而使用ext2数据集的第二次微调仅显示出边际增加，甚至有时会导致性能下降。LLaMmlein 1.2亿、10亿和70亿参数模型的平均分数分别提高了0.8%、2.9%和4.0%。这种效果在PAWSX上尤为明显，LLaMmlein 70亿参数和10亿参数的得分分别提高了14.6%和6.7%。

比较LLaMmlein2Vec和ModernGBERT家族，研究团队发现在相似大小的模型上，ModernGBERT始终以较大幅度优于转换后的解码器。只有更大得多的LLaMmlein2Vec 70亿参数模型才接近ModernGBERT 10亿参数的性能。

在文本嵌入评估中，研究团队在MTEB基准上评估了模型，该基准涵盖六个任务类别：分类、对分类、聚类、重新排序、检索和短文本相似性（STS）任务。对mMARCO的监督微调在所有模型类型中都带来了一致的改进。虽然分类性能有时会下降，但在其他领域可以观察到显著的收益：重新排序平均提高25%，检索提高26%，STS提高25%。

最佳的总体平均性能由微调后的LLaMmlein2Vec 70亿参数模型（0.557）取得，紧随其后的是微调后的ModernGBERT 10亿参数模型（0.551），尽管后者的参数明显更少。LLaMmlein2Vec模型在微调后普遍表现强劲，特别是当使用第一阶段的扩展数据集（ext1）训练时。使用第二阶段的扩展数据集（ext2）或将两个适配器合并到基础模型中（ext1+2）会损害性能。有趣的是，后者在三个变体中显示出最大的微调收益。

ModernGBERT模型与类似大小的模型相比具有竞争力。在微调前，ModernGBERT 10亿参数模型（平均0.366）已经优于大多数编码器模型，如GeBERTaXLarge（0.325）或XLM-RoBERTaXLarge（0.301），但不如GBERTLarge（0.412）。然而，微调后，它在原生编码器模型中展示出明显的优势，平均得分至少高出3%。与在SuperGLEBer基准上的观察一样，ModernGBERT的上下文扩展在这里没有显示出显著的改进。

比较ModernGBERT和LLaMmlein2Vec，研究团队发现在微调前，LLaMmlein2Vec 10亿和70亿参数模型产生的表示比ModernGBERT 10亿参数模型更好。然而，微调后，ModernGBERT 10亿参数模型在平均上超过了LLaMmlein2Vec 10亿参数变体，并与更大的70亿参数模型紧密对齐。

在长文本理解评估中，ModernGBERT 10亿参数模型在所有长度上都表现出强大的长文本性能，优于所有编码器。ModernGBERT训练期间的第一个扩展阶段带来了强劲的改进，将准确率提高了约3倍，但HQ数据集上的最终扩展阶段略微降低了性能，尤其是对于1.34亿参数变体。

对于LLM2Vec，足够长的转换改善了长文本理解。将LLaMmlein 1.2亿和10亿参数解码器（原生上下文长度为2,048）转换分别提高了1.3倍和2倍的准确率，但与ModernGBERT编码器相比不那么明显。然而，对于LLaMmlein2Vec 70亿参数模型（使用LLM2Vec在我们ext1数据集的约一半上训练），准确率下降了51%，在超过4,096个标记的干草堆上没有正确答案。考虑到密集的计算需求，研究团队没有进一步探索LLaMmlein2Vec 70亿参数模型的上下文扩展优化。

最后，在推理效率方面，研究团队评估了不同序列长度下的推理效率。在较小的模型（1.34亿或1.2亿参数）中，ModernGBERT和LLaMmlein2Vec在固定长度数据上实现了相当的效率，两者都仅次于GBERTBase和XLM-RoBERTaBase在短序列上的效率。

对于10亿参数变体，ModernGBERT在推理速度上始终优于LLaMmlein2Vec 10亿和70亿参数变体，这可能得益于其为效率优化的架构决策，如确保权重矩阵的维度是64的倍数，并可分为128×256块以便在GPU上高效分块。在可变长度数据集上，收益最为明显：1.34亿参数的ModernGBERT是可变长度上最高效的模型，而10亿参数变体大大超过了其LLaMmlein2Vec对应模型。此外，考虑到ModernGBERT 10亿参数和LLaMmlein2Vec 70亿参数在MTEB上的性能相当，ModernGBERT模型在可变长度长文本文档上的速度是LLaMmlein2Vec的10倍。同样的趋势在ModernGBERT 10亿参数与其10亿参数LLaMmlein2Vec对应物相比时更为明显，后者始终被前者超越，而前者在这些长文档上的效率是后者的两倍。

总体而言，当考虑计算效率和下游性能指标之间的权衡时，ModernGBERT始终是最佳解决方案——经常在两个维度上同时优于LLaMmlein2Vec。这些全面的评估结果不仅验证了研究团队的设计选择，还为德语自然语言处理社区提供了宝贵的参考，帮助研究人员和开发者根据自己的具体需求选择最合适的模型。

六、结论与未来展望

研究团队通过这项工作清晰地证明了，无论是ModernBERT中的架构进步还是LLM2Vec的解码器转换方法，都能产生强大的德语编码器模型。提出的ModernGBERT家族，特别是10亿参数变体，为德语编码器设立了新的最先进水平，超越了之前的模型，同时保持了适合实际部署的特性——能够作为GBERT的即插即用替代品，能够处理长达8,192个标记的序列。

通过学习动态分析，研究团队确认了更大的编码器架构能够有效利用TB级德语单语语料库，随着模型大小和数据增加，性能持续提升。这些趋势表明，更大的编码器模型可能会带来进一步的收益，这是留给未来工作的课题。

通过比较基于相同数据集的ModernGBERT和LLaMmlein2Vec（从LLaMmlein转换而来），研究团队发现，当参数效率至关重要时，专门训练编码器会产生更好的结果，证明其计算成本是合理的。通过发布ModernGBERT，以及完整的训练透明度、中间检查点和详细文档，研究团队旨在促进德语自然语言处理社区内的进一步发展和理解。

虽然ModernGBERT模型是德语自然语言处理领域的重要进步，但研究团队也承认存在一些局限性：首先，模型只关注德语，无法利用多语言上下文或执行跨语言任务；其次，由于训练数据集中缺乏高质量的德语编码资源，模型在代码检索应用中的能力受限；第三，虽然模型在德语SuperGLEBer和MTEB基准上经过了严格评估，但这些基准在领域方面有限，如文学、医学领域或技术主题未经测试；第四，研究团队使用了原始的BERT风格GBERT分词器，而非开发自定义分词器；最后，由于缺乏高质量的原生德语评估数据集，长文本理解的评估不得不依赖非自然的QA-NIAH序列。

未来的工作方向包括开发更大的编码器模型，可能是70亿参数规模，以进一步探索德语单语语料库的潜力；开发专用的高质量非合成德语长文本评估基准；以及探索多模态能力的融合，如视觉-语言理解。

总之，ModernGBERT代表了德语自然语言处理的重要里程碑，为研究人员和开发者提供了强大、高效且透明的工具，推动了该领域的进一步发展。通过开放所有模型、数据和代码，研究团队不仅贡献了有价值的资源，还促进了开放科学和协作研究的精神，这将最终有利于整个科学社区和广大用户。

自然语言处理德语编码器模型长文本理解

分享至