2025年5月,来自SpeakLeash和ACK Cyfronet AGH合作团队的研究人员发布了一项重要成果——Bielik 11B v2语言模型。这个专为波兰语优化的大型语言模型由Krzysztof Ociepa、Lukasz Flis、Remigiusz Kinas、Krzysztof Wróbel和Adrian Gwozdziej共同开发,标志着波兰语人工智能能力的重大飞跃。研究论文《Bielik 11B v2 Technical Report》已于2025年5月8日在arXiv预印本平台上发布。
想象一下,如果英语使用者可以轻松使用ChatGPT,那么波兰语使用者也应该有一个同样强大的语言模型来理解和生成他们的母语。Bielik 11B v2正是朝着这个方向迈出的坚实一步。这个模型就像是专门为波兰语定制的数字翻译官,不仅能够流利地"说"波兰语,还能深入理解波兰文化背景和语言细微差别。
一、为什么Bielik 11B v2值得关注?
当我们谈论人工智能语言模型时,通常想到的是英语为主的系统。然而,世界上有数千种语言,每种语言都有其独特的结构和表达方式。波兰语作为一种西斯拉夫语言,有着复杂的语法结构和丰富的词形变化,为AI模型处理带来了特殊挑战。
过去几年,波兰语言模型领域已有一些值得注意的尝试。例如,TRURL 2基于Llama 2架构,使用了约100万个对话样本进行训练;Qra模型使用了900亿个波兰语标记进行预训练;PLLuM模型由波兰学术机构联盟开发,基于Llama和Mistral模型继续预训练。虽然这些努力取得了一定成果,但在性能、通用性或可访问性方面都面临着限制。
Bielik 11B v2的研究团队选择了一条不同的道路。他们没有从零开始构建模型,而是聪明地基于已有的强大基础——Mistral 7B v0.2架构,并通过深度上扩展(depth up-scaling)方法将其扩展到了11B参数,找到了性能和计算效率之间的最佳平衡点。
想象一下,如果把语言模型比作一座建筑,Bielik团队没有选择推倒重建,而是在一座优秀的基础结构上,精心添加了更多楼层和功能区,使其特别适合波兰语环境。这种策略不仅节省了时间和资源,还保留了原始模型的优势,同时针对波兰语进行了深度优化。
二、技术创新:加权指令交叉熵损失与自适应学习率
Bielik 11B v2的成功不仅来自于其架构选择,还源于研究团队引入的两项关键技术创新。
第一项创新是"加权指令交叉熵损失"(Weighted Instruction Cross-Entropy Loss)。这听起来可能有些复杂,但我们可以用一个简单的例子来理解:想象你正在学习烹饪,有些食谱写得非常详细清晰,而另一些则粗略模糊。自然地,你会更多地参考那些高质量的食谱,对不太清晰的食谱给予较少的关注。同样,Bielik模型在训练过程中也采用了类似的策略——根据训练样本的质量为它们分配不同的权重,确保模型从高质量的指令中学习更多。
具体来说,模型在计算损失函数时,会根据指令质量赋予每个样本一个权重值wi,范围在0到1之间。高质量的指令获得更高的权重,低质量的指令获得更低的权重。这样,模型可以更有效地从不同质量的训练数据中学习,同时减少低质量样本可能带来的负面影响。
第二项创新是"自适应学习率"(Adaptive Learning Rate)。继续我们的烹饪类比,想象你在学习不同复杂度的菜谱:有些简单的食谱你很快就能掌握,而复杂的食谱则需要更多的时间和注意力。Bielik模型采用的自适应学习率就是根据上下文长度动态调整学习速度——对于更长、更复杂的内容,模型会相应地调整学习参数。
具体实现时,学习率会根据当前批次中的标记数量(T)与基准批次大小(BS)的比率的平方根进行缩放:
ALR = LR · √(T/BS)
这种方法确保了无论指令长度如何变化,每条指令在训练过程中都能保持一致的影响力,从而提高了学习效率和模型表现。
这两项技术创新,加上对高质量训练数据的精心准备,使Bielik 11B v2能够在性能上超越许多参数量为其2-6倍的大型模型,展现出卓越的参数效率。
三、模型架构:深度上扩展的智慧选择
Bielik 11B v2的基础架构建立在Transformer技术之上,这是现代语言模型的主流架构。但研究团队并非简单复制,而是对其进行了多项优化,使其特别适合波兰语处理。
模型拥有50层,4096维度的隐藏状态,32个注意力头和8个键值头,以及14336的中间层大小。它使用SwiGLU激活函数,词汇表大小为32128,最大上下文长度为32768。乍看这些数字可能让人眼花缭乱,但我们可以把它想象成一座精心设计的多层建筑,每一层都有特定的功能,共同协作处理语言信息。
特别值得一提的是Bielik采用的"深度上扩展"(Depth Up-Scaling)方法。研究团队从原始的Mistral 7B v0.2模型(32层)出发,巧妙地复制其层并在连接处移除了8个初始层和8个最终层,最终得到了一个50层的模型结构。这就像是把一栋建筑的中间楼层复制,然后精心调整连接处,最终得到一座更高但结构稳定的建筑。
选择扩展到50层的决定是经过深思熟虑的—这样的规模能够达到约11B参数,同时仍然可以在具有24GB VRAM的消费级GPU上舒适运行。这种参数规模和实用性之间的平衡是Bielik 11B v2的一大优势。
模型还保留了原始Mistral 7B模型的分词器,并仅添加了聊天模板所需的特殊标记,使词汇表从32,000扩展到32,128。这种决策再次体现了研究团队对资源的高效利用—他们专注于语言适应,而非从零开始构建,从而优化了时间和计算资源的分配。
四、数据准备:高质量波兰语数据的精心筛选
任何语言模型的成功都离不开高质量的训练数据。Bielik团队在这方面投入了大量精力,构建了一个多样化且高质量的波兰语语料库。
研究团队首先从SpeakLeash项目中挑选了4100万个文档,确保主题多样性和高质量。这些文档经过全面的清洗和质量评估,移除了损坏或无关的内容,匿名化了个人数据(包括物理地址、电子邮件、电话号码和网址),并解决了编码或格式问题。
为了评估文本质量,研究团队手动选择并注释了文档,将它们分为三类:高质量(HIGH)、中等质量(MEDIUM)和低质量(LOW)。这种分类方法解决了评估文本质量固有的复杂性,就像美食评论家会给餐厅分为不同星级一样。
对于Bielik v2模型,注释数据集大幅扩展,包含20,000个训练样本、1,500个测试样本和500个验证样本。每个文档由150个精心选择的文体特征向量表示。除了标准的语言和结构指标(如动词、名词、句子和标点符号的频率)外,更新的特征集特别强调了与Markdown格式文本相关的特性。
新引入的Markdown专注特征包括:有序列表项、超链接、图像、内联代码片段、代码块、引用块、水平规则和特殊Markdown字符的计数。此外,还纳入了表格格式的详细分析,如管道字符频率和表头与表体对齐情况。
这个全面的特征集是基于StyloMetrix工具的方法开发的,并专门针对Markdown文本分析进行了增强。使用这种丰富的文体和Markdown感知表示,研究团队评估了多种机器学习算法,XGBoost分类器最终脱颖而出,成为区分所定义质量类别的最有效工具。
经过在留出的验证和测试集上的严格评估,模型在验证集上达到了86%的总体准确率和0.79的宏平均F1分数,在测试集上达到了94%的总体准确率和0.85的宏平均F1分数。这表明模型在识别高质量和低质量文档方面表现特别强劲。
通过手动分析1,000个文档,研究团队确定了一个可靠的阈值,以识别适合纳入下游训练语料库的高质量文本:HIGH质量类别的预测概率超过90%。低于此阈值的文档被系统地从Bielik v2模型的最终训练数据集中排除。
最终,研究团队精心构建了一个包含1980亿标记(9600万文档)的训练数据集。其中包括来自SpeakLeash项目的900亿波兰语标记,以及来自SlimPajama数据集的英语文本,这些文本以其多样性和质量而闻名。此外,他们还纳入了原本为监督微调(SFT)构建的指令数据集,以便更好地与后续训练阶段保持一致。
五、训练过程:精细优化与监控
Bielik 11B v2的训练过程分为两个主要阶段:预训练和后期训练,每个阶段都经过精心设计,以确保模型达到最佳表现。
在预训练阶段,研究团队使用AdamW优化器,配置了β1=0.9、β2=0.95的超参数和0.1的权重衰减。学习率遵循余弦衰减计划,从2×10^-5开始,减小到9×10^-6,有50次迭代的预热期。训练在97,250次迭代中进行,使用全局批次大小为128的Megatron-LM,张量并行度为4。梯度裁剪范数设置为1.0,并使用bfloat16启用了混合精度训练。模型在1980亿标记上训练了两个周期,最大上下文长度为32,768标记。
为了确保预训练过程的质量,研究团队仔细监控了模型在OpenLLM PL和OpenLLM EN基准测试上的性能进展。在整个训练过程中,定期保存模型检查点并进行相应的基准测试。研究团队发现,基准性能随时间的退化通常表明数据集相关问题,而且很少是可逆的。
在完成预训练阶段后,研究团队进入了后期训练阶段,旨在增强模型在各个领域的表现,包括编码、数学、逻辑推理和指令跟随。由于缺乏足够大且开放的波兰语指令和对话数据集,研究团队开始构建自己的数据集,该数据集由人类注释者不断扩展和完善。这个数据集通过创建指令和对话手动策划,确保高质量、相关的内容,专门针对波兰语言。
为了补充手动注释的数据,研究团队还使用Mixtral 8x22B生成了额外的指令和对话。最终用于训练的数据集包括超过2000万条指令,总计超过100亿标记。指令和对话跨多个类别分布,主要包括对话(16.4%)、写作(17.1%)、知识/STEM(1.2%)、知识/人文(2.9%)、提取/问答(34.4%)、提取(7.3%)、提取/JSON(2.0%)、提取/工具使用(2.3%)、编码(3.9%)和数学(13.5%)。
在监督微调(SFT)阶段,研究团队采用了多项创新技术。首先是掩码标记策略,选择性地对输出的特定部分应用损失函数,特别是对用户指令和控制标记进行掩码。这确保这些标记在训练过程中不会对总损失产生贡献,使模型能够专注于从实际内容标记中学习。其次是自适应学习率,根据上下文长度动态调整学习速度,确保无论指令长度如何变化,每条指令在训练过程中都能保持一致的影响力。第三是加权指令交叉熵损失,为每个训练样本分配基于质量的权重,使模型能够优先学习高质量指令,同时仍然从较低质量的样本中获益。
对于监督微调,研究团队使用AdamW优化器,配置了β1=0.9、β2=0.95的超参数和0.05的权重衰减。学习率从7×10^-6开始,衰减到6×10^-7,有50次预热迭代。他们采用了样本打包技术,将数据集中的多个样本连接到单个序列中,最大序列长度为8,192标记。模型训练了3个周期。
为了将模型与用户偏好保持一致,研究团队尝试了多种技术,包括DPO、PPO、KTO、ORPO和SiMPO。他们还开发了一个基于偏好数据的波兰语奖励模型。最终,研究团队采用了DPO-Positive(DPO-P)方法。这种方法不仅关注相对偏好,还通过一个额外的损失项惩罚优先响应相对于参考模型的概率减少,确保模型不仅偏好首选响应而非次选响应,还维持或增强这些首选响应的生成概率。
在DPO-P训练期间,损失函数参数化为β=0.05和λ=2.5,遵循稳定偏好优化和确保保留高质量首选响应的建议。研究团队使用AdamW优化器,无权重衰减,学习率恒定为7×10^-7,有50次预热迭代。训练持续了3,800次迭代。
最后,为了利用在不同条件下微调的模型的多样化能力,研究团队开发了模型合并框架,并测试了多种策略,包括线性合并(模型汤)、TIES合并和模型股票。在所有测试的合并技术中,线性合并方法(为每个模型分配相等的权重1.0)始终产生最有利的结果。
六、量化:为不同硬件优化
为了支持更广泛的硬件配置和部署场景,Bielik团队提供了他们指令调整模型的多种量化变体。量化显著减少了模型大小和推理延迟,使其可以在资源受限的设备上运行,尽管可能会在输出质量上有所折衷。
研究团队准备了多种量化版本,包括GGUF、GPTQ、HQQ、AWQ、EXL2、MLX、Quanto、FP8(与vLLM和SGLang兼容,针对Ada Lovelace和Hopper架构优化)以及INT8 W8A8(vLLM INT8量化,8位权重和8位激活)。
特别值得一提的是GGUF变体,它们通过一个两步过程进一步优化,旨在在量化后保持模型质量。首先,研究团队应用了基于重要性矩阵的后训练校准程序,根据模型激活对输出的贡献分配权重,这些权重是在专门构建的波兰语-英语双语校准数据集上估计的。在校准过程中,被认为更重要的层或参数在量化过程中被更精确地保留,从而改善了输出一致性,更好地保留了模型功能,特别是在多语言环境中。其次,虽然主要模型权重被量化为低位格式(如INT4),但嵌入层和最终输出投影层被保留在FP16精度中,这有助于维持输入和输出空间的表达能力,减轻与激进量化相关的质量损失。
这种校准和量化策略提高了GGUF模型的性能,使它们适合在资源受限的设备上部署,同时最小化响应质量的损失。Bielik-11B-v2.3-Instruct在不同量化方法下展示了显著的弹性,Q8_0量化版本(65.76%)实际上略微优于原始全精度模型(65.71%)。更激进的量化如Q6_K(65.26%)、IQ3_XXS(64.89%)和Q4_K_M(64.76%)保持了原始性能的98%以上。即使在极端压缩的IQ2_XXS(61.34%)下,Bielik仍保留了原始能力的93%。最激进的IQ1_M量化(52.09%)仍然优于Mistral-7B-Instruct-v0.3(47.74%)和Bielik-7B-Instruct-v0.1(44.70%)。
七、基准测试:令人印象深刻的结果
Bielik 11B v2在多个基准测试上进行了全面评估,结果令人印象深刻,特别是考虑到其相对较小的参数规模。
在Open PL LLM Leaderboard上,Bielik-11B-v2基础模型获得了58.14的平均分数,与拥有显著更多参数的Qwen1.5-32B(58.71)相当,并显著优于其前身Bielik-7B-v0.1(34.34)。指令调整版本显示了进一步的性能改进,最新的Bielik-11B-v2.5-Instruct达到了63.95的分数,而Bielik-11B-v2.3-Instruct则达到了65.71,超过了许多参数量更大的模型,包括Meta-Llama-3-70B-Instruct(64.45)。
在波兰MT-Bench上,Bielik-11B-v2.3-Instruct以8.56的分数表现出色,与拥有更多参数的模型如Mistral-Small-Instruct-2409(8.56)相当,并优于Meta-Llama-3.1-405B-Instruct(8.17)和Meta-Llama-3.1-70B-Instruct(8.15)。与其他波兰语模型相比,Bielik的表现尤为显著,超过了最好的PLLuM模型(Llama-PLLuM-70B-chat, 6.75)1.81分,尽管参数量不到其16%。
在波兰情感智能基准测试(Polish EQ-Bench)上,Bielik-11B-v2.3-Instruct展示了卓越的情感智能能力,得分为70.86,超过了许多更大的模型,包括WizardLM-2-8x22B(141B参数)。最新的Bielik-11B-v2.5-Instruct进一步改进了这些结果,得分为72.00,超过了Qwen2-72B-Instruct(71.23)和Meta-Llama-3-70B-Instruct(71.21),尽管只有其参数的一小部分。
在波兰复杂文本理解基准测试(CPTUB)上,Bielik-11B-v2.3-Instruct达到了3.63的总体分数,在理解波兰语中的隐含含义方面表现特别强劲。这一分数超过了包括Mixtral-8x22B-Instruct-v0.1(3.56)在内的许多更大模型。
在波兰医学Leaderboard上,Bielik-11B-v2.3-Instruct达到了43.26%的分数,展示了在波兰语医学环境中扎实的医学推理能力。最新的Bielik-11B-v2.5-Instruct进一步提高了这一分数至44.85%,标志着所有Bielik变体中的最佳表现。
在波兰语言和文化能力基准测试(PLCC)上,Bielik-11B-v2.2-Instruct取得了63.00%的显著成绩,尤其在历史(77%)和地理(72%)类别上表现出色,展示了其对波兰历史事件和地理特征的稳健知识。
在LLMzSzL基准测试上,这是一个基于波兰国家考试的综合评估框架,Bielik-11B-v2.1-Instruct取得了57.52分的最高分数,表现强劲,特别是在专业考试(56.67-56.93)方面,这些考试需要实用知识和领域特定理解。
除了波兰语基准测试外,Bielik模型在多语言和跨语言任务上也表现出色。在欧洲LLM Leaderboard上,Bielik-11B-v2.3-Instruct在波兰语任务中取得了0.66的平均分数,位居第三,仅次于Gemma-2-27b-Instruct(0.71)和Meta-Llama-3.1-70B-Instruct(0.70)。即使在其他语言如德语和捷克语上,Bielik也展示了不错的跨语言迁移能力。
在翻译任务上,Bielik表现出不对称的能力:翻译成波兰语(BLEU: 15.31)强于从波兰语翻译(BLEU: 11.72),与英语-波兰语翻译表现尤为出色(BLEU: 21.93到波兰语,28.32从波兰语),与语言相似的语言如捷克语表现也很强(BLEU: 19.30到波兰语)。
在更广泛的英语基准测试上,如Open LLM Leaderboard,Bielik-11B-v2基础模型取得了65.87的平均分数,优于Meta-Llama-3-8B(62.62)、Mistral-7B-v0.1(60.97)和Mistral-7B-v0.2(60.37),而指令调整版本表现更佳,Bielik-11B-v2.5-Instruct达到了71.42的分数,接近性能最高的模型,并超过了许多更大的竞争对手。
在数学推理方面,Bielik模型展示了特殊的优势,在gsm8k任务上,Bielik-11B-v2.5-Instruct获得了85.52的高分,甚至超过了总体表现最佳的SOLAR-10.7B-Instruct-v1.0(64.75)和Phi-3-medium-4k-instruct(79.38)。
八、局限性与未来方向
尽管Bielik 11B v2取得了令人印象深刻的成绩,研究团队也坦承其局限性。模型可能产生事实上不正确的输出,不应被依赖于在所有情境中生成完全准确的信息。尽管研究团队做了大量努力来清理和过滤训练数据,但模型可能偶尔生成有偏见、冒犯性或事实上不准确的内容。用户在部署这些模型时,尤其是在敏感或高风险应用中,应当谨慎并进行适当的验证。
展望未来,研究团队计划进一步提升模型在专业领域的能力,改进对其他斯拉夫语言的跨语言迁移,以及扩展其函数调用能力。Bielik 11B v2系列代表了波兰语言模型民主化的重要一步,为多样化的语言应用提供了强大的工具。
九、总结与意义
Bielik 11B v2是波兰语自然语言处理领域的一项重大进步,展示了如何通过深思熟虑的架构选择、创新的训练技术和高质量数据准备,创建一个参数效率高的语言模型。它不仅在波兰语基准测试上表现出色,还在多语言和跨语言任务上展示了强大的能力,为资源较少的语言开发高质量语言模型提供了一个成功的范例。
对于普通用户来说,Bielik 11B v2意味着波兰语使用者现在可以获得更好的人工智能语言服务,从文本生成到问答,再到更复杂的任务如情感分析和推理。对于研究社区而言,它展示了如何高效地利用现有模型架构和资源,为特定语言开发强大的语言模型,为未来的多语言AI发展铺平了道路。
本文中讨论的Bielik 11B v2系列共发布了多个版本,包括基础预训练模型Bielik-11B-v2,以及多个指令调整变体,从v2.0到最新的v2.5。每个版本都展示了特定的优势,为不同的应用场景提供了选择,并彰显了研究团队在不断改进和优化波兰语语言模型方面的持续努力。
好文章,需要你的鼓励
这项研究提出了"高效探测"方法,解决了掩码图像建模AI难以有效评估的问题。通过创新的多查询交叉注意力机制,该方法在减少90%参数的同时实现10倍速度提升,在七个基准测试中均超越传统方法。研究还发现注意力质量与分类性能的强相关性,生成可解释的注意力图谱,展现出优异的跨域适应性。团队承诺开源全部代码,推动技术普及应用。
伊利诺伊大学研究团队开发了CLAIMSPECT系统,通过层次化分解复杂争议、智能检索相关文献、多角度收集观点的方法,将传统的"真假"判断转变为多维度分析。该系统能够自动构建争议话题的分析框架,识别不同观点及其支撑证据,为科学和政治争议提供更全面客观的分析,已在生物医学和国际关系领域验证有效性。
清华大学研究团队首次提出情感认知融合网络(ECFN),让AI能像人类一样理解和表达情感。该系统通过多层次情感处理架构,在情感识别准确率上比现有最佳系统提升32%,情感表达自然度提升45%。研究突破了传统AI情感理解的局限,实现了跨模态情感融合、动态情感追踪和个性化情感建模,为医疗、教育、客服等领域带来革命性应用前景。
哈佛大学研究团队通过创新的多智能体强化学习方法,让AI在战略游戏中学会复杂推理。研究发现AI通过游戏竞争能发展出类人思维能力,在逻辑推理、创造性解决问题等方面表现显著提升。这项突破性成果为未来AI在医疗、教育、城市管理等领域的应用奠定基础,展现了通过模拟人类学习过程培养真正智能AI的新路径。