微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Mutarjim:阿拉伯语-英语双向翻译取得重大突破,沙特Misraj团队用小型语言模型战胜巨无霸

Mutarjim:阿拉伯语-英语双向翻译取得重大突破,沙特Misraj团队用小型语言模型战胜巨无霸

2025-05-30 10:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 10:06 科技行者

在全球化日益深入的今天,高质量的机器翻译已成为跨文化交流的重要工具。然而,阿拉伯语作为全球使用广泛的语言之一,在机器翻译领域却一直面临挑战。2025年5月,沙特阿拉伯Misraj公司的研究团队——Khalil Hennara、Muhammad Hreden、Mohamed Motaism Hamed、Zeina Aldallal、Sara Chrouf和Safwan AlModhayan带来了一项激动人心的突破:他们开发的Mutarjim(阿拉伯语中"翻译者"的意思)模型,以仅1.5B参数的小巧身材,在阿拉伯语-英语双向翻译方面击败了许多体积大20倍的庞然大物,包括商业巨头OpenAI的GPT-4o mini。

想象一下,如果将语言模型比作汽车,大多数研究者都在打造耗油量惊人的大型越野车,而Misraj团队却成功造出了一辆小巧精致、油耗极低却能爬山涉水的多功能车。这项研究发表在了arXiv预印本平台(arXiv:2505.17894v1),论文题为《Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model》。

阿拉伯语翻译为何如此困难?想象你在玩一种拼字游戏,但这种游戏的规则异常复杂:字母可以根据位置变形,单词可以用多种方式表达相同意思,而且游戏规则本身在不同地区还有细微变化。这就是阿拉伯语翻译的挑战所在。阿拉伯语拥有复杂的语法和形态变化,从而导致词汇、句法和语义在翻译过程中面临诸多障碍。

虽然大型语言模型(LLM)如GPT-4在各种自然语言处理任务上取得了令人印象深刻的进展,但它们通常需要庞大的计算资源,这限制了它们在资源受限环境中的实用性。与此同时,现有的阿拉伯语-英语翻译系统要么能力有限,要么是更大的多语言模型的一部分,这些模型虽然能处理多种语言,但在阿拉伯语特定任务上表现往往不尽如人意。

Misraj团队的研究背后有一个简单而大胆的想法:是否可以开发一个专注于特定任务的小型语言模型,既能平衡性能与效率,又能有效建模阿拉伯语的语言复杂性?这个问题的答案就是Mutarjim,一个针对阿拉伯语-英语翻译优化的紧凑型语言模型。

一、Mutarjim:小个子,大能量

Mutarjim建立在Kuwain-1.5B的基础上,后者是一个由同一研究团队在2025年开发的双语阿拉伯语-英语小型语言模型。尽管体积小巧,Mutarjim通过精心设计的两阶段训练方法和高质量的训练语料库,在多个权威基准测试中表现出色,甚至超越了参数量大20倍的模型。

想象一下训练语言模型就像教一个孩子学习两种语言。首先,你会让孩子接触大量的双语内容,帮助他们建立基本的语言感知(预训练阶段)。然后,你会通过更有针对性的练习来提升他们的翻译技能(微调阶段)。Mutarjim正是采用了这种两阶段训练方法:首先进行翻译导向的大规模预训练,然后使用高质量的平行语料库进行有针对性的微调。

在预训练阶段,研究团队引入了两个特殊标记:<|English|>和<|Arabic|>,用于标识文本的语言。他们将数据格式化为英语句子以<|English|>开头,阿拉伯语句子以<|Arabic|>开头的形式。所有预训练数据由成对的阿拉伯语-英语句子构成。在训练过程中,模型同时看到两个句子,并被训练预测整个输入的下一个词元。为防止单向翻译偏见,研究人员随机选择每对句子中的句子顺序,这鼓励模型发展稳健的双向翻译能力。

微调阶段遵循与预训练相同的格式,但在两个句子之间添加了换行符以提高结构清晰度。与预训练阶段不同的是,研究人员对输入句子应用了因果掩蔽,使模型仅训练从源语言生成目标语言,同时仍使用相同的下一个词元预测目标。

这种精心设计的训练方法使Mutarjim能够提供竞争力强的翻译质量和更快的推理时间。在基准评估中,Mutarjim在准确性和效率方面优于拥有超过300亿参数的模型,包括GPT-4o mini等专有系统。

二、Tarjama-25:一个更公平的比赛场地

要评估一个翻译模型的好坏,我们需要一个公平的"赛场"。然而,现有的阿拉伯语-英语评估数据集存在一些关键限制:大多数公开可用的数据集都是以英语为中心(即英语是源语言),缺乏真正的双向内容;它们往往包含主要是短句(通常6-30个词),这不能充分利用现代语言模型处理更长输入序列的能力;此外,领域特定覆盖也有限。

为解决这些问题,研究团队推出了Tarjama-25,一个专门为阿拉伯语-英语双向翻译设计的全面基准测试。Tarjama这个词在阿拉伯语中意为"翻译",而"25"则暗示这是2025年推出的基准。

Tarjama-25的开发经过了全面的数据收集和验证流程:首先,研究团队收集了30,000个来自真实阿拉伯语和英语来源的句子,每个句子长度在50到100个词之间,确保在科学、技术、医疗、文化和一般兴趣主题等广泛领域的覆盖。这些句子的一半原本是用阿拉伯语写的,另一半则是英语原文。

接下来,这30,000个句子最初使用最先进的机器翻译系统翻译,创建平行句子对。从中,研究人员选择了5,000对句子进行详细的人工修正。专业翻译人员审查并纠正每个选定的对,确保语言准确性和流畅性。最终选择保持所有领域的平衡分布。

此外,领域专家还进行了额外的审查,以验证各自领域内翻译的准确性和上下文相关性。这一仔细的多阶段过程确保了高质量、人工验证的翻译,具有平衡的源语言分布和丰富的领域多样性,使Tarjama-25成为阿拉伯语-英语双向翻译评估的强大和现实的基准。

三、实验与分析:小模型的大表现

为了全面评估Mutarjim的有效性,研究团队进行了一系列实验,旨在深入了解阿拉伯语-英语翻译的挑战和动态。评估重点关注三个核心方面:首先,比较单向和双向训练设置,评估单个模型在两个方向(阿拉伯语到英语和英语到阿拉伯语)上训练是否会相对于专用单向模型而降低性能;其次,检验预训练阶段在提高翻译质量和改善模型跨领域泛化能力方面的贡献;第三,分析微调过程中上下文长度的影响,以了解句子长度如何影响性能,特别是当评估样本长度与训练中看到的样本不同时。

在单向与双向翻译性能的比较中,研究团队对比了Mutarjim的单向版本(Mutarjim-AR2EN和Mutarjim-EN2AR)与双向模型Mutarjim-Bi。单向版本各自训练了3个周期,而双向版本则在组合数据上训练了2个周期。结果显示,尽管接触了更多样化的数据,双向模型的性能略有下降。单向模型在各自的翻译方向上始终优于双向模型,例如,Mutarjim-AR2EN在阿拉伯语到英语翻译方面的COMET评分比Mutarjim-Bi高出3.16分。

这有点像一个专攻两项运动的运动员和两个各自专攻一项的运动员之间的比较。虽然多项全能选手更灵活,但专项选手在各自的领域往往表现更出色。最终,模型的选择取决于应用需求:Mutarjim-Bi通过多任务支持提供更大的效率和灵活性,而单向变体则为特定方向提供更高的翻译准确性。考虑到模型的紧凑尺寸(1.5B参数),不同方法之间的计算成本差异仍然适中。

对于预训练阶段的影响分析,研究团队评估了预训练对翻译性能的影响,旨在确定针对翻译的特定预训练是否能够相对于直接微调产生有意义的增益。结果显示,受益于额外预训练阶段的模型在COMET和chrF++评分上一致优于仅通过微调训练的对应模型。这种增益在阿拉伯语到英语和英语到阿拉伯语两个方向都很明显,凸显了这种策略在翻译任务中的普遍有效性。

上下文长度效应的研究中,研究团队进行了两个独立的微调实验来评估输入长度分布对翻译性能的影响。在第一个实验(e1)中,他们使用包含超过30个词的样本微调预训练的Mutarjim模型,旨在提高模型在更长句子上的性能。虽然这提高了长形式内容的流畅性,但他们观察到在较短输入上性能下降,出现幻觉和不相关的延续增加。

为解决这个问题,他们进行了第二个独立的微调实验(e2),使用相同的基础模型,但修改训练集以包含额外15%的短样本(2到30个词)。这个实验旨在平衡模型在不同序列长度上的能力。在WMT24++测试集上评估两个版本后,第二个实验(e2)在两个翻译方向上都带来了性能提升,证实了在训练数据中包含较短序列的好处。

这就像教一个人既能写简短的便条又能撰写长篇文章一样重要。如果只训练写长文章,当需要写简短信息时可能会过于冗长;反之亦然。通过平衡两种类型的训练,模型学会了在不同长度的内容上表现良好。

四、评估结果:与巨人同台竞技

为了更好地理解Mutarjim的表现,研究团队将其与一系列强大的支持阿拉伯语的解码器模型进行了比较,这些模型因其翻译能力而广受认可。这些包括通用语言模型如AceGPT-8B、ALLam-7B、C4AI-7B、Cohere-8B、Cohere-32B、Gemma2-27B、Silma-9B和Yehia-7B。此外,他们还包括了专门用于多语言翻译的模型,如XALMA-13B-Group8、LLaMAX3-8B-Alpaca和GemmaX-9B。为了提供在模型架构和规模方面更接近的基线,他们还评估了NLLB-3.3B,这是一个用于低资源翻译任务的编码器-解码器模型,在阿拉伯语-英语翻译中被广泛采用。

评估在三个权威基准上进行:WMT24++、IWSLT2017和团队新提出的Tarjama-25基准。在所有基准测试中,他们使用广泛采用的指标(BLEU、chrF++和COMET)评估翻译质量,确保全面和公平的评估。

结果令人惊讶:尽管是评估模型中最小的,Mutarjim在Tarjama-25基准上的阿拉伯语到英语方向上在所有评估指标中均取得了最先进的性能,并在英语到阿拉伯语方向上按BLEU分数计算处于领先地位。它仅以微小差距紧跟体积大得多的GPT-4o-mini模型的COMET和chrF++评分。这些结果突显了Mutarjim尽管体积紧凑,但在翻译质量和效率方面的竞争力。

有趣的是,模型在Tarjama-25上的表现与现有基准相比有明显不同。例如,虽然GPT-4o-mini在WMT24++和IWSLT2017上表现出色,但其在Tarjama-25上的相对表现下降。这突显了标准基准如何可能忽视领域特定和双向翻译中的挑战。Tarjama-25有助于揭示这些差距,提供更现实和严格的真实世界翻译能力评估。

另一个关键观察是大多数模型在阿拉伯语到英语和英语到阿拉伯语翻译之间存在一致的性能差距,前者通常产生更好的结果。这一趋势在图1中有直观说明,特别是在chrF++指标中,这种差异尤为明显。多种因素可能导致这种不对称,包括阿拉伯语丰富的形态学和句法灵活性,允许多种有效翻译,而当前指标可能无法识别。此外,许多模型中以英语为中心的训练数据占主导地位可能阻碍了它们生成流畅和准确的阿拉伯语输出的能力。

值得注意的是,Mutarjim在两个翻译方向上都表现平衡,研究团队将这归因于其以阿拉伯语为中心的训练策略。这表明使用真实的阿拉伯语源数据进行训练可以帮助减轻方向偏见并提高整体翻译保真度。

五、结论与未来展望

Mutarjim的成功证明了专注于特定任务的小型语言模型在资源受限环境中的潜力。通过精心设计的训练方法和高质量数据的选择,该模型在阿拉伯语-英语翻译方面实现了与更大模型竞争的性能,同时显著降低了计算成本和训练要求。

Tarjama-25基准的引入为未来研究提供了一个更全面的评估框架,解决了现有数据集在领域窄小、句子长度短和英语源偏见方面的限制。研究团队已经公开发布了Tarjama-25基准及其附带的评估工具包,以促进透明度、可重复性和阿拉伯语机器翻译研究的进一步进展。

未来的工作将专注于扩展模型架构和在更大的多语言数据集上训练,以支持阿拉伯语与多种语言之间的翻译,包括法语、土耳其语和日语,创建一个全面的多语言翻译系统,同时保持效率。

这项研究不仅推进了阿拉伯语-英语机器翻译的技术边界,也为如何开发资源效率高的专用语言模型提供了宝贵见解。通过专注于特定任务和语言对,研究人员能够实现与通用大型模型竞争甚至超越的性能,同时大大降低计算需求。这种方法可能为其他语言对和NLP任务提供一个有价值的模板,特别是在计算资源有限的情况下。

总的来说,Mutarjim和Tarjama-25的工作代表了机器翻译领域的重要进步,特别是对阿拉伯语这样的语言,它们在过去的NLP研究中往往得不到充分的关注。通过解决这些差距,研究人员为更包容和多样化的语言技术生态系统铺平了道路。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-