微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Unbabel团队突破性成果:如何让AI既能精通翻译又不失聊天本色?

Unbabel团队突破性成果:如何让AI既能精通翻译又不失聊天本色?

2025-07-03 10:01
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-03 10:01 科技行者

这项由Unbabel公司联合多家欧洲研究机构完成的突破性研究发表于2025年6月,论文名为"TOWER+: Bridging Generality and Translation Specialization in Multilingual LLMs"。研究团队包括来自Instituto de Telecomunicacoes、Instituto Superior Técnico、Universidade de Lisboa以及法国CentraleSupélec大学的研究人员。感兴趣的读者可以通过arXiv:2506.17080v1访问完整论文。

想象你正在寻找一位完美的翻译助手,你希望这个助手不仅能够精准地翻译各种语言,还能像朋友一样与你自然对话,回答问题,甚至帮你写代码解决数学题。这听起来似乎很难实现,因为就像一个人很难同时成为翻译专家和全能助手一样,现有的AI模型往往面临着同样的困境:要么擅长翻译但不会聊天,要么聊天很棒但翻译水平一般。

Unbabel研究团队发现了一个有趣的现象:当前最优秀的翻译AI模型在专业翻译测试中表现出色,但一旦你想和它们进行日常对话或寻求其他帮助时,它们就显得力不从心。相反,那些聊天能力很强的通用AI模型在翻译任务上又不够专业。这就像培养一个学生,如果只让他专门学翻译,他确实能成为翻译高手,但可能连基本的数学题都不会做了。

研究团队意识到这个问题的重要性。在现实世界中,人们使用AI助手时往往需要多种能力的结合。比如,你可能需要AI不仅翻译一段商务文档,还要按照特定格式要求整理,或者在翻译过程中遵循某些术语规范。如果AI只会翻译不会理解指令,那就无法满足这些复杂需求。

为了解决这个难题,研究团队开发了名为TOWER+的新型AI模型系列。这个系列包含了2B、9B和72B三种不同规模的模型,就像提供小中大三种尺寸的工具,让不同需求的用户都能找到适合自己的版本。TOWER+的核心突破在于找到了翻译专业性和通用对话能力之间的完美平衡点。

一、革命性的训练配方:四步打造全能翻译助手

研究团队就像厨师调配复杂菜肴一样,设计了一个精妙的四步训练流程。这个流程的每一步都有其独特的作用,缺一不可。

第一步是持续预训练阶段,就像给学生打基础一样。研究团队收集了大量的单语和双语数据,涵盖27种语言和47个语言对,总计320亿个标记。这就像让AI同时接触各种语言环境,既有每种语言的原汁原味内容,也有不同语言之间的对照材料。特别巧妙的是,团队在这个阶段还加入了1%的高质量指令数据,这就像在专业训练中偶尔穿插一些综合练习,确保AI在专攻翻译的同时不会忘记其他技能。

训练数据的分配遵循66%单语数据、33%平行翻译数据的比例。单语数据主要来自FineWeb-Edu,这是一个经过精心筛选的教育级网络内容数据库。平行翻译数据则来源于OPUS数据库,并经过COMETKIWI质量评估系统的严格筛选。所有的平行数据都被格式化成翻译指令的形式,就像给AI提供标准化的练习题模板。

第二步是监督微调阶段,这时AI开始学习如何真正理解和执行各种任务。研究团队从多个公开数据集收集指令,包括OpenHermes-2.5、Aya、Daring-Anteater等,然后使用Llama 3.3 70B对每个实例进行评分,筛选出推理难度和可读性都较高的数据。这个过程就像老师从大量习题中挑选出最有价值的练习题。

在这个阶段,团队还采用了一种创新的答案生成策略。他们让四个顶级开源模型(DeepSeek V3、Qwen 2.5 72B、Tülu 3和Llama 3.3)分别生成候选答案,然后使用先进的奖励模型Skywork-Gemma2-27B从中选择最优答案。这就像组织一个专家小组,让每个专家都提出方案,然后由最权威的评委选出最佳方案。

特别值得注意的是,最终的监督微调数据集包含130万个样本,其中翻译任务只占22%,其余78%都是指令跟随任务,涵盖数学、编程、问答、创意写作等各个方面。这个比例的设计体现了团队的智慧:既要保持翻译专业性,又要确保通用能力不被削弱。

第三步是偏好优化阶段,使用加权偏好优化技术。这个阶段就像教会AI什么是好的回答,什么是不够好的回答。团队使用两类数据源:一类是从监督微调阶段继承的提示,这些提示在多语言覆盖、安全关键场景和多轮对话方面更加丰富;另一类是来自UltraFeedback的新提示。前者采用离线策略收集偏好数据,后者则采用在线策略。

在翻译任务的偏好数据收集方面,团队采用了特别巧妙的策略。他们将专业语言学家的后编辑版本作为首选答案,将原始机器翻译输出作为非首选答案。此外,还收集了早期TOWER模型质量评估过程中产生的直接偏好标注。为了避免评估偏差,团队使用COMET22进行最小贝叶斯风险解码,然后用METRICX24-XXL和Llama 3.3进行双重验证,确保选择真正更好的翻译。

第四步是可验证奖励强化学习阶段,这是整个训练流程中最精细的部分。团队使用Tülu 3可验证奖励数据集,并增加了两个翻译专用信号:翻译可验证指令和翻译偏好评估。翻译可验证指令专门训练模型在翻译过程中应用文本转换能力,比如将日期格式从DD-MM-YYYY转换为MM-DD-YYYY。团队定义了28个广泛的文本转换类别,包括邮件格式化、日期格式化、数学符号等,每个类别都配有详细的描述、验证规则和示例。

二、精心设计的数据烹饪术:如何调配完美的学习餐

数据就像食材,而研究团队就像经验丰富的大厨,知道如何搭配不同的食材来烹饪出美味的菜肴。在持续预训练阶段,团队使用的单语数据全部来自FineWeb-Edu,这个数据源经过精心筛选,确保内容的教育价值和质量。多数平行数据来自OPUS数据库,并使用COMETKIWI进行质量过滤,确保翻译对的准确性和流畅性。

为了增强模型的文档级翻译能力,团队特别加入了来自EuroParl、ParaDocs和CosmoPedia-v2的文档级翻译数据,每个语言对各占10%的比例。这就像在训练中不仅要学会翻译单个句子,还要学会处理完整的文档段落,保持上下文的连贯性。

在监督微调阶段,数据收集和筛选过程更加严格。团队首先从多个高质量数据集收集指令,然后使用Llama 3.3 70B对每个实例的推理要求和可读性进行1-5分的评分。只有推理分数或可读性分数达到4分或以上的数据才会被保留,这就像严格的入学考试,只有最优秀的候选者才能通过。

在答案生成环节,团队采用了多教师蒸馏的策略。四个顶级模型分别为每个指令生成候选答案,然后使用Skywork-Gemma2-27B奖励模型进行评分排序,选择得分最高的答案作为训练标准。这个过程确保了每个训练样本都具有最高的质量标准。

翻译相关的数据处理同样细致入微。团队收集了预翻译、翻译和后翻译三类任务数据。预翻译任务包括语法错误纠正、命名实体识别、个人信息移除等预处理步骤。翻译任务涵盖句子级翻译、风格适应、文档级翻译和多语言翻译等多种类型。后翻译任务则专注于自动后编辑和机器翻译质量评估。

三、突破性的评估框架:不只是翻译,更是全能助手

为了全面评估TOWER+模型的能力,研究团队设计了一套综合性的评估框架,就像为运动员设计的全能测试一样,不仅要测试专项技能,还要考察综合素质。

在翻译能力评估方面,团队使用了WMT24++测试集,这是对官方WMT24测试集的扩展版本,覆盖55种语言和方言。WMT是机器翻译领域的顶级年度竞赛,被誉为翻译界的"奥林匹克"。团队使用XCOMET-XXL作为主要评估指标,这是当前最先进的机器翻译自动评估指标,同时也使用METRICX24-XXL和CHRF作为补充指标,确保评估的全面性和可靠性。

在通用能力评估方面,团队选择了两个重要的基准测试。首先是IFEval,这是一个专门评估指令跟随能力的基准,包含541个可以通过代码或正则表达式自动验证的指令。这就像给AI布置作业,看它能否严格按照要求完成任务。其次是M-ArenaHard,这是ArenaHard的多语言扩展版本,涵盖英语、德语、西班牙语、中文和俄语五种语言,使用Llama 3.3 70B作为评估者,以Qwen2.5 72B为基线参考模型。

特别值得一提的是,团队还创建了一个全新的评估基准IF-MT,专门测试翻译和指令跟随的混合能力。这个基准解决了现有评估体系的一个重要空白:现实世界的翻译任务往往不是简单的语言转换,而是需要在翻译的同时遵循特定的指令和规范。

IF-MT基准采用零样本基准测试方法,为英语到中文和英语到西班牙语(拉丁美洲)两个语言对生成测试数据。生成过程中,数据生成模型被要求创建包含2-4个可验证指令的源文本,这些指令必须是客观可验证的,比如货币格式转换、日期格式规范、术语表遵循等,而不是主观的风格要求。

评估过程中,团队将翻译质量和指令跟随能力分开测量。翻译质量使用COMET-22指标评估,这个指标具有更大的上下文长度,适合处理生成的长源文本。指令跟随能力则使用Claude Sonnet 3.7作为评判者,对每个实例进行1-6分的评分。这种双重评估机制确保了对模型综合能力的准确测量。

四、令人瞩目的实验结果:小身材大能量的完美诠释

实验结果就像一场精彩的表演,TOWER+模型在各个测试舞台上都展现出了令人印象深刻的表现。最引人注目的是,即使是最小的2B参数模型也能在某些任务上超越那些参数量数十倍的大型模型,这就像一个轻量级选手在综合格斗比赛中击败重量级对手一样令人惊讶。

在翻译质量方面,TOWER+ 72B模型在WMT24++测试集上的表现与之前的TOWER-V2模型相当,同时在通用能力测试中实现了巨大突破。在M-ArenaHard测试中,TOWER+ 72B对Qwen2.5 72B的胜率从之前TOWER-V2的4%跃升至54.5%,这是一个翻天覆地的改变。这意味着在保持专业翻译能力的同时,模型的通用对话和推理能力得到了质的提升。

更加令人惊喜的是小型模型的表现。TOWER+ 9B模型尽管只有90亿参数,却在24个语言对的机器翻译任务中表现出色,在IFEval、M-ArenaHard和IF-MT测试中都超越了Gemma-2模型。这就像一个中等身材的运动员在力量、速度和技巧三个项目中都战胜了体格更壮的对手。

最让人刮目相看的是TOWER+ 2B模型。这个只有20亿参数的"小身材"模型在机器翻译方面能够匹敌Llama-3.3这样的700亿参数巨型模型,同时在M-ArenaHard、IFEval和IF-MT的指令跟随测试中都超越了之前的TOWER-V2-70B模型。这个结果颠覆了人们对模型规模和性能关系的传统认知,证明了精心设计的训练方法比单纯增加参数更加重要。

在IF-MT这个新创建的综合评估基准上,TOWER+模型的表现尤其值得关注。所有的机器翻译专用模型在这个测试中都表现不佳,甚至需要移除指令部分才能正常工作,这充分说明了这些模型的局限性。相比之下,TOWER+ 72B在翻译质量和指令跟随两个维度上都大幅超越了所有其他开源模型,展现了其在复杂实际应用场景中的优势。

与闭源模型的对比同样令人鼓舞。TOWER+ 72B在翻译质量方面能够与GPT-4O-1120和Claude Sonnet 3.7等顶级商业模型相媲美,同时在M-ArenaHard测试中的表现也相当接近这些先进模型。这意味着开源社区现在拥有了能够挑战商业巨头的强大工具。

五、深入剖析:每个训练阶段的神奇作用

为了理解TOWER+成功的秘密,研究团队进行了详细的消融实验,就像解剖一个精密机械装置一样,逐个分析每个部件的作用。这些实验揭示了训练流程中每个阶段对最终性能的具体贡献。

持续预训练阶段的作用主要体现在翻译性能的提升上,特别是对中低资源语言的改善效果显著。在7种高资源语言对上,这个阶段只带来了0.77个XCOMET-XXL评分点的提升,但在全部语言对上却能实现3.3个评分点的整体提升。这说明持续预训练对于扩展模型的多语言能力具有重要价值。

然而,这种专业化训练也带来了一定的代价。在M-ArenaHard测试中,持续预训练后的模型表现出一致的通用能力下降。研究团队推测这可能是因为继续训练打破了基础模型在最终预训练调优阶段达到的微妙平衡。这些调优阶段通常涉及精心策划的数据、渐进的学习率调度和内部优化,很难完全复现。

监督微调阶段是整个训练流程的核心,对翻译、指令跟随和通用对话能力都带来了显著提升。这个阶段的成功关键在于数据配比的精心设计:虽然翻译任务只占22%,但足以维持专业翻译能力,而78%的通用任务数据则大幅提升了模型的综合能力。

偏好优化阶段使用加权偏好优化技术,在各个维度都实现了进一步的性能提升。这个阶段特别重要的是引入了翻译专用的偏好数据,包括专业语言学家的后编辑版本和早期模型评估中的偏好标注。实验显示,这种方法比传统的直接偏好优化(DPO)效果更好,特别是在翻译质量方面。

可验证奖励强化学习阶段的效果相对有限,主要体现在IFEval测试的改善上。团队发现这个阶段的有效性很大程度上依赖于奖励对齐数据的质量和结构。在清理了Tülu 3数据集中的格式不一致问题后,GRPO方法的改善效果变得更加有限,这提示未来需要更加精心设计的可验证奖励数据。

六、基础模型的选择智慧:平衡专业性与通用性的艺术

基础模型的选择就像为一栋建筑选择地基一样重要,它决定了最终成果的上限和特色。研究团队比较了Qwen 2.5和Gemma 2两个模型家族,发现了有趣的权衡关系。

Qwen 2.5模型在通用任务基准测试中表现出色,但在多语言能力和翻译任务上相对较弱。相比之下,Gemma 2家族在机器翻译方面实现了开源模型中的最佳性能,同时在通用任务上保持了竞争力。这种差异在小模型中表现得尤为明显:即使参数量更多,Qwen 2.5 14B在翻译性能上仍然无法匹敌Gemma 2 9B。

这种现象的根源可能在于模型的训练数据分布和优化目标。Qwen 2.5系列主要针对通用能力进行优化,而Gemma 2系列在多语言数据的处理上可能更加均衡。这个发现对于模型选择具有重要指导意义:对于需要强多语言能力的应用,应该优先选择在多语言任务上表现更好的基础模型,而不是简单追求通用基准测试的高分。

团队最终选择Qwen 2.5和Gemma 2主要是出于许可证方面的考虑。虽然Llama 3模型在翻译能力上表现更好,但其更严格的许可要求限制了商业应用的灵活性。这个选择体现了实用主义的考虑,在技术性能和实际可用性之间找到了平衡点。

七、创新的IF-MT基准:现实世界翻译能力的真实考验

IF-MT基准的创建解决了翻译评估领域的一个重要空白。现实世界的翻译任务往往不是简单的语言转换,而是需要在翻译的同时理解和执行复杂的指令。比如,在翻译商务文档时可能需要统一术语使用,在翻译技术文档时可能需要保持特定的格式规范。

这个基准采用零样本基准测试方法,确保测试的公平性和可靠性。数据生成过程中,生成模型被要求创建包含多个可验证指令的源文本,这些指令涵盖了现实翻译工作中常见的各种要求,如日期格式转换、货币单位统一、术语表遵循等。

评估结果显示,传统的翻译专用模型在这个基准上表现很差,甚至无法在保留指令的情况下正常工作。ALMA-R和GemmaX等模型必须移除指令部分才能进行翻译,这充分暴露了这些模型的局限性:它们虽然在单纯的翻译任务上表现出色,但缺乏理解和执行复杂指令的能力。

相比之下,TOWER+模型在这个基准上的表现证明了其设计理念的正确性。通过在训练过程中平衡翻译专业性和通用指令跟随能力,TOWER+能够在现实世界的复杂翻译场景中发挥更大的价值。

研究团队将这项研究比作培养一个理想的语言助手:不仅要精通多种语言的转换,还要能够理解人类的各种需求,在翻译的同时提供贴心的服务。就像一个优秀的人类翻译不仅要语言功底扎实,还要有良好的沟通能力和服务意识一样,TOWER+代表了AI翻译助手发展的新方向。

这项研究的意义远超翻译领域本身。它证明了在AI模型训练中,精心设计的方法论比单纯增加模型规模更加重要。通过巧妙的数据配比、创新的训练策略和全面的评估框架,研究团队展示了如何在特定专业能力和通用能力之间找到最佳平衡点。

对于普通用户而言,TOWER+的出现意味着未来的AI翻译助手将更加智能和实用。你不再需要在专业翻译工具和通用AI助手之间来回切换,一个模型就能满足你的多样化需求。无论是翻译重要文档、进行跨语言交流,还是寻求其他类型的帮助,TOWER+都能提供一站式的解决方案。

从更广阔的视角来看,这项研究为AI模型的专业化发展提供了重要启示。在AI技术快速发展的今天,如何在保持专业优势的同时拓展应用范围,是每个AI系统都需要面对的挑战。TOWER+的成功经验为其他领域的AI模型训练提供了宝贵的参考,无论是医疗AI、法律AI还是教育AI,都可以借鉴这种平衡专业性和通用性的训练方法。

说到底,TOWER+的真正价值不仅在于其技术突破,更在于它展现了AI发展的一种新可能:我们不必在专业性和通用性之间做出痛苦的选择,而是可以通过巧妙的设计同时拥有两者。这种思路的推广将推动整个AI行业向更加实用和人性化的方向发展,最终让AI技术更好地服务于人类的多样化需求。

Q&A

Q1:TOWER+模型和普通的翻译AI有什么区别? A:普通翻译AI只会翻译,不能处理复杂指令。TOWER+既能精准翻译,又能像聊天机器人一样对话、写代码、解数学题,就像一个既会翻译又会其他技能的全能助手。

Q2:为什么说TOWER+ 2B这么小的模型能超越大模型? A:关键不在参数多少,而在训练方法。TOWER+用了精心设计的四步训练法,就像科学的健身计划比盲目举重更有效。它证明了聪明的训练比暴力堆参数更重要。

Q3:IF-MT基准测试是什么?为什么重要? A:IF-MT测试AI能否在翻译时同时遵循特殊要求,比如统一日期格式、保持术语一致等。这更接近真实工作场景,因为现实中的翻译往往需要遵循各种规范和指令。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-