微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 比谷歌翻译还准确?加州大学洛杉矶分校团队如何让40种非洲语言重获数字生命

比谷歌翻译还准确?加州大学洛杉矶分校团队如何让40种非洲语言重获数字生命

2025-11-10 12:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-10 12:44 科技行者

这项由加州大学洛杉矶分校的Sheriff Issaka领导、联合乔治亚理工学院、威斯康星大学麦迪逊分校等十所知名院校的国际研究团队完成的突破性工作,于2025年10月发表在计算机科学预印本平台arXiv上(论文编号:arXiv:2510.05644v1)。对于想要深入了解这项研究的读者,可以通过这个编号在学术数据库中查找完整论文。

想象一下这样的场景:你生活在非洲某个村庄,说着祖辈传承下来的语言,但当你想使用手机翻译软件与外界交流时,却发现你的母语根本不被这些"智能"工具识别。这不是个例,而是影响着全球近三分之一语言使用者的现实困境。

全世界大约有7000种语言,但只有不到20种语言能享受到现代人工智能技术的"VIP待遇"。在非洲这片拥有2000多种语言的大陆上,情况更加严峻:88%的非洲语言要么被严重忽视,要么完全被排斥在数字世界之外。更令人担忧的是,约有814种非洲语言正面临灭绝威胁,其中尼日利亚有171种、喀麦隆有75种、科特迪瓦有65种语言处于最危险状态。

这种数字鸿沟的影响远不止语言本身。当地人无法用母语获取医疗信息、教育资源,也无法充分参与数字经济。而在学术研究领域,这种不平等更加明显:研究团队的统计显示,每提及一篇关于非洲语言的论文,就有20到70篇论文讨论全球主要语言,这种巨大差距形成了恶性循环。

为了打破这种困局,研究团队创建了"非洲语言实验室"(All Lab),这个名字本身就体现了包容性——"All"意味着所有语言都应该被平等对待。这个实验室不仅仅是一个研究项目,更像是一个数字语言复兴运动的指挥中心。

研究团队面临的挑战就像要为40种不同的方言建造一座通天塔,让它们都能与现代世界对话。他们需要解决三个核心问题:如何收集足够的语言数据、如何训练能够理解这些语言的人工智能模型,以及如何培养本地研究人才来持续推进这项工作。

经过多年努力,研究团队交出了一份令人瞩目的成绩单。他们构建了迄今为止最大的非洲多语言数据集,涵盖40种语言,包含190亿个文本标记和12628小时的语音数据。这个数据量有多大?如果把这些文本打印出来,能填满数千本厚书;而12628小时的语音数据,相当于一个人不眠不休地说话一年半。

更重要的是,他们开发的翻译模型在测试中表现出色,平均比基础模型提升了23.69个字符级别评分、0.33个语义评分和15.34个BLEU评分。在某些语言上,他们的模型甚至超越了谷歌翻译。比如在约鲁巴语翻译中,他们的模型得分为30.88,而谷歌翻译只有21.05;在阿散蒂语翻译中,他们的优势更加明显,以46.80的得分大幅领先谷歌翻译的31.48分。

一、革命性的数据收集平台:让每个人都成为语言守护者

研究团队知道,要让人工智能真正理解一门语言,就像教孩子说话一样,需要大量的语言样本。但收集非洲语言数据面临着独特的挑战:很多语言没有标准的书面形式,使用者分散在偏远地区,而且缺乏数字化资源。

为了解决这个问题,团队开发了一个名为"All Voices"的移动端平台,这可能是世界上第一个专门为低资源语言设计的众包数据收集工具。这个平台就像一个语言版的"维基百科",任何人都可以贡献自己的母语知识。

All Voices平台的设计理念非常巧妙。传统的翻译工具通常需要先把某种语言翻译成英语,再从英语翻译成目标语言,这就像两个不懂对方语言的人需要通过第三个人来交流。而All Voices允许用户直接在两种非洲语言之间进行翻译,就像让说斯瓦希里语的人直接与说约鲁巴语的人对话,省去了英语这个"中介"。

这个平台还加入了游戏化元素,有全球排行榜系统,让语言保护变成了一种有趣的竞赛。用户可以看到自己的贡献在全球排名中的位置,这种成就感激励更多人参与。同时,平台内置了质量控制机制:每个翻译都需要经过社区验证,只有获得5个以上好评且差评少于3个的翻译才能被标记为"已验证"。

更聪明的是,这个平台采用了"递归翻译管道"设计。已验证的翻译会成为新翻译任务的源材料,就像滚雪球一样越滚越大。一个高质量的斯瓦希里语翻译可能会成为训练豪萨语模型的素材,而豪萨语的翻译又可能帮助改进阿姆哈拉语的处理能力。

在技术架构上,平台使用了React Native和Firebase构建,确保能在各种移动设备上流畅运行。考虑到很多用户可能使用较老的手机或网络条件有限,团队特别优化了数据传输和存储效率。所有数据都经过AES-256加密保护,传输过程使用TLS 1.3协议,确保用户隐私和数据安全。

平台的用户认证系统不仅仅是简单的登录功能,还包含了详细的用户画像系统,记录每个贡献者的专业背景、语言能力和贡献历史。这样的设计既能确保数据质量,也能为不同能力的用户分配合适的任务。

二、数据处理的精细化工艺:从原石到钻石的雕琢过程

收集到原始数据只是第一步,就像开采出矿石并不意味着得到了珠宝。研究团队设计了一套精密的数据处理流水线,将粗糙的原始语言材料打磨成适合人工智能训练的高质量数据集。

这个处理过程分为两个层次:通用标准化和语言特定处理。通用标准化就像给所有数据进行统一的"体检",检查编码格式是否正确、清理HTML标签、统一符号标准等基础工作。这个步骤看似简单,但对于来自不同来源、不同格式的数据来说至关重要。

语言特定处理则更像是为每种语言量身定制的"个性化服务"。非洲语言有着丰富的形态变化和复杂的语音系统,需要专门的处理方法。比如,许多非洲语言使用声调来区分词义,同一个拼写可能因为声调不同而有完全不同的含义。研究团队为此开发了声调标记标准化技术,确保这些重要的语言特征不会在数字化过程中丢失。

文字变体标准化是另一个关键环节。同一种语言可能有多种书写系统或拼写习惯,就像英式英语和美式英语的差异,但在非洲语言中这种差异可能更加复杂。研究团队建立了各种变体之间的映射关系,让人工智能能够识别并统一处理这些差异。

质量验证环节采用了统计学方法,通过分析字符比例、重叠检测等指标来识别可能的问题。团队开发了一套自适应阈值系统,能够根据不同语言的特点自动调整质量标准。比如,对于习惯使用较长词汇的语言,系统会相应调整长度检测的阈值。

为了检测重复内容和不当文本保留,研究团队还设计了字符重叠检测算法。这对于共享相似拼写特征的非洲语言尤其重要,能够防止一种语言的数据被错误地标记为另一种语言。

整个处理流程还包括了详细的元数据管理。每条数据都会被标记上来源、处理时间、质量评级等信息,为后续的模型训练和结果分析提供重要参考。这就像给每个数据样本都配上了一个详细的"身份证",记录着它的"出生"和"成长"历程。

三、人工智能模型的训练:从零开始的语言学习之旅

有了高质量的数据,下一步就是训练能够理解和处理这些语言的人工智能模型。研究团队选择了Llama-3.2-1B作为基础模型,这个选择颇有深意。

选择这个模型就像选择一个聪明但尚未接受非洲语言教育的学生。Llama-3.2-1B虽然在多语言处理方面表现出色,但对非洲语言基本上是"白纸一张",这正是研究团队想要的效果。他们希望能够清楚地测量出自己收集的数据到底有多大价值,而不是依赖于模型之前就学过的知识。

训练过程采用了全面微调而非参数高效方法。研究团队在早期尝试了量化感知低秩适应(QLoRA)等参数高效方法,但发现效果不够理想。这就像学一门新语言时,与其只学几个关键词组,不如从头系统地学习语法、词汇和表达方式。

训练使用了标准化的指令模板:"将以下英文文本翻译成X语",其中X代表目标非洲语言。这种简单直接的指令设计让模型能够清楚理解任务要求,避免了复杂指令可能带来的混淆。

硬件配置方面,团队使用了NVIDIA H100 GPU进行训练,这些高性能显卡就像是给学生配备的最先进的学习工具。训练参数经过精心调整:批次大小设为64,配合4步梯度累积;序列最大长度限制在1024个标记;每种语言只进行一轮训练,使用所有可用的平行数据;学习率设为5.0×10^-5,采用余弦调度和0.15的预热比例;使用BF16混合精度来提高内存效率。

推理阶段的参数设置同样重要:温度设为0.1,top-p为0.95,top-k为50,最大输出长度1024个标记。这些参数的设置就像调节乐器的音调,既要保证输出的多样性,又要确保质量和一致性。

训练过程中,研究团队密切监控各种指标,包括损失函数的变化、训练速度、内存使用情况等。他们发现,不同语言的学习曲线差异很大:资源丰富的语言(如阿姆哈拉语和阿拉伯语)模型很快就能掌握,而资源稀缺的语言(如芳语)则需要更多耐心和技巧。

四、评估体系的多维度设计:用数字说话的语言能力测试

评估一个翻译模型的好坏就像评判一个翻译员的水平,需要从多个角度来考察。研究团队设计了一套综合评估体系,包含六个不同的评估指标,每个指标都像是从不同角度照射的聚光灯,揭示模型能力的不同侧面。

BLEU评分关注的是n-gram精确度,简单来说就是看翻译结果中有多少个词组与标准答案完全匹配。这就像检查学生答案中有多少个短语和标准答案一模一样。METEOR评分则更加宽容,它不仅考虑完全匹配,还会识别词干和同义词,就像一个更有经验的老师,能够认识到"跑步"和"奔跑"表达的是同一个意思。

COMET评分使用多语言嵌入来评估语义相似性,这是一个更加先进的评估方法。它不再拘泥于表面的词汇匹配,而是深入理解句子的真正含义。比如"他很高兴"和"他感到开心"在BLEU评分中可能得分不高,但COMET能够识别出它们表达的是相同的意思。

ChrF++评分在字符级别的n-gram上操作,对于形态变化丰富的非洲语言特别有效。许多非洲语言通过改变词尾来表达不同的语法含义,ChrF++能够捕捉到这些细微的变化,就像一个熟悉当地方言的专家,能够理解每个语音变化的含义。

TER(翻译编辑率)则从实用角度评估翻译质量,计算需要多少次编辑才能把机器翻译改成正确的翻译。分数越低表示需要的修改越少,翻译质量越高。这个指标对于实际应用非常重要,因为它直接关系到用户使用翻译结果时需要花费多少时间和精力进行修正。

AfriCOMET是专门针对非洲语言训练的神经评估指标,它比通用的评估工具更能理解非洲语言的特殊性。这就像请一个非洲语言专家来评判翻译质量,而不是让一个只懂英语的人来评价。

为了确保评估的公平性和一致性,所有测试都使用FLORES-200数据集作为标准测试集。这个数据集就像是全球翻译能力的"托福考试",为不同语言和不同模型提供了统一的比较基准。

五、令人瞩目的实验结果:数据的力量超乎想象

实验结果揭示了一个令人惊喜的事实:高质量的数据确实能够显著提升人工智能模型的语言处理能力,而且这种提升是全面性的。

在基线性能测试中,未经非洲语言训练的Llama-3.2-1B模型表现出了有趣的跨语言迁移能力。ChrF++得分从2.00(沃洛夫语)到44.76(南非荷兰语)不等,平均得分为8.10。这种巨大差异反映了不同语言与模型已知语言之间的相似程度。南非荷兰语得分最高(44.76分)并不令人意外,因为它与德语和拉丁文字系统有着密切关系,而模型对这些语言系统已经很熟悉。

经过微调训练后,模型性能出现了显著提升。平均而言,ChrF++得分提升了23.69分,COMET得分提升了0.33分,BLEU得分提升了15.34分。这些数字背后代表着什么呢?以斯瓦希里语为例,ChrF++得分从9.0跃升至72.27,提升了63.27分,几乎达到了与谷歌翻译(75.81分)相当的水平。

更令人兴奋的是,在某些语言上,研究团队的模型甚至超越了谷歌翻译。约鲁巴语翻译中,他们的模型得分30.88,明显超过谷歌翻译的21.05分。在阿拉伯语翻译中,模型得分31.52,也略胜于谷歌翻译的28.46分。最引人注目的是阿散蒂语(Twi)的表现,模型得分46.80,大幅超越谷歌翻译的31.48分。

性能提升的模式也很有启发性。研究团队发现,提升幅度与基线性能呈反比关系,这表明有效的迁移学习而非简单的记忆效应在起作用。那些初始表现最差的语言往往获得了最大的改进,这就像给最需要帮助的学生提供了最有效的辅导。

语言特定的响应模式分为三类。高响应语言(如斯瓦希里语、塞索托语、豪萨语)显示出超过40分的ChrF++提升,表明数据特征与模型架构之间的最佳匹配。稳定改进语言(如伊博语、绍纳语、索马里语)在各项指标上都有25-30分的稳定提升,显示出强健的适应能力。而具有挑战性的语言(如丰语、沃洛夫语、班巴拉语)虽然改进有限,但仍然获得了功能性的翻译能力。

TER分数的大幅降低特别值得关注,平均降低了580.13分。这个指标直接关系到实际应用价值:像斯瓦希里语这样的语言现在达到了与谷歌翻译相当的TER分数(23.77),表明翻译质量已经达到了几乎不需要后期编辑的程度。

六、数据分布的深层洞察:不平等中的机遇与挑战

研究团队收集的数据呈现出有趣的分层特征,这种分层既反映了不同语言的数字化程度,也揭示了未来发展的方向和挑战。

从文本资源角度来看,数据分布呈现出明显的四层结构。第一层是主要资源语言,包括阿姆哈拉语(29.45亿标记)、阿拉伯语(24亿标记)、约鲁巴语(23.63亿标记)和南非荷兰语(22.95亿标记)。这些语言能够达到如此大的数据量,反映了持续的数字化努力和强有力的机构支持。

第二层是已建立的数字语言,如豪萨语(15.39亿标记)和提格里尼亚语(9.16亿标记)。这些语言显示出强健的数字存在,可能得益于一致的文档化和保护倡议。

第三层是新兴数字语言,包括马达加斯加语(8.39亿标记)、索马里语(7.51亿标记)、斯瓦希里语(7.00亿标记)和科萨语(5.63亿标记)。这些语言显示出不断增长的数字足迹,但仍然落后于顶层语言。

第四层是资源受限的语言,大多数语言都属于这一类别,包括一些使用人数众多的语言,如班巴拉语(1.09亿标记)和卢干达语(1.21亿标记)。这一层反映了文本数据可用性的严重缺口。

语音资源的分布模式与文本资源不同,突出了一套不同的领先语言。高资源语音语言包括卢旺达语(3839小时)、卢干达语(1727.80小时)、斯瓦希里语(1115小时)和阿拉伯语(2721.52小时),这些语言在语音数据方面的优势往往来自大规模语音语料库或广播档案。

中等语音资源语言相对稀少,包括马达加斯加语(325.14小时)、阿散蒂语(227.03小时)、本巴语(230.30小时)和埃维语(147小时)。这些语言代表了各种广泛使用的语言和有针对性的语音收集努力的混合。

低资源语音语言占大多数,包括基刚果语、隆迪语、卡努里语、翁本杜语和芳语等,这些语言的语音数据很少或完全没有。

这种不平衡突出了两个平行的数字鸿沟:文本鸿沟和语音鸿沟。文本量前三名的语言占据了不成比例的标记份额,而语音时长前三名的语言同样捕获了大部分录制语音。这种不平衡强调了对文本和语音资源进行有针对性开发的迫切需要,特别是对于那些有大量使用者但数字存在有限的语言。

七、与谷歌翻译的正面较量:挑战巨头的勇气与实力

将自己开发的模型与谷歌翻译进行比较,就像是一个新兴运动员挑战奥运冠军。在22种可以与谷歌翻译进行比较的语言中,研究团队的结果显示出三种不同的竞争态势。

第一类是研究团队模型实现竞争性或优越性能的语言。在约鲁巴语翻译中,他们的模型以30.88的ChrF++得分明显超过谷歌翻译的21.05分。阿拉伯语翻译也显示出优势,模型得分31.52对比谷歌翻译的28.46分。最引人注目的是阿散蒂语,研究团队的模型得分46.80,大幅超越谷歌翻译的31.48分。

这些成功案例并非偶然。研究团队在这些语言上的数据收集和处理投入了大量精力,特别是针对约鲁巴语和阿散蒂语这样的西非语言,他们通过All Voices平台收集了大量高质量的社区贡献数据。阿拉伯语的优势则可能得益于该语言丰富的数字资源和研究团队对阿拉伯语语言特征的深入理解。

第二类是谷歌翻译保持明显优势的语言,特别是在一些高资源语言如卢旺达语(24.65对70.27)和斯瓦希里语(72.27对75.81)。这些结果反映了谷歌翻译在大规模训练数据和成熟技术方面的优势。谷歌翻译经过多年发展,已经积累了海量的多语言数据和精细调优的算法,在这些语言上的表现自然更加稳定。

第三类是谷歌翻译不支持的语言,这恰恰突出了研究团队工作的独特价值。许多非洲语言,特别是那些使用人口相对较少或地理分布较为分散的语言,并没有得到商业翻译服务的支持。研究团队的工作为这些"被遗忘"的语言提供了数字化的可能性。

值得注意的是,即使在谷歌翻译表现更好的语言上,研究团队的模型也显示出了合理的竞争力。在斯瓦希里语翻译中,72.27的得分已经非常接近谷歌翻译的75.81分,这个差距完全在可接受范围内,特别考虑到研究团队使用的是相对较小的基础模型。

更重要的是,研究团队的方法展现出了巨大的改进潜力。通过使用更大的基础模型、收集更多高质量数据、优化训练策略,他们的方法很可能在更多语言上达到或超越商业翻译服务的水平。

八、人才培养的深远意义:播种未来的语言科技专家

在技术成果之外,研究团队最值得称道的成就可能是他们的人才培养工作。通过结构化的研究发展项目,他们成功指导了15名早期职业研究者,这些人分布在四个不同的机构,为非洲自然语言处理的未来发展奠定了人才基础。

这种人才培养模式就像种植一片森林,而不是只培育几棵大树。每个被指导的研究者都可能成为未来的种子,在不同的地方、不同的机构继续推进非洲语言技术的发展。这种分布式的人才培养策略确保了研究影响的可持续性和扩散性。

指导项目采用了一对一导师制,为每个早期研究者提供个性化的指导和支持。这不仅包括技术技能的传授,还涵盖了研究方法论、项目管理、团队协作等综合能力的培养。许多被指导者已经从早期参与者转变为独立研究者,甚至开始领导自己的项目。

更重要的是,这种人才培养模式体现了"授人以渔"的理念。研究团队不仅仅是解决了当前的技术问题,更是为非洲培养了一批能够继续推进这项工作的本土专家。这些专家具备了深厚的技术背景,同时也对本地语言和文化有着深入的理解,这种结合是外来研究者难以替代的。

人才培养项目还特别注重跨机构合作和知识共享。通过定期的研讨会、工作坊和合作项目,不同机构的研究者能够交流经验、分享资源、协作解决共同面临的挑战。这种网络效应放大了每个个体的影响力,形成了一个互相支持的研究社群。

九、技术创新背后的哲学思考:Ubuntu理念指导下的包容性发展

研究团队的工作不仅仅是技术上的突破,更体现了一种深刻的哲学思考。他们明确提出以Ubuntu哲学作为指导框架,这个来自南部非洲的哲学概念强调包容性、相互依存和开放性。

Ubuntu理念可以简单理解为"我之所以存在,是因为我们的存在"。在语言技术发展的语境下,这意味着没有任何一种语言应该被忽视或边缘化,每种语言都有其独特的价值和不可替代的作用。这种理念指导着研究团队在技术设计、数据收集、模型开发的每个环节都考虑包容性和公平性。

这种哲学指导体现在具体的技术决策中。比如,All Voices平台的设计强调社区参与和民主化的数据贡献,而不是依赖专业机构或商业公司的数据垄断。每个语言社区的成员都被视为该语言的专家和守护者,他们的贡献被平等地尊重和认可。

在模型开发过程中,研究团队也坚持开放性原则。他们没有选择闭源的商业模型作为基础,而是使用开源的Llama模型,确保其他研究者可以在他们的基础上继续发展。这种开放性不仅体现在技术层面,也体现在知识分享和能力建设方面。

更深层次的哲学思考涉及到语言多样性的价值。在全球化的背景下,主要语言的强势地位往往会挤压小语种的生存空间。研究团队的工作实际上是在为语言多样性提供技术支撑,帮助小语种在数字时代找到自己的位置。

这种哲学立场也影响了项目的评估标准。除了技术指标,研究团队还关注社会影响、文化保护、教育公平等更广泛的价值。他们认识到,技术进步的最终目标应该是促进人类福祉和社会公正,而不仅仅是技术本身的先进性。

十、面向未来的挑战与机遇:一场持久战的开始

研究团队对自己工作的局限性有着清醒的认识,这种诚实的自我评估为未来的改进指明了方向。

模型架构和规模限制是首要挑战。目前的实验只使用了Llama-3.2-1B这一个基础模型,虽然证明了数据集的价值,但可能低估了大规模架构的潜在收益。不同语言族群的性能差异(从斯瓦希里语的63.27分ChrF++提升到芳语的-1.10分)表明,最优模型选择可能因语言类型而异。

数据不平衡问题同样突出。尽管收集了190亿标记,数据集显示出巨大的不平衡:资源最丰富的语言(阿姆哈拉语:29.45亿标记)与资源最稀缺的语言(芳语:0.02亿标记)之间存在147000倍的差异。这种不平衡直接影响了性能结果:拥有超过10亿标记的语言平均ChrF++得分为45.66,而少于1亿标记的语言平均得分仅为24.31。

更关键的是,13种语言完全缺乏语音数据,限制了多模态模型的发展。现有的验证流程虽然统计上严谨,但73%的语言缺乏母语使用者验证,可能遗漏了方言变化,这影响了28%显示COMET-ChrF++分歧超过0.3的评估翻译。

平台基础设施的限制也不容忽视。All Voices平台目前主要通过移动界面运行,可能限制了具有不同技术偏好或访问模式的社区的参与。质量控制机制虽然系统化,但可能无意中偏向某些语言变体而非其他变体。

这些限制为未来发展描绘出清晰的路线图。探索针对形态复杂语言的架构特定优化是一个重要方向。实施主动学习策略来解决数据不平衡问题也势在必行。开发对非洲语言类型更敏感的评估指标同样重要。

研究团队强调,这些限制突出了在计算资源、人类专业知识和基础设施发展方面持续投资的必要性,以支持非洲语言的全面技术发展。他们的工作更像是一场马拉松的起跑,而不是短跑的终点。

说到底,这项研究的意义远超技术本身。在人工智能日益主导信息获取、教育和经济机会的时代,确保技术的公平覆盖不仅仅是技术挑战,更是道德要求。非洲语言实验室的工作证明,通过协调的研究、社区参与和持续的技术与人力投资,这种道德要求是可以实现的。

这个项目为全世界被忽视的语言社区建立了可持续的发展道路。当我们看到约鲁巴语翻译超越谷歌翻译,看到40种非洲语言获得数字生命,看到15名年轻研究者成长为语言技术专家时,我们看到的不仅仅是技术进步,更是人类文化多样性在数字时代的胜利。

这场语言复兴运动才刚刚开始。随着更多数据的积累、更先进算法的开发、更多人才的培养,我们有理由相信,未来的数字世界将真正实现语言的平等和包容。每一种语言都应该在人工智能时代找到自己的声音,每一个语言社区都应该平等地享受技术进步的红利。

Q&A

Q1:非洲语言实验室的All Voices平台有什么特别之处?

A:All Voices是世界上第一个专门为低资源语言设计的众包数据收集平台,最大创新是允许用户直接在两种非洲语言之间翻译,不需要通过英语作为中介。平台还有游戏化排行榜系统,用户贡献会经过社区验证,通过验证的翻译会成为训练新语言的素材,形成滚雪球效应。

Q2:为什么研究团队开发的模型在某些语言上能超越谷歌翻译?

A:主要原因是针对性的数据收集和处理。研究团队专门为非洲语言收集了大量高质量数据,特别是通过All Voices平台获得的社区贡献数据。比如在约鲁巴语翻译中得分30.88超过谷歌的21.05分,在阿散蒂语上更是46.80大幅领先谷歌的31.48分。这说明专门化的数据处理在某些语言上确实能够挑战商业巨头。

Q3:这项研究对普通人有什么实际意义?

A:对于非洲语言使用者来说,这意味着他们终于可以用母语与数字世界交流,获取医疗、教育等重要信息。对全球来说,这项研究保护了人类语言多样性,防止了814种濒危非洲语言的消失。研究还培养了15名本土专家,确保了技术发展的可持续性,为全世界被忽视的语言社区提供了可复制的发展模式。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-