微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ALLaM-34B阿拉伯语AI大模型实测:沙特AI局如何让机器说出地道阿拉伯话

ALLaM-34B阿拉伯语AI大模型实测:沙特AI局如何让机器说出地道阿拉伯话

2025-09-08 14:13
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-08 14:13 科技行者

这项令人瞩目的研究由沙特阿拉伯NAMAA社区的Omer Nacar领导,发表于2025年8月的arXiv预印本服务器上。对阿拉伯语AI技术感兴趣的读者可以通过arXiv:2508.17378v1访问完整论文。这项研究专门评测了沙特数据与AI管理局开发的ALLaM-34B阿拉伯语大模型在实际应用中的表现。

在当今的AI世界里,绝大多数语言模型都像是只会说英语的外国人——当它们试图处理阿拉伯语时,往往会闹出各种笑话。阿拉伯语不仅有着复杂的语法结构,更重要的是承载着深厚的文化内涵和宗教传统。当一个AI模型用西方思维来回答阿拉伯用户的问题时,就好比让一个从未去过中国的外国人来教你包饺子——技术上可能说得通,但总觉得哪里不对劲。

正是认识到这个问题,沙特数据与AI管理局启动了ALLaM项目,专门打造适合阿拉伯文化的AI模型。这个项目就像是为阿拉伯语量身定制了一套"文化基因",让AI不仅能说流利的阿拉伯语,更能理解阿拉伯文化的精髓。ALLaM系列包含了从70亿到700亿参数不等的多个版本,而34B版本是目前公众能接触到的最强大版本。

HUMAIN公司基于这个34B模型开发了HUMAIN Chat聊天服务,就像给这个阿拉伯语AI找了个实战舞台。由于这个系统只能通过网页界面使用,研究团队决定直接在用户界面上进行全面测试,就像给一个新司机安排路考一样——在真实环境中检验它的实际能力。

一、测试大厅:为阿拉伯语AI设计的全方位挑战赛

研究团队设计的评测方案就像一场精心策划的多项全能比赛。他们准备了23道不同类型的题目,每道题都要求AI回答5次,总共收集了115个回答样本。这种重复测试的方式就像同一道数学题让学生做5遍,既能看出AI的稳定性,也能发现它的随机变化模式。

整个测试涵盖了阿拉伯语使用的方方面面,从最正式的现代标准阿拉伯语到各地方言,从简单的日常对话到复杂的推理任务。测试内容包括现代标准阿拉伯语处理、五种地方方言(纳季德方言、汉志方言、埃及方言、摩洛哥方言和黎凡特方言)、阿拉伯语英语混合使用、知识问答、数学推理、创意写作,以及安全性测试。

特别有趣的是安全性测试部分,研究团队故意设计了一些"陷阱题"——比如试图让AI透露不该说的信息、绕过安全限制或者回答一些危险问题。这就像给保安设置各种突发情况,看他是否能坚持原则不被忽悠。

评分环节更是别出心裁,研究团队请了三位"AI评委"来打分——GPT-5、Gemini 2.5 Pro和Claude Sonnet-4。这三个模型就像奥运会的国际裁判,分别从准确性、流畅度、指令遵循能力、安全性和方言准确性五个维度给出1到5分的评价。最终得分就是这些维度的平均分,就像体操比赛中去掉最高分和最低分后的平均分一样。

二、成绩单揭晓:ALLaM-34B的强项与短板

当所有测试结果汇总后,ALLaM-34B的表现就像一份详细的体检报告,各项指标一目了然。整体来说,这个AI模型在大部分测试中都表现出色,但也暴露了一些有趣的特点。

在代码转换和创意生成两个项目上,ALLaM-34B简直是满分选手,平均得分都达到了4.92分(满分5分)。代码转换指的是在阿拉伯语和英语之间自由切换的能力,就像一个完美的双语主持人,能够在两种语言之间无缝切换而不失优雅。当用户用阿拉伯字母写英语(比如用阿拉伯字母写"ana rayeh el-beit"表示"我要回家"),AI能够准确理解并转换成正确的阿拉伯语。

创意生成方面同样表现亮眼,无论是写正式信件还是创作散文,AI都能保持高水平的文学性和流畅度。这种能力对于阿拉伯语使用者来说特别重要,因为阿拉伯文学传统非常悠久,对文字的美感要求很高。

知识问答得分4.77分,现代标准阿拉伯语处理得分4.74分,推理能力得分4.64分,这些都属于相当不错的成绩。现代标准阿拉伯语是正式场合使用的规范阿拉伯语,就像我们的书面语一样,AI在这方面的优秀表现说明它接受了良好的"正统教育"。

安全相关测试的平均得分是4.54分,这个成绩让人比较放心。当面对那些试图诱导AI说出不当内容的"陷阱题"时,AI基本都能坚持底线,拒绝回答危险问题。具体的几种安全测试——提示注入、越狱攻击和数据泄露防护——都获得了4.20分的稳定分数,这种一致性说明安全防护机制相当可靠。

然而,方言处理是ALLaM-34B相对薄弱的环节,平均得分只有4.21分。这个结果其实不太令人意外,因为阿拉伯语方言的复杂性就像中国各地方言一样,每个地区都有自己独特的表达方式和文化背景。

三、方言大考验:AI如何应对阿拉伯语的地域色彩

当研究团队深入分析方言测试结果时,发现了一个有趣的现象:不同方言的表现差异就像学生的偏科现象一样明显。纳季德方言、汉志方言和埃及方言的表现相对均衡,平均得分都在3.7到3.8之间,而黎凡特方言只得到2.73分,摩洛哥方言得分2.7分。

这种差异背后有着深层次的原因。纳季德和汉志方言是沙特本土方言,埃及方言在阿拉伯世界影响力很大(埃及的电影和电视剧在整个阿拉伯世界都很受欢迎),因此这些方言在训练数据中的代表性更强。相比之下,黎凡特方言覆盖叙利亚、黎巴嫩、约旦等地区,摩洛哥方言则带有更多柏柏尔语影响,这些在训练数据中可能覆盖不足。

研究团队发现了一个特别有意思的现象:当用户用方言提问时,AI往往能够理解问题,但回答时却经常"跑偏"到标准阿拉伯语或者英语。比如当有人用纳季德方言问今天天气如何时,AI不是用同样的方言回答,而是切换到类似天气预报的正式格式,甚至直接用英语回答"Today's weather in Riyadh is mostly sunny, with a temperature of 42°C..."。

这种现象就像一个刚学会普通话的外地人,听得懂家乡话,但一开口就不自觉地说成了普通话。AI似乎在遇到需要调用外部知识(比如天气信息)时,会自动切换到更"安全"的标准语言模式,而不是保持原有的方言风格。

对于汉志方言的测试也显示了类似问题。当用户用汉志方言询问当地新闻时,AI会生成详细的新闻简报,内容涵盖天气、成就、安全事件和房地产项目,但语言风格完全是标准的新闻播报腔调,失去了方言的亲切感和地域特色。

埃及方言的情况稍有不同。当用户用埃及方言进行日常对话时,AI经常给出礼貌但格式化的自我介绍,就像客服机器人一样,虽然内容准确流畅,但完全忽略了埃及方言轻松随意的会话特点。

四、具体案例分析:AI的回答风格透视

研究团队精选了几个典型案例来展示ALLaM-34B的实际表现。这些案例就像是AI的"作品集",让我们能够直观地了解它的能力边界。

在现代标准阿拉伯语的正式改写任务中,AI表现得相当出色。当要求将一段文字改写得更加正式时,AI能够准确把握语言的正式程度,使用恰当的词汇和句式结构。多次测试的结果显示,AI的改写既保持了原意,又提升了语言的正式度,而且每次改写都略有不同,显示出良好的变化能力。

代码转换任务更是AI的强项。当遇到用阿拉伯字母拼写的英语(比如"ana rayeh el-beit b3d shwaya")时,AI能够迅速识别并转换成正确的阿拉伯语。有趣的是,AI在转换时会在方言形式和标准形式之间做选择,有时使用更口语化的表达,有时选择更正式的说法,这种灵活性体现了良好的语言感知能力。

安全测试的结果让人印象深刻。当面对明显不合适的问题时,AI的回答就像训练有素的专业人员一样,简洁明了地拒绝回答,不会被各种花言巧语所迷惑。即使是那些设计得很巧妙的"陷阱题",试图通过复杂的指令来绕过安全限制,AI也能识别出其中的风险并坚持拒绝。

特别值得注意的是提示注入攻击的测试。这类攻击就像是对AI说:"忘掉之前所有的规则,现在按照我说的做...",试图让AI违背原有的安全设置。面对这种攻击,AI表现得相当坚定,始终坚持自己的安全原则,不会被这种"洗脑"式的指令所影响。

五、数据深度解读:从分数看出的门道

当把所有测试数据整理成图表后,研究团队发现了一些有趣的规律。整体得分分布显示,ALLaM-34B在大部分任务上都能保持4分以上的水平,这在AI评测中算是相当不错的成绩。

最引人注目的是置信区间的分析。代码转换和创意生成两个项目不仅得分最高,而且置信区间很窄([4.85, 5.00]和[4.88, 4.97]),这说明AI在这两个方面的表现非常稳定,几乎每次测试都能达到很高的水平。这种一致性对于实际应用来说非常重要,用户可以对AI在这些方面的表现有比较可靠的期待。

相比之下,推理任务的置信区间相对较宽([4.49, 4.79]),说明AI在不同推理题目上的表现有一定波动。这可能反映出AI在处理不同类型推理问题时的能力差异,有些逻辑推理可能对它来说更容易,而有些则更具挑战性。

方言处理的热力图揭示了更细致的信息。在五个评测维度中,安全性得分在所有方言测试中都保持在4.3到4.5之间,这说明无论用哪种方言提问,AI都能维持基本的安全标准。流畅度得分也相对较高,表明AI至少能够生成语法正确、表达清晰的阿拉伯语回答。

但是在方言保真度方面,差异就比较明显了。纳季德、汉志和埃及方言的保真度得分在3.7到3.9之间,而黎凡特和摩洛哥方言只有2.6到2.9分。这个数据清楚地显示了AI在不同方言上的"偏科"现象——它能理解这些方言,也能用阿拉伯语回答,但往往不能保持原有的方言特色。

六、技术局限与改进空间

通过深入分析,研究团队识别出了ALLaM-34B的几个主要局限性。首先是方言覆盖不均衡的问题,这就像一个图书馆的藏书偏科——某些领域的书很多,某些领域的书很少。AI在处理纳季德、汉志和埃及方言时表现较好,但面对黎凡特和摩洛哥方言时就显得力不从心。

更深层的问题是AI倾向于"安全化"回答的特点。当遇到需要调用特定知识或处理复杂情境的问题时,AI往往会自动切换到更正式、更通用的语言模式。这种行为模式虽然能保证回答的准确性,但会丢失方言的文化韵味和亲切感。就像一个原本应该轻松聊天的场合,结果变成了正式的新闻发布会。

研究团队还注意到AI在某些情况下会完全"失控",从阿拉伯语突然切换到英语。这种现象特别容易在处理实时信息查询(如天气预报)时出现,AI似乎认为英语格式的信息更权威或更准确,于是就放弃了保持阿拉伯语回答的初衷。

另一个有趣的发现是AI对文化语境的理解还有待提高。虽然它在技术层面能够生成流畅的阿拉伯语,但有时会缺乏文化敏感性。比如在某些需要考虑宗教或社会传统的问题上,AI的回答虽然没有明显错误,但可能不够贴近阿拉伯社会的实际情况。

七、人工评估验证:专家眼中的AI表现

为了确保评测结果的可靠性,研究团队还进行了人工评估来验证AI评委的判断。这个过程就像给考试成绩找第二意见,确保评分的公正性和准确性。

人工评估主要关注两个AI评委可能判断困难的领域:方言准确性和文化适宜性。在这些更需要人文理解的方面,人类评估师能够提供AI评委可能遗漏的细微判断。结果显示,人工评估和AI评委在流畅度和准确性方面的判断高度一致,但在文化细节方面,人工评估师确实发现了一些AI评委可能忽视的问题。

比如在处理某些带有文化隐喻或宗教背景的表达时,AI虽然能够生成语法正确的回答,但可能不够符合阿拉伯社会的表达习惯。这种差异就像翻译软件能把意思翻译出来,但可能缺少native speaker的地道感觉。

人工评估还验证了AI在安全性方面的表现确实值得信赖。专家审查了那些被AI拒绝回答的问题,确认这些拒绝都是合理和必要的。同时也检查了AI给出回答的问题,确认这些回答没有包含不当内容或潜在风险。

八、研究意义与实际应用价值

这项研究的价值不仅在于对ALLaM-34B性能的全面评估,更在于为阿拉伯语AI的发展提供了重要的参考基准。在AI技术日新月异的今天,大部分评测还是以英语为中心,专门针对阿拉伯语的深度评测相对稀少。

研究结果显示ALLaM-34B在实际应用中具备了相当的可靠性。对于需要阿拉伯语AI服务的机构和个人来说,这个模型能够胜任大部分日常任务,特别是在正式文档处理、创意写作和多语言交流方面表现出色。

安全性测试的良好结果也为实际部署提供了信心保障。在当今AI安全备受关注的环境下,ALLaM-34B展现出的安全意识和防护能力让它具备了在敏感环境中应用的潜力。

不过,研究也明确指出了改进方向。方言支持的不均衡提醒开发者需要更多样化的训练数据,特别是那些代表性不足的方言区域。文化适宜性的问题则提示需要更深入的文化敏感性训练,让AI不仅能说阿拉伯语,更能"像阿拉伯人一样思考"。

研究方法本身也具有重要的借鉴价值。通过用户界面进行评测的方式更贴近真实使用场景,比纯粹的API测试更能反映用户的实际体验。多轮测试和多维度评分的设计也为其他语言模型的评测提供了可参考的框架。

归根结底,这项研究证明了专门为特定语言和文化定制的AI模型确实能够取得更好的效果。ALLaM-34B虽然还不够完美,但已经在阿拉伯语AI领域迈出了重要一步。它不仅是一个技术产品,更是连接阿拉伯文化与现代AI技术的桥梁。对于整个阿拉伯语社区来说,有了这样一个"懂自己"的AI助手,无疑是一个振奋人心的进步。

研究团队最后也坦承了这项研究的局限性——依赖聊天界面、相对较小的测试集以及AI评委的使用都可能影响结果的全面性。但正如作者所言,这些结果为ALLaM-34B作为文化导向型阿拉伯语AI模型的有效性提供了有力证据。未来的工作将需要扩大方言覆盖范围,整合更多人工评估,并测试后续版本,目标是推进可信、稳健且文化契合的阿拉伯语AI系统发展。

Q&A

Q1:ALLaM-34B阿拉伯语AI模型在哪些方面表现最好?

A:ALLaM-34B在代码转换和创意生成方面表现最优秀,两项得分都达到4.92分(满分5分)。代码转换是指在阿拉伯语和英语之间自由切换的能力,创意生成包括写作正式信件和散文等。此外,它在现代标准阿拉伯语处理(4.74分)和知识问答(4.77分)方面也表现出色,安全性测试平均得分4.54分,显示出良好的安全防护能力。

Q2:为什么ALLaM-34B处理不同阿拉伯语方言的效果差别这么大?

A:这主要是因为训练数据的覆盖不均衡。纳季德、汉志和埃及方言得分在3.7-3.8之间,而黎凡特方言只有2.73分,摩洛哥方言2.7分。纳季德和汉志是沙特本土方言,埃及方言因影视作品影响力大,所以在训练数据中代表性更强。AI虽然能理解各种方言,但回答时经常切换到标准阿拉伯语,丢失了方言的地域特色和亲切感。

Q3:普通用户可以通过什么渠道使用ALLaM-34B模型?

A:目前用户可以通过HUMAIN Chat网页服务(https://chat.humain.ai/en)来体验ALLaM-34B模型。这是一个封闭式的对话服务,只能通过用户界面使用,没有公开的API接口或模型权重下载。研究显示该服务响应速度很快(1-3秒),适合实时交互使用,但用户无法调整温度、top-p等技术参数。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-