在全球化日益深入的今天,人们在日常交流中越来越频繁地混合使用多种语言。比如一个华人可能会说"今天的meeting很重要",或者一个阿拉伯人可能写道"这个project真的很challenging"。这种在同一句话中切换使用不同语言的现象,语言学家称之为"代码转换"。随着大语言模型越来越多地处理我们的日常文本,它们能否真正理解这种混合语言就变得至关重要。
来自阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)和法国巴黎综合理工学院的研究团队,于2025年6月发表了一项开创性研究,系统性地测试了当前主流大语言模型处理代码转换文本的真实能力。这项研究由MBZUAI的Amr Mohamed和Guokan Shang领导,联合巴黎综合理工学院的Yang Zhang和Michalis Vazirgiannis共同完成。研究成果发表在计算语言学领域的顶级会议上,完整论文可通过arXiv:2506.14012v1获取。
这项研究的独特之处在于,它不仅考察了大语言模型在混合语言环境下的表现,还深入探讨了不同类型的语言混合对模型理解能力的具体影响。研究团队发现了一个令人意外的现象:当在英语句子中插入其他语言的词汇时,模型的理解能力会显著下降;但当在其他语言的句子中插入英语词汇时,模型的表现反而可能会提升。这种不对称现象揭示了当前AI系统在多语言处理方面存在的深层结构性偏见。
一、当AI遇到"混搭语言":问题比想象中更复杂
要理解这项研究的重要性,我们首先需要认识代码转换这个现象有多普遍。代码转换并不是简单的"中英文混杂",而是遵循特定语言学规律的复杂现象。就像厨师在烹饪时会遵循特定的配菜原则一样,说话者在混合使用语言时也会无意识地遵循某些语法规则。
语言学家们早就发现,代码转换有其内在规律。比如"等价约束理论"告诉我们,语言切换通常发生在两种语言的语法结构兼容的位置。这就像两条不同的铁轨需要在某个特定点才能平滑连接,不是任何地方都可以随意切换的。另一个重要理论是"母语框架模型",它认为在混合语言中,总有一种语言充当"主框架",负责提供句子的基本语法结构,而另一种语言只是"客串",插入一些词汇但不破坏整体结构。
然而,尽管我们对代码转换的语言学原理有了深入了解,但对于大语言模型如何处理这种混合语言,我们的认知还相当有限。现有的评估基准主要关注表面层次的任务,比如识别哪些词属于哪种语言,或者分析句子的情感倾向,却很少深入考察模型是否真正理解混合语言文本的深层含义。
这就像只测试一个人能否识别菜谱中的中文和英文词汇,却不测试他是否真的理解这道菜应该怎么做。研究团队意识到,我们需要更深入、更全面的评估方法来真正了解大语言模型的混合语言理解能力。
二、巧妙的实验设计:让AI"考试"暴露真实水平
为了系统性地测试大语言模型的代码转换理解能力,研究团队设计了一套精巧的实验方案。他们的核心思路是:既然我们有很多成熟的英语理解测试,为什么不把它们"改造"成混合语言版本,然后看看模型的表现会如何变化?
研究团队选择了三个具有代表性的测试基准。第一个是Belebele,专门测试阅读理解能力,就像给学生一篇文章然后问几个理解性问题。第二个是MMLU,涵盖了从历史到科学的57个不同知识领域,就像一个超级全面的知识竞赛。第三个是XNLI,测试的是自然语言推理能力,也就是给模型两个句子,让它判断它们之间的逻辑关系。
接下来的关键问题是:如何创造出高质量的混合语言测试文本?研究团队开发了两种不同的方法。
第一种方法他们称为"名词替换法",严格遵循语言学理论。这种方法就像一个精细的手术,只在语法允许的特定位置进行语言切换。具体来说,他们会找到英语句子中的名词,然后用其他语言的对应词汇替换,但要确保这种替换不会破坏句子的整体语法结构。比如将"Hume says that beauty is a quality"改为"Hume says that ?????? is a quality",其中??????是阿拉伯语的"美"。
第二种方法他们称为"比例替换法",故意不遵循语言学规律。这种方法就像随机在句子中洒胡椒粉,大约替换20%的词汇,不管语法是否合理。这样做的目的是为了对比:到底是语言学规律重要,还是混合语言本身就会给模型造成困扰?
在具体的文本生成过程中,研究团队还比较了两种不同的技术路线。一种是基于传统的词汇对齐技术,就像使用翻译词典来寻找对应词汇。另一种是完全依靠大语言模型本身,让Claude这样的先进模型来完成语言混合任务。经过仔细比较,他们发现后者生成的混合语言文本更加自然流畅,因此在正式实验中采用了这种方法。
为了确保实验的公平性和可靠性,研究团队还让GPT-4o对生成的文本质量进行盲评,确保所有的混合语言文本都达到了相当的质量标准。
三、令人意外的发现:英语的"特殊地位"暴露无遗
实验结果揭示了一个既令人意外又发人深省的现象。当研究团队在英语文本中插入阿拉伯语、德语、法语或中文词汇时,几乎所有测试的大语言模型都出现了性能下降。这种下降是普遍性的,不管是小型的30亿参数模型还是大型的700亿参数模型,不管是Llama、Qwen还是Mistral系列,都无法幸免。
具体来看,当LLaMA-70B处理英语文本时,它的综合准确率能达到70%。但一旦在其中混入阿拉伯语或德语词汇,准确率就下降到66%,相当于下降了4个百分点。对于较小的模型,这种下降更加明显。比如LLaMA-3B在纯英语文本上能达到54%的准确率,但在混合语言条件下降至47%,下降幅度高达7个百分点。
更有趣的是,研究团队发现,即使严格遵循语言学理论的"名词替换法"和完全随意的"比例替换法",造成的性能下降程度竟然相当接近。这个发现打破了一个常见的假设:许多人认为只要遵循语言学规律,混合语言就不会给模型造成太大困扰。但实验结果表明,问题的根源可能更加深层。
然而,当研究团队反过来实验——在其他语言的文本中插入英语词汇时,结果却截然不同。这种"反向操作"往往会改善模型的表现,特别是对于那些在非英语文本上表现不佳的模型。
以Mistral-7B为例,它在纯阿拉伯语文本上的准确率只有35%,但当在阿拉伯语文本中插入一些英语词汇后,准确率竟然提升到了48%,提升幅度达到13个百分点。类似的现象在中文、法语和德语中也都能观察到。这种现象就像给一个在黑暗中摸索的人递上了手电筒,英语词汇似乎充当了"理解锚点"的作用。
这种不对称现象清楚地揭示了当前大语言模型的一个根本性偏见:它们对英语的依赖程度远超我们的想象。这并不奇怪,因为大多数模型的训练数据中,英语文本占据了绝对主导地位。但这种偏见的存在意味着,当英语作为"主角"时,任何"外来干扰"都会降低模型的理解能力;而当其他语言作为"主角"时,英语的出现反而起到了"救援"作用。
四、极限测试:多语言混合的复杂挑战
为了进一步探索大语言模型的极限,研究团队设计了"极限代码转换"实验。如果说前面的实验是"小试牛刀",那么这个实验就是"真正的挑战"。
他们在同一个英语句子中同时混入多种不同的语言。具体设置了三种情况:第一种是混合非拉丁文字的语言组合,包括阿拉伯语和中文;第二种是混合拉丁文字的语言组合,包括法语和德语;第三种是"终极混合",同时包含阿拉伯语、中文、法语和德语四种语言。
这样的实验设计就像让一个人同时处理四种不同口音的英语对话,难度可想而知。实验结果显示,所有模型在这种极限条件下都出现了进一步的性能下降,但下降程度并不像预期的那样随着语言数量的增加而线性增长。
以LLaMA-70B为例,它在纯英语MMLU测试中能达到77%的准确率,但在三种极限混合条件下,准确率分别降至72%、70%和70%。令人意外的是,最复杂的四语言混合(第三种情况)并没有比两语言混合表现更差。这个发现提示我们,模型的困扰可能不是来自语言种类的数量,而是来自语言混合这个行为本身。
另一个有趣的发现是,不同文字系统(拉丁文字vs非拉丁文字)的混合并没有显示出明显的难度差异。一些模型在处理阿拉伯语-中文组合时表现更好,而另一些模型则在法语-德语组合上表现更佳。这暗示文字系统的差异并不是影响模型理解的决定性因素。
五、深入分析:当英语成为"拯救者"
为了更全面地理解语言混合的影响机制,研究团队进行了一个特别有意思的"角色反转"实验。他们让英语从"主角"变成了"配角",观察会发生什么。
在这个实验中,阿拉伯语、德语、法语或中文成为了句子的主要语言(语言学上称为"矩阵语言"),而英语词汇被插入其中作为"嵌入语言"。结果确实验证了前面的发现:英语词汇的加入往往能改善模型的理解能力。
最显著的例子来自那些在非英语文本上本来就表现不佳的模型。当Mistral-7B处理纯中文文本时,准确率只有46%,但加入英语词汇后能提升到53%,提升了7个百分点。这种现象在所有测试的语言中都能观察到,只是程度有所不同。
特别值得注意的是,那些在某种语言上已经表现很好的模型,加入英语词汇的提升效果就不那么明显了。比如ALLaM-7B在阿拉伯语上本来就很强,加入英语词汇只带来了微小的提升。这就像一个已经很熟悉某个地方的人,即使有了GPS导航也不会有太大帮助,但对于初来乍到的人来说,GPS就是救命稻草。
这种现象的背后机制其实不难理解。由于大语言模型的训练数据中英语占据绝对优势,模型对英语的内部表征要比其他语言丰富和精确得多。当英语词汇出现在其他语言的文本中时,它们就像"认知锚点",帮助模型更好地理解整个句子的含义。
但这种不平衡也带来了深层的担忧。它意味着在多语言交流日益频繁的今天,AI系统可能会无意中强化英语的主导地位,让其他语言永远处于"依附"地位。这不仅是技术问题,更是关系到语言公平性和文化多样性的重要议题。
六、拯救方案:提示词还是重新训练?
面对大语言模型在代码转换理解方面的不足,研究团队探索了两种可能的改善策略。第一种是"提示词引导法",就像给模型一个事前提醒;第二种是"重新训练法",通过专门的训练来增强模型的混合语言理解能力。
提示词引导法的思路很直接:既然模型在处理混合语言时会困惑,那么我们就提前告诉它"接下来你会看到英语和阿拉伯语的混合文本,请仔细理解"。这种方法就像给一个即将参加国际会议的人提前说明"今天会有多种语言的发言"。
实验结果显示,这种方法的效果因模型而异,呈现出明显的"冰火两重天"现象。对于Qwen系列模型,提示词引导带来了显著的改善。Qwen-72B在接受提示后,处理混合语言的准确率甚至超过了纯英语基准,这是一个相当了不起的成就。Qwen-7B也有类似的提升,特别是在英语-中文混合文本上,准确率从57%提升到59%。
然而,对于LLaMA系列和Mistral模型,提示词引导不仅没有帮助,反而经常起到反作用。LLaMA-8B在所有语言组合上的表现都因为提示词而下降,其中英语-法语组合从52%降到了48%。更戏剧性的是LLaMA-70B,在英语-阿拉伯语和英语-中文组合上分别下降了13和17个百分点,这是相当大幅度的性能倒退。
这种差异化的表现揭示了不同模型架构和训练策略的深层差异。一些模型能够有效利用外部指导信息,而另一些模型则会被这种额外信息干扰,就像有些学生需要老师的详细指导,而有些学生更适合独立思考。
相比之下,重新训练的方法展现出了更稳定和普遍的改善效果。研究团队选择了LLaMA-8B作为实验对象,因为它在提示词引导方面表现不佳,正好可以验证重新训练的效果。
他们使用了来自TED演讲的多语言平行语料库,包含英语、阿拉伯语、中文、法语和德语。训练数据的构建过程很巧妙:首先筛选出长度超过70词的英语句子及其对应翻译,然后使用前面开发的方法生成代码转换版本,最终得到约14600个训练样本。
为了防止模型过度拟合特定的指令格式,他们还设计了五种不同的提示模板,比如"将这个英语句子与阿拉伯语进行代码转换"或"将以下英语文本与中文混合"。这种多样化的训练就像让学生练习不同类型的题目,而不是只会做一种模式的题。
重新训练的效果是显著且一致的。原本在代码转换文本上表现不佳的LLaMA-8B,经过专门训练后在所有语言组合上都取得了改善。最大的提升出现在英语-阿拉伯语组合上,准确率提高了4个百分点。虽然这种改善还没有完全消除代码转换带来的性能下降,但它证明了通过有针对性的训练,模型的混合语言理解能力是可以改善的。
七、深层反思:AI时代的语言公平问题
这项研究的发现超越了纯粹的技术层面,触及了AI时代一个更深层的问题:语言公平性。当我们发现大语言模型对英语有着如此明显的偏好时,我们不禁要问:这种偏见会如何影响全球不同语言社区的人们?
研究结果清楚地表明,当前的大语言模型存在一种结构性的语言不平等。英语被视为"标准",其他语言的混入被视为"干扰"。这种现象的根源在于训练数据的不平衡,但其影响却可能是深远的。
考虑一个现实场景:一个阿拉伯语用户在与AI助手交流时自然地混入一些英语词汇,这在很多国际化社区中是完全正常的交流方式。但根据这项研究的发现,这种自然的语言使用习惯可能会得到AI系统更好的理解和回应。相反,一个主要使用英语但偶尔混入其他语言词汇的用户,可能会发现AI的理解能力突然下降。
这种不对称现象可能会在不知不觉中强化某种语言使用模式,鼓励人们在与AI交互时更多地使用英语,从而进一步巩固英语的主导地位。这对于语言多样性和文化保护来说,可能不是一个好消息。
更值得担忧的是,随着AI生成的内容越来越多地被回收利用作为新模型的训练数据,这种偏见可能会形成一个自我强化的循环。AI系统更倾向于生成符合其训练偏好的内容,而这些内容又会被用来训练下一代AI系统,从而使偏见得到进一步加强。
然而,这项研究也为我们指明了改善的方向。重新训练实验的成功表明,通过有意识的努力,我们可以提高AI系统对混合语言的理解能力。这需要的不仅是技术上的改进,更需要整个AI社区对语言公平性问题的重视。
研究团队也坦诚地指出了他们工作的局限性。他们主要关注的是基于名词替换的代码转换,这只是真实世界中语言混合现象的一个子集。更复杂的语法层面混合、句子层面切换等现象还需要进一步研究。此外,他们在非语言学驱动的实验中使用了固定的20%替换率,而实际的语言混合比例可能变化很大。
八、展望未来:向更公平的多语言AI迈进
这项研究为我们理解和改善大语言模型的多语言能力提供了宝贵的洞察。它不仅揭示了当前AI系统的局限性,也为未来的改进指明了方向。
从技术角度来看,研究团队开发的评估框架和生成方法为后续研究提供了重要工具。他们的工作表明,创建高质量的混合语言评估数据集是可行的,而且这种评估对于全面了解模型能力是必要的。未来的研究可以在此基础上扩展到更多语言对、更复杂的混合模式,以及更多样化的任务类型。
从实用角度来看,这项研究的发现对AI应用开发者有着直接的指导意义。如果你正在开发面向多语言用户的AI应用,就需要特别注意代码转换对模型性能的影响。对于某些关键应用,可能需要考虑专门的混合语言训练或特殊的处理策略。
研究还展示了两种改善策略的不同特点。提示词引导法虽然效果不稳定,但实施成本低,可以作为快速测试和改进的方法。重新训练法效果更稳定,但需要更多资源投入,适合对性能要求较高的场景。
更重要的是,这项研究提醒我们,在追求AI技术进步的同时,不能忽视公平性和包容性问题。语言是文化的载体,也是人类认知的基础。如果AI系统对某些语言使用模式有偏见,最终受影响的将是使用这些语言的人群。
好消息是,意识到问题的存在就是解决问题的第一步。随着越来越多研究者关注多语言AI的公平性问题,我们有理由相信,未来的AI系统会更好地理解和支持人类的多样化语言使用习惯。毕竟,真正智能的AI应该能够适应人类的自然交流方式,而不是要求人类去适应机器的局限性。
说到底,这项研究告诉我们的不仅仅是大语言模型的技术局限,更是关于如何构建更包容、更公平的AI系统的深刻思考。在这个AI技术快速发展的时代,这样的思考尤为珍贵。它提醒我们,技术进步不应该以牺牲多样性为代价,而应该成为促进全球文化交流和理解的桥梁。
对于普通用户来说,了解这些研究发现有助于我们更好地与AI系统交互,也让我们对AI的能力和局限有更清醒的认识。同时,作为AI技术的使用者和受益者,我们也有责任推动更公平、更包容的AI发展,让技术真正服务于人类的多样化需求。
这项由MBZUAI和巴黎综合理工学院联合开展的研究,为我们理解AI时代的语言挑战提供了重要窗口。有兴趣深入了解技术细节的读者,可以通过arXiv:2506.14012v1访问完整的研究论文,其中包含了详细的实验设计、数据分析和技术实现说明。
Q&A
Q1:什么是代码转换?为什么它对AI重要? A:代码转换是指在同一句话中混合使用两种或多种语言的现象,比如"今天的meeting很重要"。随着全球化发展,这种混合语言使用越来越普遍,特别是在社交媒体上。由于大语言模型需要处理这类真实的用户输入,它们对代码转换的理解能力直接影响服务质量和用户体验。
Q2:为什么AI在处理混合语言时表现不佳? A:主要原因是训练数据的不平衡。大语言模型的训练数据中英语占绝对主导地位,导致模型对英语的内部表征更加丰富精确。当英语文本中混入其他语言时,模型会将其视为"干扰",从而影响理解能力。这反映了当前AI系统存在的结构性语言偏见问题。
Q3:有什么方法可以改善AI的混合语言理解能力? A:研究显示了两种方法:一是提示词引导,即事先告诉模型会遇到混合语言,但效果因模型而异;二是专门的混合语言训练,通过在包含代码转换文本的数据上重新训练模型。后者效果更稳定普遍,但需要更多资源投入。目前看来,有针对性的训练是更可靠的解决方案。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。