微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 剑桥大学突破性发现:人工智能竟然无法像人类一样学会新语言?

剑桥大学突破性发现:人工智能竟然无法像人类一样学会新语言?

2025-09-19 11:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-19 11:06 科技行者

这项由剑桥大学的刘峰华、陈语隆,以及牛津大学的刘一轩和美国伊利诺伊大学厄巴纳-香槟分校的钟明等研究团队完成的突破性研究,发表于2025年8月30日的arXiv预印本平台。有兴趣深入了解的读者可以通过arXiv:2509.00425访问完整论文。这项研究揭示了一个令人震惊的发现:尽管当今最先进的大型语言模型在各种任务上都能取得接近满分的成绩,但当面对一门全新的语言时,它们的表现却令人大跌眼镜。

要理解这项研究的重要性,我们需要先从一个生活中的例子说起。当一个成年人决定学习法语时,他们通常会买一本语法书和一本词典,然后开始系统地学习语法规则和单词。通过这种方式,许多人都能在几个月内掌握基本的法语交流能力。这种学习方式被称为"显性语法学习",也就是通过明确的规则和解释来掌握语言。

研究团队想要验证的核心问题是:当我们给人工智能提供同样的语法书和词典时,它们能否像人类一样学会一门全新的语言?为了回答这个问题,他们做了一件前所未有的事情——创造了一门全新的人工语言,名叫"Camlang"。

一、创造一门全新语言的奇妙实验

Camlang这门语言的诞生过程就像精心调制一道复杂的菜肴。研究团队首先从世界各地的真实语言中挑选了不同的语言特征,就像厨师从不同的食材中选取精华一样。他们从土耳其语系中借鉴了元音和谐的特点,从凯尔特语系中吸取了辅音变化的规律,从罗曼语系中采用了活跃的左边缘结构。这些特征虽然都在真实语言中存在,但从未以这种特定的组合形式出现过。

这样做的巧妙之处在于,Camlang既保持了自然语言的合理性,又确保了它的全新性。就像一道融合菜,使用的都是常见的食材和烹饪技法,但搭配方式是全新的,创造出了前所未有的味道。研究团队花费了大量时间确保这门语言在语言学上是合理的,同时又足够复杂,能够真正测试人工智能的语言学习能力。

Camlang具有许多有趣的特征。它有着复杂的形态句法系统,这意味着一个词根可以通过添加不同的前缀和后缀来表达丰富的语法意义。就像中文里的"吃"可以变成"吃过"、"吃着"、"吃完"一样,但比这复杂得多。Camlang还有着严格的语音变化规则,当不同的词缀组合时,发音会发生变化,这为学习者增加了额外的挑战。

为了让这门语言能够被学习和使用,研究团队制作了两个核心工具:一本详细的语法书和一本英语-Camlang双语词典。语法书就像烹饪教程一样,详细解释了如何组合不同的语言成分来表达特定的意思。词典则像食材清单,提供了所有必要的词汇和它们的英语对应词。

二、人类学习者的成功证明

在正式测试人工智能之前,研究团队需要确保Camlang确实可以被人类学习。他们邀请了几位具有语言学背景的学生参与实验,让他们仅凭语法书和词典来学习这门新语言。

实验的过程就像学习一门外语的加速版。参与者需要将英语句子翻译成Camlang,从简单的陈述句开始,逐步过渡到复杂的对话。整个过程分为三轮,每一轮都会根据参与者的表现对语法书和词典进行调整和完善。

结果令人鼓舞。人类学习者不仅能够掌握Camlang的基本结构,还能在需要时灵活运用语法规则。他们的翻译一致性随着轮次的增加而提高,这表明语法书的描述越来越清晰,语言系统也越来越完善。最终,人类参与者在理解和使用Camlang方面达到了令人满意的水平。

这个验证过程的重要性不言而喻。如果连人类都无法学会Camlang,那么用它来测试人工智能就失去了意义。人类的成功学习证明了Camlang是一门合理的语言,为后续的人工智能测试奠定了坚实基础。

三、令人震惊的人工智能表现落差

当研究团队将同样的任务交给人工智能时,结果令所有人大吃一惊。他们测试了目前最先进的几个大型语言模型,包括GPT-4o、GPT-5、GPT-o3以及DeepSeek-R1等。这些模型在英语版本的常识问答任务上表现出色,准确率高达85%到98%,几乎接近完美。

然而,当同样的问题被翻译成Camlang后,这些模型的表现急剧下降。即使是最优秀的GPT-5,准确率也只有47%左右,而其他模型的表现更是惨不忍睹,有些甚至接近随机猜测的水平。相比之下,人类参与者在同样的Camlang任务上达到了87%的准确率,几乎与他们在英语任务上的表现相当。

这种巨大的差距揭示了一个深刻的问题:人工智能模型虽然在已知语言上表现优异,但在面对真正陌生的语言结构时,它们并不能像人类那样运用语法规则进行推理。相反,它们更多地依赖于表面的词汇匹配和模式识别。

为了更深入地理解这种差异,研究团队还进行了详细的错误分析。他们发现,人工智能模型经常无法正确解析Camlang句子的语法结构,也无法准确理解选项的含义。即使在一些看似简单的任务上,模型也会因为无法处理复杂的词法变化而出错。

四、深入剖析人工智能的学习局限

通过对人工智能模型输出的详细分析,研究团队发现了一些有趣的模式。不同模型表现出了不同类型的错误和局限性。

以GPT-4o为例,这个通用型模型在Camlang任务上几乎完全失败。它的分析过程显示,模型无法识别任何有意义的语法标记,也无法进行有效的词汇映射。面对"nosna mü?s ńer. meni myvá ghot?"这样的Camlang句子,GPT-4o只能给出诸如"可能是名词或动词"这样模糊的猜测,完全没有展现出任何语法分析能力。

相比之下,专门针对推理优化的模型如GPT-5表现稍好一些。GPT-5能够识别一些基本的语法标记,比如主题标记"=nA"和疑问词"meni",但它仍然无法完整地解析句子结构。更重要的是,即使GPT-5能够部分理解句子含义,它在选项分析方面仍然存在重大缺陷。

DeepSeek-R1的表现则介于两者之间。它在某些方面显示出了一定的语法意识,能够正确识别一些词汇项,但在整体句法分析方面仍然力不从心。这种不完整的理解导致了它在最终答案选择上的频繁错误。

研究团队还发现了一个有趣的现象:当给模型提供不同的资源访问方式时,它们的表现也会发生变化。理论上,能够直接查询词典和语法书的工具模式应该表现更好,但实际情况却相反。许多模型在上下文模式下(将所有资源直接放在输入中)表现更佳。这表明目前的人工智能系统在处理外部工具时还存在技术障碍。

五、人类与人工智能的根本性差异

这项研究最深刻的发现在于揭示了人类和人工智能在语言学习方式上的根本性差异。人类能够通过元语言推理来学习新语言,也就是说,他们能够理解和运用关于语言本身的规则。当人类学习者看到"nos=nA mü?s n=ńer-?"这样的表达时,他们能够系统地分解各个部分:主题标记、动词词根、宾语标记和主语一致性标记,然后根据语法书中的规则重新构建句子的含义。

人工智能模型则采用了完全不同的策略。它们更多地依赖统计模式匹配,试图在新语言和已知语言之间寻找表面相似性。这种方法在处理与训练数据相似的任务时非常有效,但在面对真正陌生的语言结构时就显得力不从心。

这种差异在具体例子中表现得尤为明显。当面对Camlang中的复杂词法变化时,人类学习者会系统地应用音变规则,而人工智能模型往往只能依靠词汇表中的直接匹配。当遇到词典中没有直接列出的变化形式时,模型就会陷入困境。

研究还发现,人工智能模型经常表现出"浅层词汇对齐"的倾向,也就是说,它们会尝试通过识别熟悉的词汇片段来猜测意思,而不是进行系统的语法分析。这种策略在某些情况下可能碰巧得到正确答案,但它并不代表真正的语言理解。

六、技术细节与深层启示

从技术角度来看,这项研究采用了极其严谨的实验设计。Camlang的创造过程经历了三轮迭代优化,每一轮都基于人类学习者的反馈来完善语法规则和词汇系统。最终版本的Camlang包含了134个语言学特征,在世界语言图谱中超越了97.5%的已知语言,确保了足够的复杂性来测试学习能力。

词汇系统的构建也很有特色。研究团队使用了五种不同的词汇形成机制:原生词根生成、派生词形成、复合词构造、不透明借词和透明借词。这种多样化的词汇来源模拟了真实语言的演化过程,为学习者提供了更加自然的语言环境。

在评估方法上,研究不仅关注了最终答案的正确性,还对模型的推理过程进行了详细分析。他们设计了三个层次的评估标准:严格准确性(要求所有方面都完全正确)、中等准确性(允许语义理解中的小缺失)和宽松准确性(接受不完整但不错误的分析)。这种多层次评估揭示了模型成功背后的真实机制。

结果显示,即使在最宽松的标准下,人工智能模型的表现仍然远逊于人类。这表明问题不仅仅是完整性不足,而是根本性的理解缺陷。

七、未来发展的可能性与挑战

这项研究开启了人工智能评估的新范式。传统的基准测试往往关注模型在已知任务上的表现,而Camlang这样的构造语言提供了一种评估真正学习能力的新方法。研究团队计划将这个框架扩展到更多类型的任务,包括翻译、语法判断和数学推理等。

从实用角度来看,这项发现对人工智能的应用有着重要影响。在需要处理小语种或专业领域语言的场景中,当前的人工智能模型可能无法提供可靠的服务。这提醒我们在部署人工智能系统时需要更加谨慎,特别是在语言多样性较高的应用场景中。

研究还揭示了改进人工智能语言处理能力的潜在方向。未来的模型可能需要更好地整合符号推理能力,而不是仅仅依赖统计学习。这可能涉及到架构上的根本性改进,以及训练方法的创新。

另一个重要启示是关于人工智能能力评估的。这项研究表明,在熟悉领域的高分表现并不能保证在新领域的成功迁移。这对人工智能安全性评估具有重要意义,提醒我们需要更加全面和严格的测试标准。

八、对日常生活的深远影响

虽然这项研究看似高度学术化,但它对我们日常生活中与人工智能的交互有着重要启示。现在许多人习惯于依赖人工智能进行翻译、写作和信息处理,这项研究提醒我们,人工智能在处理不熟悉的语言或概念时可能存在重大局限。

在教育领域,这一发现特别值得关注。虽然人工智能可以在许多标准化测试中取得高分,但在真正需要理解和应用新概念的学习场景中,它们的表现可能不如预期。这强调了人类教师在引导学生掌握学习方法和思维模式方面的不可替代价值。

对于依赖人工智能进行跨语言交流的应用,这项研究也提出了重要警示。当处理资源较少的语言或专业术语时,人工智能系统可能无法提供准确可靠的服务。用户需要对这种局限性保持清醒认识。

从更广阔的角度来看,这项研究揭示了人类认知能力的独特性。人类能够通过抽象思维和规则应用来快速学习新知识,这种能力在人工智能时代仍然具有重要价值。这或许能够帮助我们重新思考人类在智能化社会中的角色定位。

这项由剑桥大学等顶级学府研究团队完成的工作,不仅在学术层面具有突破意义,更为我们理解人工智能的真实能力和局限性提供了宝贵视角。说到底,尽管人工智能在许多任务上表现优异,但在真正需要理解和推理的深层学习方面,它们与人类还有着根本性差距。这个发现提醒我们,在享受人工智能便利的同时,也要保持对其局限性的清醒认识,既不过度依赖,也不轻易低估人类智慧的独特价值。归根结底,这项研究为人工智能的发展指明了新的方向,同时也为我们重新审视人类认知能力的珍贵性提供了科学依据。

Q&A

Q1:Camlang是什么?为什么要创造这门新语言?

A:Camlang是剑桥大学研究团队专门创造的人工语言,用来测试人工智能是否能像人类一样学习全新语言。它结合了世界各地真实语言的特征,比如土耳其语的元音和谐、凯尔特语的辅音变化等,但这种组合方式前所未有。创造新语言是为了确保人工智能无法通过记忆训练数据来"作弊",只能依靠真正的语法理解能力。

Q2:人工智能在Camlang测试中表现有多差?

A:表现差距非常悬殊。最先进的人工智能模型如GPT-5在英语任务上能达到95%以上的准确率,但在相同的Camlang任务上只有47%的准确率。而人类参与者仅凭语法书和词典就能达到87%的准确率。这说明人工智能虽然在熟悉语言上表现出色,但面对真正陌生的语言结构时,远不如人类的学习和推理能力。

Q3:这项研究对普通人使用人工智能有什么启示?

A:这项研究提醒我们,人工智能在处理不熟悉的语言、概念或领域时可能存在重大局限。在日常使用中,当涉及小语种翻译、专业术语理解或需要真正推理的任务时,不应过度依赖人工智能的结果。同时,这也突显了人类在学习新知识、理解复杂概念方面的独特优势,在人工智能时代这种能力仍然具有不可替代的价值。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-