微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 从呼噜声到语法:探索如何在合作觅食中产生语言 - A*STAR与南洋理工研究团队的突破性发现

从呼噜声到语法:探索如何在合作觅食中产生语言 - A*STAR与南洋理工研究团队的突破性发现

2025-05-23 07:42
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:42 科技行者

想象一下,在漫长的人类历史长河中,我们的祖先是如何从简单的咕噜声和手势,逐渐发展出今天这套复杂的语言系统的?这个问题一直困扰着语言学家和人类学家。而今天我们要聊的这项研究,就像是打开了一扇窗户,让我们得以窥探语言的起源。

这项由新加坡资讯通信研究院(I?R,A*STAR)、南洋理工大学计算与数据科学学院、英国曼彻斯特大学计算机科学系和新加坡前沿人工智能研究中心(CFAR,A*STAR)的研究团队联合完成的研究成果,于2025年5月19日发表在arXiv预印本平台上(arXiv:2505.12872v1)。研究团队的主要成员包括Maytus Piriyajitakonkij、Rujikorn Charakorn、Weicheng Tao等多位学者,通讯作者为南洋理工大学的Mengmi Zhang教授。

在人类语言诞生之前,我们的祖先是如何相互协作的?他们依靠什么避开捕食者,共享资源,一起打猎?学术界目前的主流假设认为,语言并非凭空出现,而是为了满足早期人类合作需求而逐渐演变出来的。打个比方,就像你和朋友在一个昏暗的森林里寻找食物,你看到了远处的浆果,但你的朋友没看到。在没有语言的情况下,你可能会指指点点,发出特定声音,或尝试带领朋友前往。随着时间推移,这些简单的沟通方式逐渐演变成更复杂的系统,最终成为我们今天使用的语言。

那么,我们能在实验室中"重现"这个过程吗?研究团队设计了一个名为"觅食游戏"(Foraging Games)的多智能体环境,模拟了早期人类面临的生态和认知限制。在这个游戏中,智能体们需要在一个部分可观察的网格世界中协作,完成诸如共同拾取高价值目标或执行有时间顺序的行动等任务。通过端到端深度强化学习,这些智能体从零开始学习行动和沟通策略。

令人惊讶的是,研究团队发现这些智能体逐渐发展出了具有自然语言特征的通信协议,包括任意性(符号通过社会约定而非固有结构获得意义)、互换性(发出和理解相同的信息)、位移性(能够表达在其他时间和地点发生的事件)、文化传播(语言模式在智能体之间传递)以及组合性(语言由可重复使用的部分构成,反映任务语义)。

接下来,让我们一起深入了解这项研究的细节,看看这些"数字洞穴人"是如何发展出它们自己的沟通系统的。

一、研究背景:语言为何会产生?

在探索语言起源这个宏大话题之前,我们需要先了解一下语言可能的演化动力。想象一下原始人类生活的场景:几个部落成员在草原上狩猎,他们需要互相协调才能成功捕获猎物。在这种情况下,有效的沟通就成了生存的关键。

在语言学和人类学领域,有一个主流假设认为,人类语言的产生并非偶然,而是为了满足早期人类合作的需求。换句话说,语言是一种工具,它被社会使用和共同目标所塑造。这就像是几个人需要一起抬起一块沉重的石头,但每个人都只能看到石头的一部分——如果没有沟通,他们很难协调自己的动作,石头可能会砸到脚上。

虽然我们无法直接获取早期人类交流的证据(毕竟那时候还没有录音设备!),但我们可以通过多智能体模拟来研究语言是如何在协调需求下产生的。就像科学家无法直接观察恐龙生活,但可以通过化石和模型来推测一样。

之前的研究主要集中在所谓的"参考游戏"上,即一个"说话者"向一个"听者"传递信息。想象两个人面对面坐着,中间有一个屏障,说话者看到一些物体,需要描述给听者听,让听者找出正确的物体。这种设置虽然简单,但有很多限制:沟通往往是单向的,角色固定(一个永远是说话者,一个永远是听者),而且参与者不需要在真实环境中移动或互动。

这就是为什么研究团队开发了"觅食游戏"(Foraging Games,简称FG)——一个更贴近早期人类真实生存环境的多智能体框架。在FG中,智能体需要双向沟通、共同学习物理行动和交流,就像早期人类在合作觅食时做的那样。环境强调了智能体的身体性:它们必须探索、观察和在一个动态且部分可见的世界中行动。此外,每个智能体都会与多个不同的伙伴互动,这让研究人员可以研究向新伙伴的泛化、方言形成和文化传播等现象。

二、觅食游戏:重现原始人的生存环境

觅食游戏的构思非常巧妙,它试图模拟早期人类面临的生态和认知限制。想象一下,你和你的伙伴站在5×5的网格世界中,每人只能看到以自己为中心的3×3范围内的情况。你们的任务是找到并同时拾取目标物品,但难点在于:你们每人只能获得部分信息,必须通过沟通来协调行动。

这个游戏包括两个具体任务:

首先是"高分觅食"(ScoreG)。在这个任务中,环境中有两个物品,每个物品有一个分数。但每个智能体只能看到其中一个物品的分数,它们必须互相交流,找出并同时拾取分数更高的那个物品。这就像两个洞穴人各自发现了不同的食物来源,需要决定哪一个更值得花时间获取。

其次是"时序觅食"(TemporalG)。在这个任务中,两个物品会在不同时间点出现,每个智能体只能看到一个物品出现的时间。智能体们必须按照物品出现的时间顺序拾取它们——先出现的物品必须先被拾取。这模拟了原始人需要根据季节或其他时间线索来决定何时收集哪些资源的情况。

智能体们如何在这个世界中移动和沟通呢?每个智能体可以向四个方向移动(上、下、左、右)或拾取物品。同时,它们可以从固定大小的可学习词汇表中选择离散消息进行交流。这些消息没有预设的含义,智能体需要自己发展出有意义的通信系统。

每个智能体都装备了用于感知、记忆和策略转换的深度神经网络模块。简单来说,智能体有三个主要部分:一个用来观察周围环境的"眼睛",一个用来记住之前看到和听到的信息的"大脑",以及一个决定下一步行动和发送什么消息的"决策系统"。

这些智能体使用一种叫做"近端策略优化"(PPO)的算法独立训练,没有共享模块、参数或梯度,反映了每个智能体的个性化和去中心化特性。就像现实中的人类一样,每个智能体都以自己的方式学习和适应环境。

三、语言如何浮现:从混沌到秩序

在研究中,智能体们在所有游戏中都达到了超过95%的成功率,这表明它们确实学会了有效沟通和协作。但研究团队注意到一个有趣的现象:两个训练好的智能体虽然能很好地合作,但当一个智能体与自己的复制品配对测试时,却失败了。这暗示智能体只理解伙伴的语言,而不理解自己产生的语言。

这听起来很奇怪,对吧?就像你能听懂别人说的话,但不理解自己说的话一样。为了解决这个问题,研究团队提出了两个解决方案:

第一个方案是训练具有三个或更多智能体的群体。研究人员猜测,当智能体必须与多个伙伴交流时,发展共享语言会成为最优策略。这就像是在一个小村庄里,如果每两个人之间都发明自己的语言,那么沟通会变得非常困难。相反,一种共享的语言自然会产生。

第二个方案是在训练期间纳入"自我互动"。这受到人类能对自己说话的观察启发。通过让智能体在训练中有时与自己的复制品互动,可以鼓励智能体理解自己的消息,促进对共享语言的趋同,反映了语言的"互换性"特征。

研究团队还探索了不同社交网络结构中的语言特性,如完全连接(每个智能体都可以与所有其他智能体互动)和环形结构(每个智能体只与邻居互动)。他们使用逻辑回归从智能体的消息中解码与任务相关的信息,如物品位置,验证这些消息是有意义的而非随机的。高于随机水平的解码准确率表明语言已经浮现,用于交流物品属性。

另外,研究人员还表明,当智能体无法发送消息时,它们可以发展出"隐式交流"——即通过观察伙伴的行为获取信息。这就像两个人在不说话的情况下,通过观察对方的眼神和动作来协调行动。

四、研究发现:语言的五大特性

这项研究的一个重要发现是,在合作环境中训练的智能体逐渐发展出了人类语言的五大关键特性:

首先是"任意性"。智能体们发明的符号并不具有固有的含义,而是通过社会约定获得意义。即使两个智能体开发出不同的语言系统,只要它们能相互理解并成功完成任务,这些系统就是有效的。这就像世界上不同的人类语言使用不同的词来表达相同的概念——"水"在英语中是"water",在中文中是"水",在法语中是"eau",但它们都指向同一个概念。

其次是"互换性"。如前所述,在合适的训练条件下,智能体能够理解自己产生的消息,这反映了语言的互换性——即发送者和接收者可以互换角色。这就像人类既可以说话也可以理解别人说的话。

第三是"位移性"。智能体发展出了能够表达时间和空间位移的语言——它们可以交流"什么时候"和"在哪里"看到过去的事件。这就像人类可以谈论"昨天看到的苹果"或"森林里的苹果"一样,能够引用远离当前时间和地点的事物。

第四是"文化传播"。研究显示,语言模式可以通过社交网络在智能体之间传递。在环形结构的社交网络中,距离较近的智能体发展出的语言比距离较远的智能体更相似。这类似于人类语言如何在社区内演变和传播,形成方言和共享理解。

最后是"组合性"。智能体的语言似乎具有组合结构,即消息由可重用的部分构成,反映任务语义。高地形相似度(一种测量消息空间和语义空间之间结构对齐的指标)表明,相似的语义含义对应于相似的消息。这就像人类语言中的词汇和语法规则可以组合形成无限多的有意义句子。

在人口规模对语言形成的影响方面,研究发现人口规模确实影响组合性。对于仅进行交叉训练(XP)的智能体,组合性随人口规模从2增加到6后趋于饱和。相比之下,进行交叉训练和自训练(XP+SP)的智能体显示出组合性随人口规模增加而持续上升的趋势,在人口规模为12-15时达到平稳。

另外,研究还通过解码智能体消息中的时间和位置信息,验证了位移性的存在。在TemporalG游戏中,解码物品生成时间和位置的准确率远高于随机水平,表明消息确实编码了这些信息。在ScoreG游戏中也观察到类似结果。此外,使用消息嵌入链进行解码比使用原始整数消息更有效,表明这些嵌入编码了更有意义和线性可分离的特征。

五、自发沟通:当语言被禁用时

一个有趣的发现是,即使在禁止使用显式消息的情况下,智能体也能发展出一种隐式沟通形式。研究团队进行了一个消融实验,操纵两个变量:伙伴可见性和显式语言沟通的存在。

当伙伴不可见且无法通过显式消息沟通时(Inv-NoCom),智能体的表现低于随机水平(40%),可能是因为它们无法协调目标拾取。然而,当伙伴可见但仍不允许显式沟通时(Vis-NoCom),智能体的成功率达到60%,远超随机水平。这表明智能体学会了通过观察伙伴的行为获取信息——这被称为"隐式沟通"。

这就像是两个人在图书馆中不能说话,但通过彼此的眼神、手势和动作来协调任务。研究团队还评估了成功测试情节的平均长度。有趣的是,具有更准确沟通的智能体(无论是通过显式消息还是隐式沟通)需要更多步骤来发送有意义的信号,增加它们的"沟通带宽",从而导致更长的情节长度。

六、研究意义与局限性

这项研究通过在模拟环境中重现语言的自然演化过程,为我们理解人类语言的起源提供了宝贵见解。研究表明,在合作和部分可观察的条件下,语言可以自然浮现作为一种协调工具,而不需要任何直接的人类语言监督。

值得注意的是,智能体在有限容量下培养的语言展现出了人类语言的五个关键特性:任意性、互换性、位移性、文化传播和组合性。这表明这些特性很可能是在类似的生态和社会环境下自然产生的,而不是人为设计的结果。

然而,研究团队也承认他们的方法存在一些局限性。虽然训练方法可能反映了人类沟通学习的某些方面,但它可能无法有效扩展到复杂环境,如视觉游戏或机器人控制任务。弥合这一差距可能需要放宽一些当前的约束,例如,为了解决更复杂的任务,智能体可能需要共享梯度或参数以稳定训练。

此外,该框架不包含轮流的动态,这是当前方法struggle with的另一个挑战。最后,研究团队使用有限集合的符号输入来评估组合性,未来的工作可以探索从压缩高维感官数据到紧凑潜在变量中浮现的组合表示。

理解语言的起源是一个深刻而长期存在的挑战,需要语言学、心理学、神经科学和人工智能的见解。这项工作代表了解决这个复杂问题的初步步骤。

七、结语:从觅食游戏到语言起源

说到底,这项研究向我们展示了一个令人着迷的画面:在一个模拟的原始环境中,简单的智能体通过互动和合作,逐渐发展出了具有人类语言关键特性的沟通系统。这就像是一个加速版的语言进化历史,让我们得以窥见那段无法直接观察的远古时期。

研究的核心启示是,语言并非一个孤立的抽象系统,而是在特定的生态和社会环境中,为满足合作需求而自然浮现的工具。当智能体需要协调行动,但每个智能体只能获取部分信息时,发展共享的沟通协议成为了最优策略。

这不禁让我们思考:人类语言的哪些特性是必然的,哪些是偶然的?如果重新来过,我们的语言会以相同的方式发展吗?随着此类研究的深入,我们或许能更好地理解语言这一人类最为独特的能力是如何塑造我们的思维和社会的。

对于感兴趣深入了解的读者,完整论文可通过arXiv:2505.12872v1 [cs.AI]查阅。研究团队表示,他们将公开发布所有数据、代码和模型,为这一领域的进一步研究提供支持。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-