微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

很遗憾，自然语言理解是AI尚未攻克的领域

AI游戏娱乐

很遗憾，自然语言理解是AI尚未攻克的领域

作者：科技行者

2021-01-19 15:58

分享至：

事实证明，人类语言仍是一项独特且深邃的难题，亦是AI技术所面对的最为艰巨的挑战之一。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2021-01-19 15:58 • 科技行者

短短几年之内，深度学习算法得到了长足发展，不仅在棋类游戏中击败了全球最顶尖的选手，也能够以等同于、甚至超越人类的准确率识别人脸。但事实证明，人类语言仍是一项独特且深邃的难题，亦是AI技术所面对的最为艰巨的挑战之一。

但是，突破能否如期而至?

一旦计算机可以有效理解人类语言内容，则必将彻底颠覆全球各品牌、企业与组织之间的交互方式。如今，大多数企业拿不出充裕的资源为每位客户提供一对一解答服务。但在语言AI真正成熟之后，企业将能够在任意时间通过任意渠道听取、理解并回应每一个问题。这是一项激动人心的发展愿景，但距离达成目标仍有漫长的道路要走。

直到2015年，人们才构建出一种足以在准确率方面与他类相匹敌的人脸识别算法。Facebook的DeepFace准确率为97.4%，仅略低于人类的97.5%。作为参考，FBI以往的人脸识别算法准确率仅为85%，意味着其做出的判断有超过七分之一概率是错的。

FBI算法是由一组工程师手工开发而成。其中每项特征(例如鼻子大小以及眼睛的相对位置)皆由手动编程而来。Facebook算法则真正实现了特征学习，其利用一种被称为卷积神经网络的特殊深度学习架构，模拟出人类视觉皮层通过复杂的多层结构处理图像内容。事实上，我们并不清楚这些皮层之间是如何联系的，因此一切“奥秘”都由算法自主探索得来。

Facebook之所以能够达成这一成就，依靠的正是实现类人级人工智能的两个基本思路：首先建立一套能够学习特征的架构，再将数百万张经过标记的高质量图像作为训练素材供其学习。

语言难关就在眼前

视觉的诞生虽然困难，但已经有数百万种物种在进化过程中攻克了这道难关。相比之下，语言似乎更为复杂。据我们所知，人类是目前唯一能够使用复杂语言交流想法的物种。

不到十年之前，出现了单凭某些词汇的出现频率即可大致推理出语义的AI算法。但这种方法显然忽视了同义词元素的存在，也无法应对某些表达在不同上下文中具有不同表意的问题。

2013年，Tomas Mikolov和他的谷歌团队创造出一种能够学习单词含义的架构。他们的word2vec算法能够将同义词相互映射，借此对大小、性别、速度等语义进行建模，甚至能够将国家与首都等特征关联起来。

但其中仍然缺少至关重要的一环——理解上下文。语言理解领域的真正突破诞生于2018年，谷歌公司在这时推出了BERT模型。Jacob Devlin和他的团队仍然沿用传统机器翻译中的架构，但向其中引入了学习句子内上下文信息的能力。

通过教育该模型填补维基百科文章中的遗漏单词，该团队得以将语言结构嵌入BERT模型。只需要使用数量有限的高质量标记数据，他们就成功完成了对BERT的调优，借此完成从为问题找到正确答案、到真正理解句子表意的多种任务。也凭借这一壮举，他们成为破解语言理解谜题的先驱：正确架构，加上大量可供学习的高质量数据。

2019年，Facebook的研究人员在此基础上又更进了一步。他们同时使用100种语言训练出类似的BERT模型。此模型能够以一种语言(例如英语)进行特征学习，再将成果应用于其他任意一种语言(例如阿拉伯语、汉语及北印度语)。这种具有语言中立性的模型能够在实际训练所选定的语种上实现与BERT完全一致的性能，并在迁移至另一种语言时将影响控制在较低程度。

这些技术本身确实给人留下了深刻印象。但在2020年初，谷歌研究人员最终得以在广泛的语言理解任务上超越了人类的表现。谷歌引入规模更大的网络架构与更多训练数据，终于将BERT架构推向了极限。如今，这套被命名为T5的架构在标记句子与寻找答案方面的表现已经超越人类。去年10月发布的多语种mT5模型已经能够在双语种间互译方面实现与人类相近的表现，更恐怖的是它能够支持多达100种语言。谷歌本周又公布了新的万亿级参数模型，整体架构规模更上一层楼，性能也进一步提升。

可能性

设想一下，未来的聊天机器人也许能够理解您用任何一种语言书写的内容，真正理解上下文并记住之前聊过的内容。这意味着我们得到的不再只是几条简单粗暴的预定义回应，而是真正的关切与解答。

搜索引擎也将能够理解您的问题，给出正确答案，而且不再纠结于您的用词是否严格准确。您可能还会迎来一位AI同事，它了解关于业务流程的所有知识。更重要的，如果能够使用正确的术语，那么单靠谷歌搜索没准就能解决客户的具体问题。连篇累牍的内部文档终将成为过去，留给AI模型快速浏览即可。

数据库的新时代即将来临。我们将彻底告别构造数据的繁琐工作——一切备忘录、电子邮件、报告都将由AI模型自动解释、存储与索引。由于数据库能够理解人类表达，您不需要求助于IT部门即可直接查询并创建报告。

这一切还只是冰山一角。目前一切依赖于人类语言理解能力的流程，都有可能被自动化功能所彻底颠覆。

没那么简单

但这里还有个问题。既然这么出色了，为什么这些算法还没得到普遍应用?因为单靠云计算资源训练T5算法，就花掉了谷歌约130万美元。幸运的是，谷歌研究人员慷慨地分享了这些模型。但如果要对当前任务进行调优，还需要额外承担一大笔资源开销，外加漫长的训练周期。

不过随着时间的推移，企业对于调优工作的不断探索，相信未来会有更多应用方案陆续涌现。另外，如果大家相信摩尔定律，那么五年左右之后我们就会迎来更复杂的语言AI应用，届时也会有新的模型全面超越T5算法。

2021年，我们距离AI技术的转折性突破还有遥远的距离。但只要能够迈过这道难关，AI技术必将释放出无穷的可能性。

AI游戏娱乐

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
创意写作
优化算法

2025-07-30 10:01

为创意写作量身定制：Midjourney团队如何让AI写作变得更有趣更多样化

这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题：如何让AI既能写出高质量内容，又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法，他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感，最终训练出的模型在保持顶级质量的同时，创作多样性接近人类水平，为AI创意写作开辟了新方向。
多模态推理
过程奖励模型
AI逐步推理

2025-07-30 10:01

改写多模态AI的"火眼金睛"：上海AI实验室让机器学会逐步推理判断

上海AI实验室联合多所高校开发出VisualPRM系统，这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程，显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准，实现了在七个推理基准上的全面性能提升，即使是最先进的大型模型也获得了5.9个百分点的改进。
多模态人工智能
空间推理
LEGO积木评测

2025-07-30 10:00

上海AI实验室团队提出LEGO-Puzzles：揭露多模态大模型在空间推理上的惊人短板

上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles，系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%，远低于人类93.6%的表现，揭示了当前AI在三维空间理解和多步序列推理方面的重大不足，为机器人、自动驾驶等应用发展提供重要参考。
人工智能
图像生成
个性化定制

2025-07-30 10:00

字节跳动团队突破性成果：让AI记住你的脸，随心所欲重塑照片的新技术

字节跳动团队突破了AI图像生成领域的三大难题：身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略，能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案，并具备出色的兼容性，为个性化内容创作开辟了新道路。