短短几年之内,深度学习算法得到了长足发展,不仅在棋类游戏中击败了全球最顶尖的选手,也能够以等同于、甚至超越人类的准确率识别人脸。但事实证明,人类语言仍是一项独特且深邃的难题,亦是AI技术所面对的最为艰巨的挑战之一。
但是,突破能否如期而至?
一旦计算机可以有效理解人类语言内容,则必将彻底颠覆全球各品牌、企业与组织之间的交互方式。如今,大多数企业拿不出充裕的资源为每位客户提供一对一解答服务。但在语言AI真正成熟之后,企业将能够在任意时间通过任意渠道听取、理解并回应每一个问题。这是一项激动人心的发展愿景,但距离达成目标仍有漫长的道路要走。
直到2015年,人们才构建出一种足以在准确率方面与他类相匹敌的人脸识别算法。Facebook的DeepFace准确率为97.4%,仅略低于人类的97.5%。作为参考,FBI以往的人脸识别算法准确率仅为85%,意味着其做出的判断有超过七分之一概率是错的。
FBI算法是由一组工程师手工开发而成。其中每项特征(例如鼻子大小以及眼睛的相对位置)皆由手动编程而来。Facebook算法则真正实现了特征学习,其利用一种被称为卷积神经网络的特殊深度学习架构,模拟出人类视觉皮层通过复杂的多层结构处理图像内容。事实上,我们并不清楚这些皮层之间是如何联系的,因此一切“奥秘”都由算法自主探索得来。
Facebook之所以能够达成这一成就,依靠的正是实现类人级人工智能的两个基本思路:首先建立一套能够学习特征的架构,再将数百万张经过标记的高质量图像作为训练素材供其学习。
语言难关就在眼前
视觉的诞生虽然困难,但已经有数百万种物种在进化过程中攻克了这道难关。相比之下,语言似乎更为复杂。据我们所知,人类是目前唯一能够使用复杂语言交流想法的物种。
不到十年之前,出现了单凭某些词汇的出现频率即可大致推理出语义的AI算法。但这种方法显然忽视了同义词元素的存在,也无法应对某些表达在不同上下文中具有不同表意的问题。
2013年,Tomas Mikolov和他的谷歌团队创造出一种能够学习单词含义的架构。他们的word2vec算法能够将同义词相互映射,借此对大小、性别、速度等语义进行建模,甚至能够将国家与首都等特征关联起来。
但其中仍然缺少至关重要的一环——理解上下文。语言理解领域的真正突破诞生于2018年,谷歌公司在这时推出了BERT模型。Jacob Devlin和他的团队仍然沿用传统机器翻译中的架构,但向其中引入了学习句子内上下文信息的能力。
通过教育该模型填补维基百科文章中的遗漏单词,该团队得以将语言结构嵌入BERT模型。只需要使用数量有限的高质量标记数据,他们就成功完成了对BERT的调优,借此完成从为问题找到正确答案、到真正理解句子表意的多种任务。也凭借这一壮举,他们成为破解语言理解谜题的先驱:正确架构,加上大量可供学习的高质量数据。
2019年,Facebook的研究人员在此基础上又更进了一步。他们同时使用100种语言训练出类似的BERT模型。此模型能够以一种语言(例如英语)进行特征学习,再将成果应用于其他任意一种语言(例如阿拉伯语、汉语及北印度语)。这种具有语言中立性的模型能够在实际训练所选定的语种上实现与BERT完全一致的性能,并在迁移至另一种语言时将影响控制在较低程度。
这些技术本身确实给人留下了深刻印象。但在2020年初,谷歌研究人员最终得以在广泛的语言理解任务上超越了人类的表现。谷歌引入规模更大的网络架构与更多训练数据,终于将BERT架构推向了极限。如今,这套被命名为T5的架构在标记句子与寻找答案方面的表现已经超越人类。去年10月发布的多语种mT5模型已经能够在双语种间互译方面实现与人类相近的表现,更恐怖的是它能够支持多达100种语言。谷歌本周又公布了新的万亿级参数模型,整体架构规模更上一层楼,性能也进一步提升。
可能性
设想一下,未来的聊天机器人也许能够理解您用任何一种语言书写的内容,真正理解上下文并记住之前聊过的内容。这意味着我们得到的不再只是几条简单粗暴的预定义回应,而是真正的关切与解答。
搜索引擎也将能够理解您的问题,给出正确答案,而且不再纠结于您的用词是否严格准确。您可能还会迎来一位AI同事,它了解关于业务流程的所有知识。更重要的,如果能够使用正确的术语,那么单靠谷歌搜索没准就能解决客户的具体问题。连篇累牍的内部文档终将成为过去,留给AI模型快速浏览即可。
数据库的新时代即将来临。我们将彻底告别构造数据的繁琐工作——一切备忘录、电子邮件、报告都将由AI模型自动解释、存储与索引。由于数据库能够理解人类表达,您不需要求助于IT部门即可直接查询并创建报告。
这一切还只是冰山一角。目前一切依赖于人类语言理解能力的流程,都有可能被自动化功能所彻底颠覆。
没那么简单
但这里还有个问题。既然这么出色了,为什么这些算法还没得到普遍应用?因为单靠云计算资源训练T5算法,就花掉了谷歌约130万美元。幸运的是,谷歌研究人员慷慨地分享了这些模型。但如果要对当前任务进行调优,还需要额外承担一大笔资源开销,外加漫长的训练周期。
不过随着时间的推移,企业对于调优工作的不断探索,相信未来会有更多应用方案陆续涌现。另外,如果大家相信摩尔定律,那么五年左右之后我们就会迎来更复杂的语言AI应用,届时也会有新的模型全面超越T5算法。
2021年,我们距离AI技术的转折性突破还有遥远的距离。但只要能够迈过这道难关,AI技术必将释放出无穷的可能性。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。