作者 | 金旺
栏目 | 机器人新纪元
2024年1月,腾讯发布《2024数字科技前沿应用趋势》报告,在这份报告中,“AI加速人形机器人‘手、脑’进化”排在十大前沿应用趋势第三位。
于是,我们看到,3月30日,在上海举办的首届中国具身智能大会上,腾讯Robotics X实验室成了大会四大钻石赞助商之一,腾讯首席科学家、Robotics X实验室主任张正友在大会上也做了具身智能主题演讲。
张正友在大会上指出,AGI的终极形态,会是一个机器人形态。
在人形机器人最热闹的这一年里,腾讯做了灵巧手、机械臂(相当于人形机器人上半身的手臂控制能力),也做了各种四足机器人(相当于人形机器人的下半身的运动能力)。
科技行者在腾讯关于机器人的未来规划中,已经看到了人形机器人的身影。
现在,我们可以再期待一下腾讯的人形机器人了。
01 智能,是否需要具身?
什么是具身智能?
张正友指出,所谓具身智能,是指有物理载体的智能体(也就是智能机器人)在与物理世界的交互过程中,通过感知、控制和自主学习来积累知识和技能,形成智能,并由此影响物理世界的能力。
实际上,具身智能并不是什么新鲜事物,早在1950年,人工智能之父艾伦·图灵发表的那篇大名鼎鼎的论文《Computing Machinery and Intelligence》中,就已经提出了这一概念。
OpenAI CEO奥特曼也曾指出,“如果我们有了通用人工智能,而在物理世界中完成一件事唯一的方法还是让人类自己去做,那就太令人沮丧了。”
“我们会在某个时候以某种方式重返机器人领域。”
奥特曼最初构建OpenAI时,就是想基于机器人来实现通用人工智能,只不过,命运多舛,才有了后来的ChatGPT和Sora。
实际上,OpenAI在过去两年里已经相继投资了两家人形机器人公司,一家是1X Technologies、另一家是Figure AI。
那么,智能,到底是否需要具身呢?
这一问题在产业界其实依然有两种声音:
一种声音认为,智能并不一定与物理形态有关,智能主要关乎信息处理、问题解决和决策制定,这些都可以通过软件或算法实现。
另一种声音则认为,身体对于智能至关重要,智能源于生物体与周围环境之间的互动,这需要物理形态。
张正友在大会上指出,“我相信大家都认为智能是需要具身的,否则就不会来参加这场具身智能大会了。”
赞同这一观点的人,当然也包括张正友本人。
实际上,张正友在演讲中也指出,AGI的终极形态,是一个机器人形态。
02 腾讯造机器人的A2G
2018年,张正友正式加入腾讯,并在这一年组建了腾讯机器人实验室,Robotics X实验室。
张正友说,腾讯这一实验室成立之初定了,团队内部定下了一个指导方针——A2G。
具体而言,是用ABCDEFG代指了几个技术要素的英文缩写,翻译过来,这几个要素分别为:人工智能、机器人本体、精准控制、发育学习、情感理解、灵巧操控、守护天使。
其中,人工智能、机器人本体、精准控制为底层基础能力,发育学习、情感理解、灵巧控制构成了更上层的中间层能力。
最上层的G,具体是指通过部署在环境中的传感器,让环境和机器人信息共通,通过云与家人和世界互联,让机器人成为守护天使。
这是一个相当宏大的愿望,一个宏大到很难说这个实验室还要经历几代科学家的努力,才能达成夙愿。
不过,就这样,腾讯在这一年开始了机器人的技术研发,各类机器人在之后几年里也陆续面世:
2019年12月,腾讯发布了自平衡自行车;
2020年10月,腾讯发布了的四足机器人Jamaca学会了走梅花桩;
2021年2月,腾讯发布了多模态四足机器人Max;
2021年11月,腾讯发布了IDC运维机器人;
……
到2023年,腾讯又发布了拥有灵巧手和机械臂的机器人,这款机器人还学会了调酒。
就在大家觉得机器人离走进人类生活已经近在咫尺时,实际上,AGI+机器人的模式创新才刚刚开始。
03 再造一个新范式
也是在本次大会上,张正友重提了一个概念“SLAP范式”。
每个科学家要想自成一派,就要创造一套自己的理论。
早在2018年,Robotics X实验室成立后,张正友就提出了SLAP范式。
这一范式的提出,其实基于张正友对智能控制的理解。
张正友说,“我们感兴趣的机器人要能应对不同环境,即使在不确定性很大的环境中,仍然能够有自主调整和规划的系统。”
这就要求机器人有两类自主能力:
一类是反应式的自主能力,另一类是有意识的自主能力。
反应式的自主能力是说,在遇到被人踢了一脚这样意想不到的情况后,机器人能够很快适应变化,并调整自己的姿态;
有意识的自主能力则是说,机器人要有自主规划能力。
要实现这样的具身智能,显然已经无法依赖传统的“感知-计划-行动”的控制范式,于是,张正友提出了SLAP范式。
SLAP范式同样是几个英文单词的所系,具体而言是,感知、行动、学习、计划。
这套范式与传统控制范式最主要的区别在于,张正友将感知与行动连系到了一起,并将学习渗透到了各个模块。
“只有感知与行动紧密相连,才能够把反应是怎样实现的搞清楚。”
张正友提出的这一范式,其实也参考了人类大脑的思考范式,并参考人类大脑,提出了具身智能的三层系统:
第一层是原始控制层(Primitive Level Control),通过运动数据,对机器人进行训练。
第二层是环境感知控制层(Environmental Level Control),通过对环境的感知,实现机器人在不同环境中的平稳运动。
第三层是策略控制层(Strategic Level Control),通过给定相关任务,机器人进行自行推理,然后在环境中实现类似人类大脑的控制决策。
实际上,腾讯的四足机器人的控制系统就是这样一步一步构建出来的。
不过,这些都是腾讯过去几年做的工作。
现在,腾讯Robotics X实验室正在将多模态大模型融合到机器人系统中,增强机器人环境感知和视觉能力,让他们的机器人能够听懂人话,能够和人类在语言和动作上进行简单的交互。
至于未来规划,科技行者在现场也了解到,腾讯Robotics X实验室至少已经有了两方面考虑:
首先,腾讯将就三维感知数据和腾讯的混元大模型或开源大模型LLAMA2-7B优化策略控制层;
其次,腾讯也已经将人形机器人写到了未来计划中。
接下来,我们可以期待一下腾讯的人形机器人了。
好文章,需要你的鼓励