微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

腾讯将人形机器人写进计划里

机器人人形机器人腾讯

腾讯将人形机器人写进计划里

作者：金旺

2024-03-30 20:43

分享至：

我们可以期待一下腾讯的人形机器人了。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2024-03-30 20:43 • 金旺

作者 | 金旺

栏目 | 机器人新纪元

2024年1月，腾讯发布《2024数字科技前沿应用趋势》报告，在这份报告中，“AI加速人形机器人‘手、脑’进化”排在十大前沿应用趋势第三位。

于是，我们看到，3月30日，在上海举办的首届中国具身智能大会上，腾讯Robotics X实验室成了大会四大钻石赞助商之一，腾讯首席科学家、Robotics X实验室主任张正友在大会上也做了具身智能主题演讲。

张正友在大会上指出，AGI的终极形态，会是一个机器人形态。

在人形机器人最热闹的这一年里，腾讯做了灵巧手、机械臂（相当于人形机器人上半身的手臂控制能力），也做了各种四足机器人（相当于人形机器人的下半身的运动能力）。

科技行者在腾讯关于机器人的未来规划中，已经看到了人形机器人的身影。

现在，我们可以再期待一下腾讯的人形机器人了。

01 智能，是否需要具身？

什么是具身智能？

张正友指出，所谓具身智能，是指有物理载体的智能体（也就是智能机器人）在与物理世界的交互过程中，通过感知、控制和自主学习来积累知识和技能，形成智能，并由此影响物理世界的能力。

实际上，具身智能并不是什么新鲜事物，早在1950年，人工智能之父艾伦·图灵发表的那篇大名鼎鼎的论文《Computing Machinery and Intelligence》中，就已经提出了这一概念。

OpenAI CEO奥特曼也曾指出，“如果我们有了通用人工智能，而在物理世界中完成一件事唯一的方法还是让人类自己去做，那就太令人沮丧了。”

“我们会在某个时候以某种方式重返机器人领域。”

奥特曼最初构建OpenAI时，就是想基于机器人来实现通用人工智能，只不过，命运多舛，才有了后来的ChatGPT和Sora。

实际上，OpenAI在过去两年里已经相继投资了两家人形机器人公司，一家是1X Technologies、另一家是Figure AI。

那么，智能，到底是否需要具身呢？

这一问题在产业界其实依然有两种声音：

一种声音认为，智能并不一定与物理形态有关，智能主要关乎信息处理、问题解决和决策制定，这些都可以通过软件或算法实现。

另一种声音则认为，身体对于智能至关重要，智能源于生物体与周围环境之间的互动，这需要物理形态。

张正友在大会上指出，“我相信大家都认为智能是需要具身的，否则就不会来参加这场具身智能大会了。”

赞同这一观点的人，当然也包括张正友本人。

实际上，张正友在演讲中也指出，AGI的终极形态，是一个机器人形态。

02 腾讯造机器人的A2G

2018年，张正友正式加入腾讯，并在这一年组建了腾讯机器人实验室，Robotics X实验室。

张正友说，腾讯这一实验室成立之初定了，团队内部定下了一个指导方针——A2G。

具体而言，是用ABCDEFG代指了几个技术要素的英文缩写，翻译过来，这几个要素分别为：人工智能、机器人本体、精准控制、发育学习、情感理解、灵巧操控、守护天使。

其中，人工智能、机器人本体、精准控制为底层基础能力，发育学习、情感理解、灵巧控制构成了更上层的中间层能力。

最上层的G，具体是指通过部署在环境中的传感器，让环境和机器人信息共通，通过云与家人和世界互联，让机器人成为守护天使。

这是一个相当宏大的愿望，一个宏大到很难说这个实验室还要经历几代科学家的努力，才能达成夙愿。

不过，就这样，腾讯在这一年开始了机器人的技术研发，各类机器人在之后几年里也陆续面世：

2019年12月，腾讯发布了自平衡自行车；

2020年10月，腾讯发布了的四足机器人Jamaca学会了走梅花桩；

2021年2月，腾讯发布了多模态四足机器人Max；

2021年11月，腾讯发布了IDC运维机器人；

……

到2023年，腾讯又发布了拥有灵巧手和机械臂的机器人，这款机器人还学会了调酒。

就在大家觉得机器人离走进人类生活已经近在咫尺时，实际上，AGI+机器人的模式创新才刚刚开始。

03 再造一个新范式

也是在本次大会上，张正友重提了一个概念“SLAP范式”。

每个科学家要想自成一派，就要创造一套自己的理论。

早在2018年，Robotics X实验室成立后，张正友就提出了SLAP范式。

这一范式的提出，其实基于张正友对智能控制的理解。

张正友说，“我们感兴趣的机器人要能应对不同环境，即使在不确定性很大的环境中，仍然能够有自主调整和规划的系统。”

这就要求机器人有两类自主能力：

一类是反应式的自主能力，另一类是有意识的自主能力。

反应式的自主能力是说，在遇到被人踢了一脚这样意想不到的情况后，机器人能够很快适应变化，并调整自己的姿态；

有意识的自主能力则是说，机器人要有自主规划能力。

要实现这样的具身智能，显然已经无法依赖传统的“感知-计划-行动”的控制范式，于是，张正友提出了SLAP范式。

SLAP范式同样是几个英文单词的所系，具体而言是，感知、行动、学习、计划。

这套范式与传统控制范式最主要的区别在于，张正友将感知与行动连系到了一起，并将学习渗透到了各个模块。

“只有感知与行动紧密相连，才能够把反应是怎样实现的搞清楚。”

张正友提出的这一范式，其实也参考了人类大脑的思考范式，并参考人类大脑，提出了具身智能的三层系统：

第一层是原始控制层（Primitive Level Control），通过运动数据，对机器人进行训练。

第二层是环境感知控制层（Environmental Level Control），通过对环境的感知，实现机器人在不同环境中的平稳运动。

第三层是策略控制层（Strategic Level Control），通过给定相关任务，机器人进行自行推理，然后在环境中实现类似人类大脑的控制决策。

实际上，腾讯的四足机器人的控制系统就是这样一步一步构建出来的。

不过，这些都是腾讯过去几年做的工作。

现在，腾讯Robotics X实验室正在将多模态大模型融合到机器人系统中，增强机器人环境感知和视觉能力，让他们的机器人能够听懂人话，能够和人类在语言和动作上进行简单的交互。

至于未来规划，科技行者在现场也了解到，腾讯Robotics X实验室至少已经有了两方面考虑：

首先，腾讯将就三维感知数据和腾讯的混元大模型或开源大模型LLAMA2-7B优化策略控制层；

其次，腾讯也已经将人形机器人写到了未来计划中。

接下来，我们可以期待一下腾讯的人形机器人了。

机器人人形机器人腾讯

分享至

0赞

好文章，需要你的鼓励

金旺

Wille

关注智造、硬件、机器人。

推荐文章

人工智能
创意写作
优化算法

2025-07-30 10:01

为创意写作量身定制：Midjourney团队如何让AI写作变得更有趣更多样化

这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题：如何让AI既能写出高质量内容，又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法，他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感，最终训练出的模型在保持顶级质量的同时，创作多样性接近人类水平，为AI创意写作开辟了新方向。
多模态推理
过程奖励模型
AI逐步推理

2025-07-30 10:01

改写多模态AI的"火眼金睛"：上海AI实验室让机器学会逐步推理判断

上海AI实验室联合多所高校开发出VisualPRM系统，这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程，显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准，实现了在七个推理基准上的全面性能提升，即使是最先进的大型模型也获得了5.9个百分点的改进。
多模态人工智能
空间推理
LEGO积木评测

2025-07-30 10:00

上海AI实验室团队提出LEGO-Puzzles：揭露多模态大模型在空间推理上的惊人短板

上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles，系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%，远低于人类93.6%的表现，揭示了当前AI在三维空间理解和多步序列推理方面的重大不足，为机器人、自动驾驶等应用发展提供重要参考。
人工智能
图像生成
个性化定制

2025-07-30 10:00

字节跳动团队突破性成果：让AI记住你的脸，随心所欲重塑照片的新技术

字节跳动团队突破了AI图像生成领域的三大难题：身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略，能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案，并具备出色的兼容性，为个性化内容创作开辟了新道路。