作者| 金旺
栏目| 具身资讯
近日,在民营企业座谈会上,宇树科技创始人王兴兴指出,“今年年底之前,整个AI的人形机器人会达到一个新的量级。”
作为国内人形机器人明星企业,在2024年9月完成C轮融资后,宇树科技估值已经突破80亿元。
不过,宇树科技的人形机器人真正在大众层面得到广泛认知,是在今年春晚上。
在今年春晚上,宇树科技16台人形机器人H1与新疆艺术学院舞蹈演员表演的舞蹈节目《秧BOT》,作为今年春晚的特色之一,迅速让人形机器人闯入大众视野。
与此同时,人形机器人在人工智能技术加持下,确实在以肉眼可见的速度发生着改变。
01 机器人跳舞太“丝滑”,被质疑为AI生成
近日,一个宇树人形机器人G1的跳舞视频在网上爆火,在视频中,从机器人跳舞的稳定性、流畅度,以及自然程度上来看,都很难想象是现阶段人形机器人能够实现的能力。
毕竟,宇树人形机器人在春晚舞台上还曾因被舞蹈演员“扶着”下台被主持人调侃。
这段人形机器人跳舞视频发布后,在视频平台上被算法识别并自动打上了“疑似使用AI技术生成”的提醒标签。
为了证明人形机器人跳舞的真实性,宇树科技官方昨日在视频平台上又更新了一个视频,视频中,宇树G1跳的依然是之前的舞蹈,不同的是,镜头侧面放置了一面全身镜实时显示周边环境,并时不时由旁边的员工给他丢个球、来两下,进行干扰。
在这则视频中,宇树科技官方也对上一个视频中提到的“算法升级,任意舞蹈任意学”的说法给出了解释:
“最近几天刚开发好的功能,还没有推送给客户,不同型号版本的机器人功能也有差异。”
这一方面证实了机器人跳舞的真实性,另一方面也对客户手中的机器人没有这个功能给出了一个交代。
据悉,宇树科技的人形机器人在今年登上春晚后不久,就曾直接在京东平台上开售H1和G1两个型号的人形机器人,前者售价65万元,预计60天交货,后者售价9.9万元起售,预计45天交货。
然而,这两款产品在上线不久后就进行了下架,如今依然需要通过官方渠道进行购买。
值得注意的是,宇树科技这款人形机器人此前在京东线上页面显示整机重约35kg,身高127cm,续航为2—4小时,主要面向场景为娱乐陪伴。
对于希望在2025年实现量产的人形机器人产业而言,面向消费市场的娱乐陪伴场景,显然是一个更广阔的量产市场。
不过,王兴兴在近日接受媒体采访时指出:
“今年年底之前,整个AI(驱动)的人形机器人会达到一个新的量级,如果顺利的话,诸如服务业、工业等基础场景到明后年就可以推起来了,但家用(场景)会慢一点,因为家用对安全性的要求更高,需要技术相对更成熟一点。”
02 人形机器人产业继续竞速
在宇树人形机器人登上春晚,马斯克号称Optimus将要量产的2025年,人形机器人仍在竞速。
就在近日,我们看到,美国人形机器人明星企业Apptronik官宣融资3.5亿美元(约25.5亿元),国内也有初创公司灵宝CASBOT完成了亿元天使轮融资。
在技术迭代方面,逐际动力近日发布了LimX VGM具身机器人操作算法,据官方公开资料显示,这是一个基于视频生成大模型的具身操作算法,通过人类操作视频数据对现有的视频生成大模型进行后训练,仅需将场景图片和操作任务指令作为提示Prompts,即可实现任务理解与拆分、物体操作轨迹生成以及机器人操作执行的全流程,全过程零真机样本数据,并且可实现多平台泛化。
加速进化Booster T1也在近日公开了耐用性和撞击测试视频,在官方公开的视频中,Booster T1人形机器人在表演完“胸口碎大石”后,依然可以再次起身。
不过,在这一系列人形机器人企业融资、技术创新背后,人形机器人产业竞争也在加剧。
2025年不仅是人形机器人步入量产的关键一年,也将会是人形机器人大浪淘沙的一年。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。