作者| 金旺
栏目| 具身资讯
近日,在民营企业座谈会上,宇树科技创始人王兴兴指出,“今年年底之前,整个AI的人形机器人会达到一个新的量级。”
作为国内人形机器人明星企业,在2024年9月完成C轮融资后,宇树科技估值已经突破80亿元。
不过,宇树科技的人形机器人真正在大众层面得到广泛认知,是在今年春晚上。
在今年春晚上,宇树科技16台人形机器人H1与新疆艺术学院舞蹈演员表演的舞蹈节目《秧BOT》,作为今年春晚的特色之一,迅速让人形机器人闯入大众视野。
与此同时,人形机器人在人工智能技术加持下,确实在以肉眼可见的速度发生着改变。
01 机器人跳舞太“丝滑”,被质疑为AI生成
近日,一个宇树人形机器人G1的跳舞视频在网上爆火,在视频中,从机器人跳舞的稳定性、流畅度,以及自然程度上来看,都很难想象是现阶段人形机器人能够实现的能力。
毕竟,宇树人形机器人在春晚舞台上还曾因被舞蹈演员“扶着”下台被主持人调侃。
这段人形机器人跳舞视频发布后,在视频平台上被算法识别并自动打上了“疑似使用AI技术生成”的提醒标签。
为了证明人形机器人跳舞的真实性,宇树科技官方昨日在视频平台上又更新了一个视频,视频中,宇树G1跳的依然是之前的舞蹈,不同的是,镜头侧面放置了一面全身镜实时显示周边环境,并时不时由旁边的员工给他丢个球、来两下,进行干扰。
在这则视频中,宇树科技官方也对上一个视频中提到的“算法升级,任意舞蹈任意学”的说法给出了解释:
“最近几天刚开发好的功能,还没有推送给客户,不同型号版本的机器人功能也有差异。”
这一方面证实了机器人跳舞的真实性,另一方面也对客户手中的机器人没有这个功能给出了一个交代。
据悉,宇树科技的人形机器人在今年登上春晚后不久,就曾直接在京东平台上开售H1和G1两个型号的人形机器人,前者售价65万元,预计60天交货,后者售价9.9万元起售,预计45天交货。
然而,这两款产品在上线不久后就进行了下架,如今依然需要通过官方渠道进行购买。
值得注意的是,宇树科技这款人形机器人此前在京东线上页面显示整机重约35kg,身高127cm,续航为2—4小时,主要面向场景为娱乐陪伴。
对于希望在2025年实现量产的人形机器人产业而言,面向消费市场的娱乐陪伴场景,显然是一个更广阔的量产市场。
不过,王兴兴在近日接受媒体采访时指出:
“今年年底之前,整个AI(驱动)的人形机器人会达到一个新的量级,如果顺利的话,诸如服务业、工业等基础场景到明后年就可以推起来了,但家用(场景)会慢一点,因为家用对安全性的要求更高,需要技术相对更成熟一点。”
02 人形机器人产业继续竞速
在宇树人形机器人登上春晚,马斯克号称Optimus将要量产的2025年,人形机器人仍在竞速。
就在近日,我们看到,美国人形机器人明星企业Apptronik官宣融资3.5亿美元(约25.5亿元),国内也有初创公司灵宝CASBOT完成了亿元天使轮融资。
在技术迭代方面,逐际动力近日发布了LimX VGM具身机器人操作算法,据官方公开资料显示,这是一个基于视频生成大模型的具身操作算法,通过人类操作视频数据对现有的视频生成大模型进行后训练,仅需将场景图片和操作任务指令作为提示Prompts,即可实现任务理解与拆分、物体操作轨迹生成以及机器人操作执行的全流程,全过程零真机样本数据,并且可实现多平台泛化。
加速进化Booster T1也在近日公开了耐用性和撞击测试视频,在官方公开的视频中,Booster T1人形机器人在表演完“胸口碎大石”后,依然可以再次起身。
不过,在这一系列人形机器人企业融资、技术创新背后,人形机器人产业竞争也在加剧。
2025年不仅是人形机器人步入量产的关键一年,也将会是人形机器人大浪淘沙的一年。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。