
在一个日常家庭早晨,闹钟响起,客厅一片狼藉,拖鞋不知去向、碗筷未洗、孩子书包散落、猫咪打翻了水杯……,如果此时有一个“24小时保姆”已悄然收拾妥当、甚至倒好温度适宜的水,这是否会让生活瞬间美好?
然而,自变量机器人创始人兼CEO王潜直言,“在全球范围内,目前没有任何一台机器人能在无遥控、无预编程的情况下,独立完成这样的家庭任务。”
作为一家接连被字节、阿里、小米、美团等互联网巨头投资的具身智能团队,如今估值已经超百亿的独角兽自变量机器人,今天在北京召开了一场发布会,在发布会现场,王潜就具身智能当下行业现状进行了一次公开揭秘:
现在的跳舞机器人,舞蹈动作都是提前编好的程序或者遥控操作,每一个动作都是预设的轨迹,它看起来很酷,但其实不知道自己在做什么;
展会上看到的很多智能机器人,绝大部分是靠背后遥控操作;
进工厂的机器人和进家庭本质上是两件事,工厂里一个动作重复1万次,家庭里每个动作做1万次,每次都不一样;
……
之所以会出现这种情况,王潜指出,现在的机器人的硬件已经发展到位,但是大脑没有跟上。
而这次,自变量机器人要发布的,正是一个具备零样本学习能力的具身智能基础模型,以及他们的机器人家庭落地计划。

01 VLA、世界模型,需要统一架构
谈到人形机器人,行业往往习惯将其与人类进行对比,而视觉能力、工具使用能力、语言交互能力,是人类进化而来的能力,机器人同样需要这样的能力,VLA是具身智能行业看到的打造这一系列能力的技术路径。
不过,自变量机器人CTO王昊在发布会上指出,如今的VLA模型普遍受困于模块化架构:
视觉模块贴标签(认出杯子却不知把手朝向、是否盛水),动作模块依赖预设轨迹,语言模块仅懂固定指令,无法理解意图。
由此带来的结果是,VLA模型只能“模仿”,并不能真正“理解”真实世界,实验室表现完美的具身模型,真实进入用户家庭中后,就会瞬间崩溃。
正因如此,王昊指出,“模仿”已经成为全世界都在做的VLA模型的天花板。

那么,下一代具身智能基础模型应该具备怎样的能力呢?
王昊认为,下一代具身智能基础模型需要具备三项能力:
理解世界,能够感知世界,并理解世界的物理规律;
举一反三,不用每个动作都需要人来教;
内心强大,在真实环境中坦然面对失败,并能重新学习、持续学习。
实际上,具身智能行业也正是看到了这样的行业困境,VLA+世界模型的组合在2026年开始流行起来。
不过,王昊认为,世界模型不是一个单独的模块,本质上是一种能力,是一种对物理世界预测的能力,不能直接挂载到一个VLA模型上,而是需要一个融合的架构,就想XPU计算架构一样。

这也正是自变量机器人这次发布的WALL-B模型的独特性所在。
王昊指出,“自变量机器人是将视觉、语言、动作、预测放到了同一个网络中训练,这也就是我们提出的世界统一模型架构。”
基于世界统一模型架构的模型,避免了以往视觉模块学到了丰富的信息,因为传输过程中的数据损耗问题,传输到视觉模块只剩下一个模糊的轮廓,而WALL-B是全球首个基于世界统一模型架构的具身智能基础模型。
据王昊透露,基于世界统一模型架构,WALL-B有三大特点:
首先,原生多模态。
传统机器人视觉、语言、触觉是“拼接”而来,信息层层转述丢失严重,WALL-B从底层实现“原生多模态”:视觉、语言、触觉、动作天生一体,无需借用外部模块。

在执行任务过程中,它不仅能认出杯子,还具备部件级理解能力——能够理解水杯的把手位置、开口方向、材质、含水量,同时支持力反馈与传感器融合,拿鸡蛋知轻、拎水壶知重。
与此同时,它还具备“原生本体感”,机器人无需观察自身全身,即可精准感知身高、体宽、手臂伸展范围,这种空间感让它具备了像人类一样自然行动的基础。
其次,原生具备“世界观”,即对物理规律的原生理解能力。
人类无需教导就知道桌边的盘子可能会掉下来,这是因为我们知道重力、惯性、摩擦等物理规律的存在。WALL-B通过世界统一模型架构同样学习了这些规律,而非被告知,它能预测未见过的场景:想象悬空盘子掉落轨迹、预测猫咪跳下沙发的后果。
这种“想象力”源于对世界的因果建模,也因此让WALL-B具备了零样本泛化的能力。

第三,与世界的主动交互与自我进化能力。
现有的具身模型普遍“玻璃心”,失败一次就停止运行,完全依赖工程师重新训练数据,WALL-B则像人类婴儿一样,会通过反复尝试调整参数,直到成功完成一个任务,在完成这个任务后,这样的成功经验也会被内化到模型中,从而真正实现了在真实环境中“边做边学”。

与此同时,WALL-B所有经验以原生多模态记忆方式更新,克服了基于transformer架构的具身模型无法做记忆内化的问题。
正是基于自变量机器人提出的世界统一模型架构,WALL-B具备了这三大特性,拥有了走入复杂家庭环境的可能。
02 自变量机器人的家庭落地计划
在具身智能经历了这几年快速发展后,数据已经成为行业发展瓶颈,也成为这一行业“最大的秘密”。
自变量机器人内部将具身数据分为两类:糖水数据和牛奶数据。
所谓糖水数据,指的是在环境干净、灯光稳定、桌面固定、无猫无孩、无任何不可预测变量的实验室中采集到的数据,这类数据量大可控,却像糖水——甜但不会增加抵抗力,基于这些数据训练的具身模型,就像在泳池中学习游泳的人类一样,无法在大海中游泳。

更重要的是,基于实验室数据训练出的模型难以具备零样本泛化能力,因为现实家庭永远是“新环境”——100个家庭有100种杯子、1万种组合,灯光、地毯摩擦力、玩具位置、猫咪轨迹各不相同。
牛奶数据指的是基于嘈杂、复杂的家庭环境的真实数据,这种环境中的数据充满了随机性,但这类数据采集成本高、获取数据难、数据量少。
采用牛奶数据训练模型,是王昊认为真正训练出具备零样本泛化能力的具身智能基础模型必然要走的路径。
正因如此,自变量机器人团队进入了超过100个志愿者家庭中训练模型,而WALL-B正是基于“实验室数据打底、真实环境数据提质”的策略下,训练而出的一个具身智能基础模型。

那么,这样一个基于WALL-B模型的具身机器人,何时能够进入用户家庭中呢?
在发布会最后,王潜给出了自变量机器人的deadline:
2026年5月25日,新一代部署了WALL-B模型的机器人将会进入家庭。
在发布会上,王潜还公布了首批家长招募计划,王潜希望,通过这一计划,试着让硅基智能体开始成为家庭中的一员。

不过,王潜也指出,现在基于WALL-B的机器人仍然是一个处于婴儿时期的“实习生”,当它进入家庭中面临大量随机环境时,依然需要自变量机器人团队来进行远程帮助,帮助它完成一些复杂的操作任务。
而这样每天都会在家庭环境中产生数据、自我进化的机器人,也将会是具身机器人进入家庭的第一步。
好文章,需要你的鼓励
加州大学洛杉矶分校等机构联合推出的Unify-Agent突破了传统AI图像生成的知识局限,通过整合"思考-搜索-整理-绘制"四步工作流程,让AI画师具备主动查找资料的能力。该系统在FactIP基准测试中相关性指标提升61%,特别擅长处理需要准确世界知识的长尾内容和文化特色图像生成任务。
中科院团队开发的FlowPIE系统首次将动态文献探索与创意进化相结合,突破传统AI科学创意生成的同质化局限。该系统通过流引导蒙特卡洛树搜索实现文献检索与创意生成的紧密耦合,并采用类生物进化机制持续优化创意质量。实验显示,FlowPIE在新颖性、可行性等维度显著超越现有方法,展现出强大的跨领域泛化能力,为AI辅助科研开辟了新路径。
阿里巴巴DAMO研究院推出Lingshu-Cell虚拟细胞建模系统,采用掩码离散扩散模型技术,能够精确模拟和预测细胞在基因编辑、药物刺激等干预下的反应。该系统在国际虚拟细胞挑战赛中表现出色,为个性化医疗和药物开发开辟了全新路径,标志着数字生物学时代的到来。
上海AI实验室联合多所高校发布GEMS技术,通过智能团队协作机制让60亿参数的小模型在图像生成上超越顶级商业模型。该系统包含循环优化、记忆管理和技能库三大核心,采用多轮迭代和专业技能匹配,在主流测试中提升14分以上,为资源受限环境下的高质量AI应用提供新方案。