微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 中科院团队打造史上首个1比特机器人"保姆":只用29.8%内存就能干活,让家用机器人成为可能!

中科院团队打造史上首个1比特机器人"保姆":只用29.8%内存就能干活,让家用机器人成为可能!

2025-06-12 08:10
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-12 08:10 科技行者

机器人能像人一样理解语言、看懂环境并执行复杂任务,这听起来像科幻电影的情节,但现在正逐渐成为现实。不过,目前的智能机器人有一个巨大的"胃口"——它们需要消耗大量的计算资源和内存才能运行,这就像需要一台超级计算机才能驱动一个机器人管家。想象一下,如果你想在家里放一个能帮你整理房间、准备食物的机器人助手,但它需要占用整个车库来放置服务器设备,这显然不现实。

中国科学院计算技术研究所AI安全重点实验室的王洪宇、熊楚炎、王瑞平和陈熙林等研究人员在2025年6月发表了一项突破性研究,这篇题为"BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation"的论文已发布在arXiv预印本平台(论文编号:arXiv:2506.07530v1),有兴趣深入了解的读者可以通过https://github.com/ustcwhy/BitVLA获取完整的代码和模型权重。

这项研究就像是给机器人大脑做了一次"减肥手术"。研究团队开发出了世界上第一个1比特视觉-语言-动作模型BitVLA,这个模型能够让机器人在使用极少计算资源的情况下,依然能够看懂环境、理解人类指令并执行复杂的操作任务。就好比原来需要一整个图书馆才能存储的知识,现在被压缩到了一本口袋书里,但该懂的东西一样都不少。

传统的智能机器人模型就像是一个博学但"臃肿"的教授,它们虽然能力强大,但需要巨大的"办公室"(内存空间)才能工作。BitVLA则像是一个精明能干的助手,虽然"体型"小巧,但办事效率毫不逊色。在机器人操作任务的标准测试中,BitVLA的表现与目前最先进的模型OpenVLA-OFT相当,但它只需要29.8%的内存空间。这意味着原本需要高端服务器才能运行的机器人系统,现在可能在一台普通的笔记本电脑上就能运行。

一、机器人大脑的"瘦身"革命

要理解这项研究的重要性,我们先来看看现在机器人面临的"肥胖"问题。现代智能机器人需要同时处理三种复杂任务:看懂周围环境(视觉),理解人类的语言指令(语言),然后做出相应的动作(行动)。这就像要求一个人同时当摄影师、翻译和演员,每项工作都需要大量的"脑力"。

传统的机器人模型使用高精度的数字来表示所有信息,就像用高清摄像头记录每一个细节。虽然这样很精确,但也产生了海量的数据。想象一下,如果你要记住一本书的内容,传统方法就像把书的每一页都用高清相机拍下来,包括纸张的纹理、墨水的光泽等所有细节。这样虽然完整,但存储空间需求巨大。

BitVLA采用了一种全新的"简化策略"。它将模型中的每个参数都限制在三个值中选择:-1、0、1。这就像把复杂的色彩世界简化为黑、白、灰三色,虽然看起来简单,但关键信息依然保留。研究团队发现,这种看似"粗糙"的表示方法,实际上能够保留模型的核心能力,同时大幅减少计算和存储需求。

这种方法的巧妙之处在于,虽然每个单独的"决策点"变得简单了,但当成千上万个这样的简单决策组合起来时,仍然能够处理复杂的任务。就像用简单的黑白点组成复杂的报纸照片一样——单个点很简单,但整体效果依然清晰可辨。

二、三阶段训练:从笨拙学徒到熟练工匠

BitVLA的训练过程就像培养一个全能助手,需要经过三个循序渐进的阶段。这个过程类似于培训一个新员工:首先学会基本技能,然后掌握复杂任务,最后进行专项优化。

第一阶段是"视觉对齐训练",就像教一个人认识物品和学会描述它们之间的关系。在这个阶段,研究团队使用1比特的语言模型作为"大脑",配合全精度的视觉编码器作为"眼睛"。系统学习如何将看到的图像转换为语言模型能够理解的信息。这就像教一个盲人通过触摸来理解物体,然后用语言准确描述出来。

第二阶段是"指令微调",这时系统开始学习理解复杂的语言指令并给出合适的回应。研究团队使用了包含1000万个样本的数据集,让模型学习各种视觉-语言任务。这个过程就像让助手阅读大量的工作手册,学习如何应对各种情况。在这个阶段,视觉编码器被冻结(不再更新),而语言模型和连接器继续学习。

第三阶段是最关键的"蒸馏感知训练",这是研究团队的一项创新。他们将全精度的视觉编码器作为"老师",指导1.58比特的视觉编码器学习。这就像一个经验丰富的师傅手把手教导学徒,确保学徒在使用更简单工具的同时,依然能达到相似的工作质量。

在这个过程中,研究团队设计了一个巧妙的损失函数,它包含两个部分:语言建模损失和表示对齐损失。语言建模损失确保模型能够准确理解和生成语言,而表示对齐损失则确保简化后的视觉编码器与原始版本产生相似的内部表示。这就像既要求学徒做出的成品质量好,又要求他的思考过程与师傅相似。

三、化繁为简的技术魔法:量化与蒸馏

BitVLA的核心技术创新在于如何将复杂的数值压缩到极简的1比特表示,同时保持模型的智能水平。这个过程就像把一副精美的油画转换成简洁的线条画,既要保持原作的神韵,又要大幅简化表现形式。

量化过程使用了一种叫做"absmean量化器"的技术来处理权重,以及"per-token absmax量化器"来处理激活值。这听起来很复杂,但实际上就像调整照片的对比度和亮度。对于权重,系统计算所有数值的平均绝对值作为缩放因子,然后将每个权重除以这个因子并四舍五入到最近的整数(-1、0、1)。对于激活值,系统使用最大绝对值作为参考,将数值映射到-128到127的范围内。

这个过程面临的主要挑战是量化操作本身是不可微分的,也就是说传统的学习算法无法直接应用。研究团队采用了"直通估计器"技术来解决这个问题。这就像在陡峭的山坡上修建一条平缓的小路,让信息能够顺利地从模型的输出端反向传播到输入端,使得学习过程能够正常进行。

蒸馏感知训练是另一个关键创新。在这个过程中,全精度的视觉编码器继续作为"老师"存在,而1.58比特的编码器则是"学生"。老师和学生同时处理相同的输入,然后比较它们在每一层的内部表示。如果学生的表示与老师相差太大,系统就会调整学生的参数,让它更接近老师的思考方式。

这种方法的妙处在于,它不仅关注最终的输出结果,还关注思考过程本身。就像不仅要求学生考试得高分,还要求他的解题思路与老师相似。这样训练出来的学生模型,虽然使用的是简化的表示方法,但思考方式依然保持了原始模型的精髓。

四、机器人任务中的实战表现

为了验证BitVLA的实际能力,研究团队在LIBERO仿真环境中进行了全面测试。LIBERO就像是机器人的"驾照考试场",它设计了四种不同类型的挑战来全面评估机器人的智能水平。

第一类挑战是"空间泛化",测试机器人是否能在物品摆放位置发生变化时依然完成任务。这就像要求一个人在厨房重新布局后依然能熟练地做饭。比如,平时黑碗放在盘子旁边,现在放在了炉子上,机器人是否还能准确地把碗放到盘子里。在这项测试中,BitVLA取得了97.4%的成功率,甚至超过了一些使用更多资源的模型。

第二类挑战是"物体泛化",考验机器人处理从未见过的物品的能力。想象一下,如果机器人只见过苹果,现在突然出现了橙子,它是否还能理解"把水果放进篮子"这个指令。BitVLA在这项测试中表现出色,成功率达到99.6%,展现了强大的举一反三能力。

第三类挑战是"目标泛化",测试机器人理解多样化语言指令的能力。人类说话的方式千变万化,"把碗放在盘子上"、"将碗置于盘子之上"、"让碗与盘子组合",虽然表达不同,但意思相同。BitVLA需要理解这些语言的细微差别,并做出正确的行动。

第四类也是最具挑战性的是"长期推理",要求机器人完成需要多个步骤的复杂任务。比如"先打开抽屉,然后把碗放进去,最后关上抽屉"。这不仅需要理解每个单独的动作,还要理解它们之间的逻辑关系和执行顺序。虽然在这个最难的测试中,BitVLA的表现(87.6%)略逊于经过大规模机器人数据预训练的OpenVLA-OFT模型(94.5%),但考虑到BitVLA使用的资源只有后者的不到三分之一,这个结果已经相当令人印象深刻。

研究团队还将BitVLA与其他先进模型进行了详细比较。结果显示,BitVLA不仅在性能上与主流模型相当,在资源使用效率上更是遥遥领先。它只需要1.4GB的内存就能运行,而对比模型通常需要4-15GB的内存。这意味着BitVLA可以在普通的消费级GPU上运行,比如NVIDIA GeForce RTX 3050 Ti Laptop(4GB显存),这为家用机器人的普及打开了大门。

五、意外收获:视觉问答能力依然强劲

除了机器人操作任务,研究团队还测试了BitVLA在传统视觉问答任务上的表现。这就像检验一个专门培训的厨师是否还保持着基本的烹饪技能。结果显示,即使经过了大幅简化,BitVLA在五个主流视觉问答基准测试中的平均表现只比全精度版本下降了1.5%。

这个结果特别有意义,因为它表明BitVLA的"瘦身"过程并没有损害模型的通用智能。就像一个运动员通过科学训练减重后,不仅在专项运动中表现更好,在其他运动项目中也依然保持着良好的竞技状态。这种全面的能力保持,使得BitVLA不仅仅是一个专用的机器人模型,更是一个多才多艺的智能助手。

在MMMU、SeedBench、SeedBench-2-Plus、MMStar和AI2D等测试中,BitVLA都展现了稳定的性能。这些测试涵盖了从基础物体识别到复杂场景理解的各个方面,就像对一个学生进行语文、数学、科学等多科目的综合考试。

六、深度解析:失败案例中的学习机会

为了更好地理解BitVLA的能力边界,研究团队细致分析了模型的失败案例。他们发现失败主要集中在三个方面,这些分析为未来的改进指明了方向。

第一类失败是"空间定位偏差",这就像一个近视的人试图穿针引线时出现的问题。机器人能够识别物体和理解任务,但在精确操作时会出现位置偏差。比如在抓取重心不稳的酒瓶时,稍微的位置误差就可能导致酒瓶倾倒。或者在将物品放置到目标位置时,可能会因为位置不够精确而导致任务失败。这类问题反映了简化的视觉编码器在处理精细空间关系时的局限性。

第二类失败是"目标误解",这相当于在嘈杂环境中听错了指令。有时机器人会在执行任务过程中突然转向操作其他物体,就好像在做饭时突然开始洗衣服。研究团队分析认为,这主要是因为在某些情况下,视觉和本体感受信息在模型推理过程中占据了主导地位,掩盖了语言指令的影响。

第三类失败是"轨迹规划失败",这类似于在拥挤的商场中走路时撞到障碍物。机器人在移动过程中可能会与环境发生碰撞,比如在将碗放入抽屉时撞到抽屉的下沿。这类失败提示我们,BitVLA在空间推理和动作规划方面还有改进空间,需要更好地预测动作的后果和环境的约束。

通过对失败案例的分析,研究团队发现最常见的问题是空间定位精度不足。这并不意外,因为LIBERO测试环境对精度要求很高,比如要求物体必须准确放置在盘子的中心位置。在很多失败案例中,机器人实际上成功地将物体放在了盘子上,但因为位置稍微偏离中心而被判定为失败。这种严格的评判标准虽然具有挑战性,但也揭示了精细操作领域仍然是机器人技术需要突破的难点。

七、技术细节的巧思:ablation研究的启示

研究团队还进行了细致的ablation研究,这就像拆解一台精密机器来理解每个零件的作用。他们发现了几个关键的设计选择对模型性能的重要影响。

首先是表示对齐损失的重要性。当研究团队移除这个组件时,模型在视觉问答任务上的平均准确率从51.5%下降到42.4%,降幅达到9.1%。这证明了"师傅指导学徒"这个策略的关键作用。没有这种指导,简化后的模型就像没有经验传承的新手,虽然能够工作,但效率和准确性都会大打折扣。

其次是训练数据量的影响。使用10B(100亿)tokens进行蒸馏感知训练比使用5B tokens的效果更好,在视觉问答任务上提升了0.7%,在机器人任务上提升了1.2%。这说明充分的训练对于知识蒸馏过程的重要性,就像学徒需要足够的练习时间才能掌握师傅的技艺。

这些发现不仅验证了设计选择的合理性,也为未来的研究提供了指导。比如,如果计算资源有限,研究者可以优先保证表示对齐损失的实现,而在训练数据量上做一些妥协。

八、与传统量化方法的较量:后训练量化的比较

为了更好地展示BitVLA的优势,研究团队将其与传统的后训练量化方法进行了比较。后训练量化就像给已经成型的产品进行"压缩包装",而BitVLA的方法则是从设计阶段就考虑"小型化"的需求。

当使用8位(INT8)后训练量化时,OpenVLA模型的内存使用量从15.1GB降低到7.4GB,但性能也有轻微下降。当使用4位(INT4)量化时,内存进一步降低到4.4GB,但性能下降更加明显,平均成功率从76.5%下降到72.7%。相比之下,BitVLA在只使用1.4GB内存的情况下,依然保持了94.8%的平均成功率。

这种差异的根本原因在于训练方式的不同。后训练量化是在模型训练完成后强行压缩,就像试图将一个大箱子硬塞进小空间,必然会造成一些损坏。而BitVLA从一开始就被设计为在低精度环境中工作,就像专门为小空间设计的精巧家具,每个部分都经过优化,既节省空间又保持功能性。

九、计算效率的革命性提升

BitVLA带来的不仅仅是内存使用量的减少,更是整个计算范式的革命。传统的浮点运算需要复杂的硬件支持和大量的能耗,而1比特运算可以用最简单的逻辑门来实现,这就像从复杂的蒸汽机转向简洁的电动机。

在实际部署中,这种差异的影响是巨大的。传统的VLA模型需要高端的GPU或者专门的AI加速器才能运行,这些设备不仅昂贵,还需要大量的电力和冷却系统。而BitVLA可以在普通的CPU上高效运行,甚至可以部署在嵌入式设备上。这意味着机器人可以摆脱对云端计算的依赖,实现真正的本地智能。

研究团队使用的BitNet b1.58 2B4T作为语言模型骨干,配合SigLIP-L作为视觉编码器。SigLIP-L被选择用于处理224×224分辨率的图像,这个选择在保持性能的同时优化了计算效率。连接器使用了两层MLP(多层感知器),虽然保持全精度,但由于其相对较小的规模,对整体模型大小的影响微乎其微。

十、训练策略的精巧设计

BitVLA的训练过程展现了研究团队在策略设计上的深思熟虑。整个训练过程历时14天,使用了8块NVIDIA A100 GPU(每块80GB显存),这个配置虽然强大,但相比训练同等能力的传统模型,已经大幅节省了资源。

在训练的第一阶段,研究团队使用LLaVA 1.5-558k数据集进行视觉对齐训练,这个阶段只有连接器参数是可训练的,其他部分都被冻结。这就像先让新员工熟悉公司的基本流程,而不是一开始就让他承担所有工作。

第二阶段使用了从MammoTH-VL数据集中选取的1000万样本进行指令微调。在这个阶段,视觉编码器被冻结,而语言模型和连接器继续学习。研究团队特别采用了动态权重衰减策略,从0.1逐渐降低到0,这种策略有助于模型在训练后期更好地收敛。

第三阶段的蒸馏感知训练是最具创新性的部分。研究团队使用了500万样本,训练数据包含多达100亿个tokens。在这个阶段,只有视觉编码器是可训练的,蒸馏损失的权重系数设置为0.1,这个数值是通过大量实验确定的最优平衡点。

十一、实验设计的严谨性与全面性

研究团队在实验设计上展现了严谨的科学态度。他们不仅测试了BitVLA在机器人任务上的表现,还验证了其在通用视觉语言任务上的能力保持,确保模型的简化没有损害其通用性。

在机器人任务评估中,研究团队使用了与OpenVLA-OFT相同的训练数据集,确保了比较的公平性。他们处理了来自腕部摄像头和外部摄像头的同步多视角视觉输入,同时编码了末端执行器位置等本体感受信号。这些物理状态测量通过基于MLP的投影器转换为单个token,然后附加到图像tokens上。

为了优化实时控制效率,研究团队采用了动作分块技术,将分块大小设置为K=8。这意味着模型一次生成8个连续的动作步骤,然后在重新规划之前执行完整的分块。这种方法显著提高了控制的流畅性和效率,避免了逐步骤生成带来的延迟问题。

在超参数选择上,研究团队进行了细致的网格搜索。对于LIBERO-Spatial、LIBERO-Object和LIBERO-Goal任务,他们从{5e-5, 1e-4, 3e-4}中选择最佳学习率。对于最具挑战性的LIBERO-Long任务,所有模型都使用视觉编码器学习率8e-5和语言模型学习率4e-4的组合。

十二、未来展望:边缘计算时代的智能机器人

BitVLA的成功不仅仅是一个技术突破,更是为未来智能机器人的普及奠定了基础。想象一下,在不久的将来,每个家庭都可能拥有一个智能机器人助手,它不需要连接到云端服务器,就能理解你的指令并帮助你完成各种家务。

这种本地化的智能处理带来了多重优势。首先是隐私保护,所有的视觉和语音数据都在本地处理,不需要上传到远程服务器。其次是响应速度,没有网络延迟的困扰,机器人可以实时响应环境变化。最后是可靠性,即使在网络中断的情况下,机器人依然能够正常工作。

研究团队已经开源了BitVLA的完整代码和模型权重,这为全球的研究者和开发者提供了宝贵的资源。开源策略的采用将加速相关技术的发展和应用,就像当年Linux操作系统的开源推动了整个软件行业的繁荣。

当然,BitVLA也还有改进的空间。研究团队在论文中坦诚地指出了模型在精细操作和长期推理方面的局限性。这些挑战为未来的研究指明了方向,包括改进空间推理能力、增强轨迹规划算法、优化多步骤任务的执行策略等。

从更广阔的视角来看,BitVLA代表了人工智能发展的一个重要趋势:从追求模型规模的无限扩大转向追求效率和实用性的平衡。这种转变不仅符合环保和可持续发展的理念,也更接近实际应用的需求。毕竟,最好的技术不一定是最复杂的技术,而是最适合解决实际问题的技术。

说到底,BitVLA就像是为智能机器人世界打开了一扇新的大门。它证明了即使在严格的资源约束下,我们依然可以实现强大的智能功能。这不仅让研究者看到了在边缘设备上部署复杂AI模型的可能性,也让普通人看到了智能机器人走进千家万户的希望。虽然我们距离科幻电影中的全能机器人助手还有一段距离,但BitVLA让我们离这个目标又近了一大步。未来的某一天,当你回到家中,一个小巧而智能的机器人助手正在整理房间,理解你的每一个指令,这样的场景可能比我们想象的更早到来。如果读者对这项突破性研究的技术细节感兴趣,可以访问研究团队提供的GitHub链接获取完整的实现代码和预训练模型。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-