想象一下,如果机器人能像我们人类一样,既能理解"帮我找个休息的地方"这样的日常话语,又能灵活地避开障碍物安全到达目的地,那该有多神奇?这听起来像科幻电影里的情节,但ByteDance Seed的研究团队已经让这个梦想变成了现实。
这项突破性研究发表于2025年6月,由ByteDance Seed团队的多位研究者共同完成,包括核心贡献者陈盛、何佩宇、胡家新、刘子扬、王严升、徐涛、张驰、张重重等人。感兴趣的读者可以通过项目网页https://astra-mobility.github.io/ 了解更多详情,完整论文可在arXiv:2506.06205获取。
在日常生活中,当我们走进一个陌生的购物中心或办公楼时,我们会自动扫视周围环境,寻找熟悉的标志物来确定自己的位置,然后规划最佳路线前往目的地。这个过程对我们来说轻而易举,但对机器人来说却是一个巨大的挑战。传统的机器人导航系统就像一个固执的GPS,只能按照预设的程序执行任务,遇到复杂环境就容易"迷路"。
研究团队开发了一个名为Astra的革命性双模型系统,它就像给机器人装上了人类的大脑。这个系统包含两个"大脑半球":Astra-Global就像我们的战略思维中心,负责理解环境和规划大方向;Astra-Local则像我们的运动神经中心,负责具体的行走和避障动作。
一、全局导航大脑:像人类一样理解环境的Astra-Global
在我们日常导航时,大脑会自动建立一个心理地图,记住各种地标和它们之间的关系。比如,我们会记住"咖啡店在书店旁边"或"洗手间在走廊尽头的左边"。Astra-Global就是模仿这种人类认知方式工作的。
研究团队首先让机器人通过观看环境的演示视频来建立地图。这就像我们第一次到一个新地方时,会仔细观察周围环境并在心中记下重要的标志物。系统会自动识别环境中的各种地标,比如沙发、门、标识牌等,并记录它们的位置和特征。最巧妙的是,系统还会记住这些地标的功能描述,比如"这个沙发是用来休息的"或"这个区域是用来工作的"。
当用户对机器人说"我想找个地方休息"时,Astra-Global就像一个贴心的导游,会在心理地图中搜索所有标记为"休息功能"的地标,然后确定最合适的目标位置。这个过程就像我们听到朋友说"我饿了"时,大脑会自动搜索附近的餐厅一样自然。
更令人惊叹的是,Astra-Global还能通过观察当前环境来确定机器人自己的位置。传统的机器人定位系统就像依赖GPS的汽车导航,需要接收卫星信号或依靠人工标记的二维码。但Astra-Global更像人类的视觉定位系统,它会观察周围的自然地标,比较它们与心理地图中记录的信息,从而推断出当前位置。
研究团队采用了一种分阶段的定位策略,就像侦探破案一样。首先进行粗略定位,系统会分析当前看到的地标,在心理地图中找到所有可能的位置候选。然后进行精确定位,系统会更仔细地比较视觉细节,最终确定准确的位置坐标。
为了让系统更加智能,研究团队还引入了强化学习技术。这就像给机器人请了一位经验丰富的老师,通过不断的练习和反馈来提高定位的准确性。实验结果显示,这种训练方法不仅提高了系统的性能,还让它能够更好地适应从未见过的新环境。
二、局部运动大脑:像运动员一样敏捷的Astra-Local
如果说Astra-Global是机器人的战略思维中心,那么Astra-Local就是它的运动神经中心。想象一个优秀的足球运动员,他不仅要知道球门在哪里(全局目标),还要能够灵活地带球、避开对手、选择最佳路径(局部执行)。Astra-Local就是扮演这样的角色。
这个局部运动系统最核心的创新是一个称为"4D时空编码器"的技术。我们可以把它想象成一个拥有超强记忆力和预测能力的教练。它不仅能够记住过去几秒钟发生的所有事情,还能预测接下来几秒钟可能发生的情况。
在具体工作时,这个系统就像一个经验丰富的司机。它会同时关注多个摄像头传来的画面,就像司机同时观察前方、后视镜和侧镜一样。更重要的是,它还会结合IMU传感器(类似于我们内耳的平衡器官)和轮子传感器的信息,全面了解机器人的运动状态。
在路径规划方面,研究团队采用了一种叫做"流匹配"的生成方法。这个技术就像一个艺术家,能够从无序的噪声中"画出"一条完美的行进路线。但仅仅能画出路线还不够,这条路线必须是安全的,不能撞到障碍物。
为了解决这个问题,研究团队开发了一种巧妙的"掩码ESDF损失"技术。ESDF是一种距离场,简单来说就像一个安全地图,它会告诉系统每个位置距离最近障碍物有多远。这就像在黑暗中行走时,我们会伸出手臂来感知周围的墙壁和障碍物一样。
掩码技术的引入解决了一个重要问题:如果系统只是一味地远离障碍物,机器人可能会偏离目标方向。研究团队的解决方案就像给地图加上了"正确路径提示",让机器人在避开障碍物的同时不会迷失方向。
在里程计估算方面,Astra-Local展现了出色的多传感器融合能力。它就像一个经验丰富的导航员,能够综合视觉、惯性测量和轮子转动的信息来精确判断机器人移动了多远、转了多少角度。这种融合技术比单独使用任何一种传感器都要可靠得多,就像我们人类同时依靠视觉、前庭系统和本体感觉来保持平衡和定位一样。
三、智能地图构建:机器人的空间记忆系统
在Astra系统中,地图不再是简单的平面图,而是一个包含丰富语义信息的智能记忆网络。这就像我们大脑中存储的城市印象,不仅包含地理位置,还包含各种功能和情感联想。
研究团队设计的混合拓扑-语义地图就像一本立体的城市指南。传统地图只告诉你"A点连接B点",但这种智能地图还会告诉你"A点是一个舒适的休息区,有蓝色的沙发"或"B点是工作区域,通常比较安静"。
地图构建过程分为三个阶段,就像编写一本详细的旅行指南。首先是拓扑结构构建,系统会分析演示视频,提取关键帧并计算它们之间的位置关系,建立一个基础的连接网络。接着是语义丰富化阶段,系统会为每个位置添加详细的描述信息,包括物体类型、颜色特征和功能说明。最后是共视关系构建,系统会分析哪些地标在多个位置都能看到,建立起更复杂的空间关系网络。
这种地图的强大之处在于它能够支持自然语言查询。当用户说"我想找个安静的地方工作"时,系统不需要预先编程所有可能的工作场所位置,而是会分析地图中所有标注为"适合工作"或"安静"的区域,然后智能地选择最合适的目标。
四、双模型协作:如何实现完美配合
Astra系统最精妙的地方在于两个模型之间的协作方式。它们就像一对完美的舞蹈搭档,一个负责整体节奏和方向,另一个负责具体的步伐和技巧。
在实际运行时,Astra-Global工作频率较低,就像一个战略规划师,每隔一段时间会重新评估全局情况,确认目标方向和当前位置。而Astra-Local则高频运行,就像一个反应敏捷的执行者,实时处理路径规划和避障任务。
这种分工合作的设计灵感来自于人类的认知系统。我们的大脑中也有类似的分工:负责抽象思维和长期规划的系统运行较慢但很智能,而负责运动控制和即时反应的系统运行很快但相对简单。
当机器人需要导航时,首先Astra-Global会分析用户指令,在全局地图中找到目标位置,并规划一条大致的路线。然后系统会选择路线上的下一个中间目标点,交给Astra-Local来执行。Astra-Local接到任务后,会考虑当前的环境状况,生成具体的行进轨迹,同时实时避开突然出现的障碍物。
这个过程就像我们开车去一个新地方:GPS告诉我们大方向和主要路线(Astra-Global的作用),但具体怎么变道、怎么避开前方的行人、怎么在红绿灯前停车,都需要我们根据实时情况来决定(Astra-Local的作用)。
五、训练与优化:让机器人越来越聪明
训练Astra系统就像培养一个全能的机器人助手,需要在多个方面进行专门的教育。
对于Astra-Global的训练,研究团队采用了两阶段方法。首先是监督学习阶段,就像给学生上课,教师会提供标准答案。系统学习如何识别地标、如何匹配语言描述与实际位置、如何判断两个图像是否拍摄于同一地点等基础技能。
更有趣的是第二阶段的强化学习训练。这就像让学生参加实战演练,系统需要在真实环境中尝试定位,然后根据结果的准确性获得奖励或惩罚。研究团队设计了一套复杂的奖励机制,不仅奖励准确的定位结果,还会奖励系统发现新地标或做出合理推理的行为。
实验结果显示,强化学习训练显著提高了系统的泛化能力。经过这种训练的系统在完全陌生的环境中表现依然出色,准确率比仅使用监督学习的版本提高了超过20个百分点。
对于Astra-Local的训练,研究团队首先对4D时空编码器进行了大规模的自监督预训练。这个过程就像让系统观看大量的环境变化视频,学习理解空间和时间的基本规律。系统学会了如何从多个摄像头的图像中构建3D环境表示,以及如何预测环境在未来几秒钟内的变化。
在路径规划模块的训练中,研究团队收集了1000万条由人类遥控操作生成的轨迹样本。这就像让系统观摩无数个经验丰富的司机是如何在各种复杂情况下驾驶的。系统不仅学会了如何生成平滑的路径,还学会了如何在不同情况下做出适当的反应。
掩码ESDF损失函数的引入大大提高了路径的安全性。实验显示,使用这种技术后,机器人的碰撞率降低了一半以上,同时还能保持良好的行进速度和灵活性。
六、实验验证:在真实世界中的表现
研究团队在三种完全不同的环境中测试了Astra系统:仓库、办公楼和家庭环境。这就像让一个导游在城市、乡村和海边都能胜任工作一样具有挑战性。
在仓库环境测试中,这是一个对机器人导航来说最困难的场景之一。仓库里到处都是相似的货架,很少有独特的地标,就像一个巨大的迷宫。传统的机器人系统在这种环境中经常会"迷路",需要依赖人工放置的二维码等辅助标记。但Astra系统展现出了惊人的适应能力,端到端任务成功率达到了84.2%。
更令人印象深刻的是,当排除一些特别困难的起始位置(那些周围完全没有可识别地标的位置)后,成功率提升到了91.2%。这说明系统已经能够处理绝大多数实际应用场景。
在办公楼环境中,Astra系统的表现更加出色,达到了99.1%的成功率。办公环境相对来说地标更加丰富和独特,这让系统能够更容易地进行定位和导航。有趣的是,虽然整体成功率很高,但路径规划的回退率(需要启用传统规划方法的比例)达到了15.6%,这主要是因为办公环境中有更多的动态障碍物,比如移动的人群。
最有趣的测试是零样本泛化能力验证。研究团队将在仓库和办公楼环境中训练的系统直接部署到家庭环境中,没有进行任何针对性的训练或调整。结果显示,系统依然能够取得81.8%的定位准确率,这比传统视觉位置识别方法的57.7%高出了20多个百分点。
这种跨环境的泛化能力就像一个经验丰富的旅行者,即使到了一个完全陌生的城市,依然能够通过观察周围的标志物和环境特征来找到正确的方向。
七、技术创新:突破传统导航的限制
Astra系统的创新不仅仅是把现有技术组合在一起,而是在多个关键技术点上实现了突破。
在视觉定位方面,传统方法就像只会背地图的机器,只能通过匹配预存的图像来确定位置。但Astra-Global更像一个真正理解环境的智能体,它能够理解地标的语义含义和空间关系。比如,即使同一个房间的照明条件发生了变化,或者家具位置有所调整,系统依然能够通过理解"蓝色沙发在白色墙壁前"这样的语义关系来准确定位。
在路径规划方面,掩码ESDF损失的引入解决了一个长期困扰学界的问题:如何在保证安全性的同时不牺牲路径的自然性和效率。传统的避障方法要么过于保守(机器人会远远绕开障碍物,导致路径很不自然),要么容易发生碰撞。研究团队的方法就像给机器人教会了"贴边行走"的技巧,既能安全避障,又能保持高效的行进路线。
4D时空编码器的设计也是一个重要创新。大多数现有系统只能处理当前时刻的环境信息,就像一个只能看到"现在"的近视眼。但这个编码器能够同时理解过去、现在和未来,就像一个有着时间透视能力的超能力者。这让机器人能够预测移动物体的轨迹,提前规划避让策略。
在多传感器融合方面,研究团队开发的transformer架构能够智能地权衡不同传感器的可靠性。比如,在光线很暗的环境中,系统会更多地依赖IMU和轮子传感器的信息;而在视觉条件良好的情况下,会更重视摄像头的输入。这种自适应融合策略比固定权重的传统方法更加鲁棒和可靠。
八、实际部署:从实验室到真实世界
将Astra系统从实验室部署到真实的机器人平台是一个充满挑战的过程。研究团队需要解决计算资源分配、实时性要求和系统稳定性等多个实际问题。
在系统架构设计上,团队采用了云端-边缘协同的方案。Astra-Global这个"大脑"运行在云端服务器上,拥有强大的计算能力来处理复杂的地图分析和语义理解任务。而Astra-Local这个"小脑"运行在机器人的边缘设备上,确保路径规划和避障的实时响应。
这种设计就像人类的神经系统:复杂的思考和决策在大脑中进行,而简单的反射动作由脊髓直接控制。这样既保证了系统的智能性,又满足了实时性的要求。
在实际运行中,系统还设计了一套智能的回退机制。当Astra-Local生成的路径存在潜在风险时,系统会自动切换到经过验证的传统规划方法。这就像给机器人配备了一个"安全驾驶员",在关键时刻能够接管控制权。
数据显示,在实际部署中,这种回退机制的触发率在不同环境中有所差异:在相对简单的办公环境中约为15.6%,在复杂的仓库环境中约为8.3%。这些数据帮助研究团队不断优化系统性能,减少对回退机制的依赖。
九、性能比较:超越传统方法的表现
与传统导航方法相比,Astra系统在多个关键指标上都实现了显著提升。
在全局定位任务中,研究团队将Astra-Global与经典的视觉位置识别方法MixVPR进行了详细对比。结果显示,在所有测试环境中,Astra-Global的准确率都大幅超越了传统方法。在仓库环境中,Astra-Global达到了84.6%的准确率,而MixVPR只有20.8%;在办公环境中,这个差距更加明显,Astra-Global达到了87.6%,MixVPR仅有52.8%。
这种性能提升的原因主要有三个方面。首先,传统方法只能进行全局特征匹配,容易在相似场景中出错,就像只能靠整体轮廓认人,容易把双胞胎认错。而Astra-Global能够识别和理解细节特征,比如房间号码、特定的装饰品等,就像能够通过独特的服装或配饰来准确识别人物。
其次,传统方法对视角变化很敏感,同一个地点从不同角度拍摄的照片可能被认为是不同的位置。但Astra-Global通过理解语义关系,即使视角发生变化,依然能够通过地标之间的相对位置关系来准确定位。
最后,传统方法通常只能输出最相似的图像,无法直接给出精确的位置坐标。而Astra-Global采用的两阶段定位策略能够从粗略匹配逐步细化到精确定位,就像先确定在哪个街区,再精确到具体的门牌号。
在路径规划方面,与经典的模仿学习方法(如ACT)和扩散策略(Diffusion Policy)相比,使用流匹配和掩码ESDF损失的Astra-Local表现出了更好的安全性和效率平衡。在分布内测试数据上,碰撞率降低到了0.7%,同时保持了0.87的归一化速度分数。更重要的是,在分布外测试(即系统从未见过的复杂场景)中,碰撞率控制在8.0%,远低于其他方法的10%以上。
在里程计估算任务中,Astra-Local的多传感器融合方法相比单一的视觉里程计方法实现了显著改进。相对轨迹误差从5.46%降低到1.92%,旋转误差从每10米6.36度降低到0.66度。这种改进主要得益于不同传感器信息的智能融合,就像三个不同的证人相互印证,能够得出更可靠的结论。
十、挑战与局限:仍需改进的地方
尽管Astra系统取得了令人瞩目的成果,但研究团队也诚实地指出了当前系统的局限性和未来需要改进的方向。
首先是地图表示的信息损失问题。虽然当前的混合拓扑-语义地图已经包含了丰富的信息,但为了保持系统的实时性和计算效率,不可避免地需要对信息进行压缩和简化。这就像用文字描述一幅画,总是会丢失一些视觉细节。在某些需要精确视觉匹配的场景中,这种信息损失可能会影响定位的准确性。
其次是单帧观察的局限性。目前的Astra-Global主要依赖单张图像进行定位,这在某些极端环境中可能不够鲁棒。比如在一个完全没有特征的白色走廊里,即使是人类也需要四处张望或者移动一段距离才能确定位置。未来的改进方向是让系统能够主动探索环境,通过多帧观察来增强定位的可靠性。
在路径规划方面,虽然回退机制保证了系统的安全性,但较高的回退率(特别是在复杂环境中)表明系统的泛化能力仍有提升空间。这个问题的根源在于训练数据的多样性和复杂度还不够充分,无法覆盖所有可能遇到的现实场景。
系统对计算资源的需求也是一个实际的挑战。虽然采用了云端-边缘协同架构,但在网络连接不稳定的环境中,系统的表现可能会受到影响。未来需要在保持智能性的同时,进一步优化算法效率,让更多的功能能够在边缘设备上运行。
最后,当前系统还缺乏与人类的自然交互能力。虽然能够理解基本的位置查询,但还无法处理更复杂的指令,比如"跟着那个穿红衣服的人"或"避开正在工作的区域"。这些能力的实现需要更高级的场景理解和人机交互技术。
十一、未来展望:更智能的机器人伙伴
研究团队对Astra系统的未来发展有着清晰的规划和远大的愿景。
在技术层面,下一步的重点是增强系统的自主探索能力。就像一个好奇的孩子在新环境中会主动四处探索一样,未来的Astra系统将能够在遇到困难时主动移动和观察,收集更多信息来改善定位和理解。这种主动探索能力将大大提高系统在复杂环境中的鲁棒性。
另一个重要方向是集成更丰富的人机交互功能。研究团队计划让机器人能够理解更复杂的自然语言指令,比如包含时间概念的任务("5分钟后带我去会议室")或条件性的要求("如果会议室没人的话就带我过去")。这将让机器人真正成为人类的智能助手。
在应用领域,团队计划将Astra系统扩展到更多样化的环境中。除了当前测试的室内环境,未来还将探索户外导航、多楼层建筑、甚至动态变化的环境(如正在装修的区域)中的应用。每一个新环境都会为系统带来新的挑战和学习机会。
从技术架构角度,研究团队正在探索更高效的地图压缩和传输方法,以减少对网络带宽的依赖。同时,也在研究如何让系统能够在线学习和适应环境变化,就像人类能够快速适应熟悉环境中的新变化一样。
长远来看,Astra代表的不仅仅是一个导航系统,而是向着真正智能机器人助手迈出的重要一步。当这样的系统变得足够成熟和普及时,我们可能会看到机器人在医院、养老院、大型购物中心等各种场所为人们提供贴心的引导和帮助服务。
说到底,Astra项目最令人兴奋的地方不在于它展示了多么复杂的技术,而在于它让我们看到了一个更智能、更人性化的机器人未来。在这个未来里,机器人不再是冷冰冰的机器,而是能够真正理解我们需求、与我们自然交流的智能伙伴。当你下次在商场里迷路时,也许就会有一个搭载了Astra系统的机器人主动走过来问:"需要我帮您找什么地方吗?"
这项研究为机器人导航领域带来了革命性的进步,证明了将大语言模型的理解能力与精确的运动控制相结合的巨大潜力。对于那些想要深入了解技术细节的读者,完整的研究论文可以在arXiv:2506.06205找到,项目的最新进展和演示视频也可以在https://astra-mobility.github.io/ 查看。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。