微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

北京大学造了一个"人类行为百科全书"：百万小时视频，让机器人学会像人一样动手

具身智能视频数据集人类到机器人迁移

北京大学造了一个"人类行为百科全书"：百万小时视频，让机器人学会像人一样动手

作者：科技行者

2026-05-13 16:04

分享至：

北京大学联合SimpleSilicon团队发布HumanNet，一个包含约一百万小时人类活动视频的超大规模数据集，同时覆盖第一人称和第三人称视角，配有姿态、运动、文字描述等多维度标注。实验证明，用其中1000小时第一人称视频预训练的机器人策略模型，表现可超越使用100小时真实机器人遥控数据预训练的版本，为降低具身智能训练成本提供了新路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-13 16:04 • 科技行者

这项由北京大学主导、联合SimpleSilicon创新团队完成的研究，于2026年5月7日以预印本形式发布，论文编号为arXiv:2605.06747。有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文。

在机器人技术飞速发展的今天，有一个问题始终困扰着研究人员：我们能造出会思考的机器，却很难造出会"动手"的机器。一台机器人可以下棋赢过世界冠军，但让它去厨房帮你拧开一瓶酱油，往往会笨手笨脚地失败。这背后的原因，说到底是数据的匮乏——机器人没有足够多的"经验"来学习如何跟物理世界打交道。

正是为了解决这个瓶颈，北京大学的研究团队打造了一个名为HumanNet的超大规模数据集，收录了整整一百万小时的人类活动视频。这个数字有多庞大？如果你不睡觉、不休息、每天24小时不停地看，也需要花超过114年才能看完。这些视频记录的不是什么特殊场景，而是人类每天都在做的事情：切菜、搬箱子、用工具修东西、在篮球场上防守对手——总之就是人类跟这个世界"动手"互动的全部样子。这个项目的核心主张是：与其花大价钱让机器人自己去试错，不如先让它好好观察一百万小时人类是怎么做的。

一、机器人为什么"不会动手"？数据荒漠是根本原因

要理解HumanNet这个项目的价值，先得搞清楚机器人学习面临的困境。

在语言和图像领域，人工智能已经吃了互联网上海量的数据长大，效果惊人。GPT、Gemini这类大模型，读遍了人类写下的几乎所有文字，看遍了网上能找到的大量图片。正因为数据足够多、足够杂，这些模型才能举一反三、触类旁通。

但是，当我们想训练一个能操作物体的机器人时，情况完全不同。目前大多数机器人的训练数据规模，只有语言模型的千分之一甚至万分之一。更麻烦的是，这些数据往往只针对几个特定任务——比如"在流水线上拧螺丝"或者"把积木从A格子移到B格子"。换个场景，换个物体，机器人就彻底傻眼了。而且这些数据通常还跟特定的机器人平台绑定，换一台机器人又得从头来过。

这就好比你想培养一个厨师，但现有的"食谱库"里只有三道菜，每道菜还是专门为一种特定尺寸的平底锅设计的。这样的训练注定培养不出真正会做饭的厨师。

研究团队意识到，有一个地方其实早就存在着近乎无限的"动手操作"数据，那就是人类本身。每天，全球数十亿人都在用手操作各种各样的物体，在各种各样的环境里完成各种各样的任务。这些行为被摄像头记录下来，散落在YouTube、各类视频平台和私人存档里。问题不是数据不存在，而是没人把它系统地整理成机器可以学习的形式。HumanNet就是做这件事的。

二、一百万小时是怎么来的？从互联网大海里捞针

收集一百万小时的人类活动视频，听起来简单，做起来却是一项极其精细的工程。研究团队设计了一套三阶段的数据管道，像一条精密的流水线，把互联网上杂乱无章的视频素材变成可以直接用于训练的高质量数据。

第一阶段是"找视频"。团队从一小批种子关键词出发，比如"拧瓶盖"、"搬运货物"、"使用工具"等，然后通过算法自动扩展关键词库，形成一个庞大的关键词仓库。依托这个仓库，系统同时在视频平台、通用搜索引擎、开源数据集等多个渠道检索内容。与此同时，团队还对一些专注于相关内容的视频频道进行整体抓取，并在真实的日常环境中自行拍摄补充那些在网上难以找到的内容类型，比如某些不太常见的操作场景或特定视角的录像。这一阶段产出的是一个混合了各种来源的原始视频池。

第二阶段是"处理视频"。原始视频里充满了噪声：重复内容、画质模糊、镜头一动不动的静态录像、人根本不在画面中央的视频……这些都得过滤掉。系统首先进行去重和格式标准化，把来自不同来源的视频统一成相同的帧率、分辨率和文件格式。然后进行内容过滤，只保留人类活动是主角、且动作清晰可见的片段。接着是质量过滤，淘汰有严重运动模糊、大面积遮挡或长时间无变化的镜头。更巧妙的一步是"场景切割"：一段二十分钟的视频里可能有人前十分钟在切菜、后十分钟在洗碗，系统会在场景切换的地方自动把视频切开，确保每个训练片段只包含一种连贯的活动。最后，所有视频被切割成统一粒度的片段，供下一步标注使用。

第三阶段是"给视频贴标签"。这是让数据从"看得见"变成"读得懂"的关键一步。系统对每个视频片段做了好几种类型的分析：一是用人工智能模型检测人的手部和全身的三维姿态，把人的动作转化成机器能直接处理的数字坐标；二是对第一视角的视频运行单目SLAM算法（简单说就是根据视频内容反推相机的移动轨迹，估算拍摄者在空间中的位置和朝向）；三是运行一个"动作重定向"模块，把从视频里提取的人体动作套用到一个标准的类人形骨架上，如果这个转换的误差足够小（小于15毫米）且覆盖率足够高（超过60%的帧都有效），这段视频就会被标记为"机器人可用"，意味着机器人可以直接从这段视频里学习对应的运动指令；四是用大语言模型生成视频的文字描述，包括简短的场景说明和详细的动作描述，同时给视频打上层级化的分类标签。

经过这三个阶段，最终沉淀下来的HumanNet数据集包含了967,000小时的视频（实际上已经非常接近一百万小时），覆盖超过15万种不同的物体类型和超过72万种不同的任务类型。与之前所有同类数据集相比，这个规模是压倒性的——此前最大的同类数据集EgoScale也只有约20,854小时，而EPIC-KITCHENS只有区区100小时。

三、数据集里都有什么？两种视角，看见不同的世界

HumanNet把所有视频分成了两大类：第一人称视角（egocentric，也叫"自我中心视角"）和第三人称视角（exocentric，也叫"外部观察者视角"）。这两种视角不是重复的，而是互补的，各自捕捉了人类行为中不同维度的信息。

第一人称视角就是你自己戴着摄像头看到的世界。当你伸手去拿桌上的杯子，镜头里看到的是你的手在移动、杯子在接近、你的手指环绕杯身、杯子被提起。这种视角的优势在于它完整呈现了"执行动作的人看到的东西"——手和物体之间的接触细节、物体在操作过程中的状态变化、操作者的注意力集中在哪里。对于训练机械臂或机器人手来说，这种视角尤为珍贵，因为机器人执行任务时的摄像头位置通常也类似于人眼或头盔摄像头的位置。

第三人称视角则是旁观者看到的画面。你站在旁边拍一个人在切菜，看到的是他整个身体的姿态、手臂的弯曲角度、重心的转移、双脚的站位。这种视角的优势在于呈现全身运动的整体结构——对于训练需要移动整个身体的机器人（比如人形机器人），全身动作的数据至关重要。

研究团队在项目概述中还特别展示了两种将人类视频转化为机器人训练信号的路径。第三人称视频可以通过"动作重定向"技术，把人类的运动直接映射到机器人骨架上；而第一人称视频则可以配合手部姿态识别，直接转化为机械手的操作指令。这两条路径的存在，让HumanNet的数据不仅仅是"好看"，而是真正可以被机器人拿来"用"。

数据集的活动类型覆盖极广。从精细动作来看，涵盖了拿取、切割、倒液体、调整、组装、折叠、涂抹、开容器等大量手部操作；从全身活动来看，涵盖了各类体育运动、健身动作、日常行走与搬运；从场景来看，厨房、客厅、仓库、运动场、公共街道、工作台等室内外环境都有大量覆盖。每个视频片段还配有层级化的分类标签，比如一段篮球视频会被标记为"运动→篮球→防守动作"这样三层的分类结构。

四、数据质量怎么样？用数字说话

光说数量多没用，质量才是关键。研究团队对HumanNet的内部分布做了详细的统计分析，用几个维度的数据来展示这个数据集的"健康程度"。

姿态质量得分（pose score）用来衡量每个视频片段里人体姿态检测的置信度。经过质量筛选之后，数据集里留下来的片段，其姿态得分集中在高置信度区域，也就是说绝大多数视频里的人体关键点都能被可靠地检测出来，不会出现"手在哪里系统也不知道"的情况。这保证了姿态相关的监督信号是可靠的。

运动幅度得分（motion score）衡量每段视频里运动的"激烈程度"。从分布曲线来看，这个分数是一个典型的长尾分布，绝大多数片段是相对平静的精细动作，但也有一条长长的尾巴延伸向高运动幅度区域，覆盖了跑跳、大幅挥臂等激烈动作。这种分布结构恰恰反映了现实世界：人类大多数时候做的是细小的手部操作，但剧烈运动同样存在，而且对于训练运动规划能力不可或缺。

运动持续时长（motion length）的分布也呈现出类似的长尾形态，大部分是短小的动作单元，但不乏持续较长的连贯动作序列，这为学习"长程任务"（比如"完整地做一道菜"而不只是"切一刀"）提供了原始素材。

从分类角度来看，体育运动和户外活动的片段平均运动幅度最高、持续时间最长；日常生活和游戏角色动作（指视频中记录的人模仿游戏角色的动作）的片段则集中在幅度较低、时长较短的区域。这种异质性并不是缺陷，恰恰意味着数据集覆盖了机器人可能遇到的各种节奏和力度的动作场景。

五、关键验证：人类视频能替代机器人数据吗？

这是整个研究中最有说服力的部分，也是最能回答"这个数据集有没有用"的核心实验。

研究团队设计了一个严格的对照实验。他们选用了LingBot-VLA这个视觉-语言-动作模型架构作为统一的测试平台，然后在完全相同的下游任务数据上（100个任务，每个任务20个示例，合计34小时的机器人操作数据）对四种不同的初始化方案进行后训练，比较最终的验证损失。

四种初始化方案分别是：直接使用Qwen视觉语言模型（不额外训练，作为基准）；用100小时真实机器人遥控操作数据（来自Magic Cobot系统）对Qwen进行微调；用1000小时来自HumanNet的第一人称人类视频对Qwen进行微调；以及直接使用LingBot，其Qwen骨干网络经过了20,000小时真实机器人数据的训练。

实验结果在五类保留测试任务（包括室内任务、短程任务、长程任务、移动操作任务等）上分别测量了验证损失，数值越低代表效果越好。结果清楚地显示了两个重要发现。

第一个发现是：用1000小时人类第一人称视频微调的模型，在五类任务上的验证损失，始终低于（即优于）只使用原始Qwen基础模型的结果，而且在多个任务类别上还略微超过了使用100小时真实机器人数据微调的版本。这意味着，同样是在相同的下游机器人数据上继续训练，从人类视频出发的初始化点比从机器人数据出发的初始化点更好——尽管前者用的是千倍更多的人类视频，但人类视频的采集成本远比机器人遥控操作数据低廉得多。

第二个发现是：用20,000小时机器人数据训练的LingBot仍然处于领先地位，1,000小时人类视频还没能完全追上它。但差距已经大幅缩窄。考虑到1,000小时人类视频只需要网络爬取就能获得，而20,000小时机器人遥控数据需要大量人力和机器人设备的投入，这个"性价比"的对比是极其明显的。

这个实验的核心含义是：当机器人实际操作数据有限时，用大量人类行为视频来预先训练模型的视觉感知和行为理解能力，是一条切实可行且成本低廉的替代路径。

六、这个数据集能用来做什么？不止机器人控制

HumanNet的应用场景远不止于直接训练机器人执行任务。研究团队在论文中详细描述了这个数据集可以支持的多种下游用途。

在视频理解和多模态模型预训练方面，现有的视频理解模型往往在"普通互联网视频"上预训练，这类视频虽然量大但物理交互信息稀薄。HumanNet的数据更密集地包含了手-物接触、工具使用、动作因果关系等信息，用它预训练的视频编码器，在理解"人在做什么"和"物体状态怎么变化"方面可能会更加准确。

在世界-动作模型训练方面，近年来机器人领域出现了一类新的模型，叫做"世界模型"，它的作用是预测"当我采取这个动作后，世界会变成什么样"。HumanNet里丰富的动作-结果对应数据（比如"拿起杯子"之后视频里杯子位置的变化）是训练这类模型的天然原料。

在运动感知表示学习方面，第三人称视频的全身动作数据可以用来训练理解人体运动的模型，这在人形机器人的步态控制、运动规划等方向有直接的应用价值。第一人称视频则可以用来训练理解手部微动作的模型，服务于灵巧手的精细操控。

在跨形态迁移方面，人类和机器人的身体结构不同，但运动的底层逻辑有相通之处。HumanNet提供的动作重定向管线（即把人类动作映射到机器人骨架的那套流程）为这种迁移提供了一个可操作的技术路径，尽管完整的迁移实验并不在本论文的讨论范围内。

此外，这个数据集还可以用于大规模的视频-语言对齐训练（利用LLM生成的字幕）、手部姿态和全身姿态的预测、程序性活动的边界检测（判断一段视频里何时完成了一个子任务、开始了下一个子任务）等多种多模态学习目标。

七、做大不代表没有烦恼：局限与挑战

研究团队在论文中坦率地讨论了HumanNet的几个根本性局限，没有回避。

首先，人类的身体不等于机器人的身体。即使有一百万小时的人类行为视频，物理上的"形态差距"依然存在。人类的手指可以弯曲成各种微妙的角度，而机械手的自由度通常有限；人类移动时依靠双腿保持平衡，而轮式机器人的运动逻辑完全不同。这个数据集提供的是"理解物理世界"和"学习操作逻辑"的先验知识，但不能直接替代在特定机器人平台上积累的、针对该平台特有限制的实际操作经验。

其次，规模大了噪声也大了。一百万小时的视频来自互联网的各个角落，标注质量必然参差不齐。有些视频的边界划分不够精确，有些姿态估计可能存在误差，有些文字描述可能不够准确。这要求使用者在训练时对数据的来源和质量保持清醒认识，而不是把一百万小时等同于一百万小时的高质量数据。

第三，覆盖面仍然存在偏差。一个数据集可以很大，但同时仍然对某些地域、文化背景、体型、职业或活动场景过度代表或代表不足。互联网视频天然地偏向有摄影习惯、有互联网接入、有条件拍摄日常生活的人群，来自不同文化背景的家庭操作习惯、不同气候环境下的户外活动、需要特殊设备的专业操作等，在数据集里可能是欠缺的。

第四，也是最敏感的一点，是隐私和伦理问题。第一人称视频里可能出现不知情的路人、私人住宅内部、敏感文件、电脑屏幕等内容；第三人称视频可能在当事人不知情的情况下记录了他们的日常行为。研究团队表示，数据集的发布流程包含了版权审查、内容过滤、访问控制等措施，但这个领域的规范标准仍在形成中，如何在数据利用和隐私保护之间找到平衡，是整个行业都需要持续面对的问题。

归根结底，HumanNet代表的是一个思路上的重大转变：与其把机器人学习的数据瓶颈看作一个只能靠"多买机器人、多请人遥控"来解决的硬件问题，不如把它看作一个信息重组问题——人类已经积累了海量的"动手操作"知识，只是这些知识散落在视频平台上，从来没有被系统地整理成机器人可以学习的形式。一旦这个整理工作完成，机器人的学习效率就可以跨越式提升。

这个逻辑并不复杂，但把它付诸实践、做到一百万小时的规模，并配上完整的标注体系和有效的下游验证，仍然是一项相当扎实的工程。而验证实验的结果——1000小时人类视频超越100小时机器人数据——给出了一个清晰的、可量化的信号：这条路是走得通的。

至于未来能不能用更多的人类视频彻底消除对机器人专用数据的依赖，目前还很难下定论。但至少可以说，在昂贵的机器人操作数据有限的情况下，拿人类视频来补充甚至替代，已经是一个经过初步验证的、值得认真对待的方向。

Q&A

Q1：HumanNet数据集和之前的人类活动视频数据集有什么区别？

A：HumanNet最显著的区别是规模，达到了约一百万小时，而此前最大的同类数据集EgoScale约为两万小时，EPIC-KITCHENS只有约100小时。除了规模，HumanNet同时覆盖第一人称和第三人称两种视角，并配有姿态、运动、字幕等多维度标注，还包含专门为机器人迁移设计的动作重定向管线，使数据不只是"可看"，而是"可直接用于机器人训练"。

Q2：HumanNet验证实验中，1000小时人类视频超过100小时机器人数据，是不是说明人类视频完全可以取代机器人数据？

A：并非完全取代。实验显示，1000小时人类视频在五类任务上的验证损失与100小时机器人数据相当甚至略优，但20000小时机器人数据训练的LingBot仍然领先。这说明人类视频是一种高性价比的补充或替代方案，在机器人数据有限时尤其有价值，但并不意味着可以完全绕开机器人专用数据。

Q3：HumanNet数据集现在公开可以下载使用吗？

A：根据论文信息，项目已设立了主页和GitHub代码仓库，具体的数据获取方式和访问控制策略可通过论文编号arXiv:2605.06747对应的项目页面查询。由于数据集涉及隐私审查和版权审核，完整数据的公开访问条件需以官方发布的最新说明为准。

具身智能视频数据集人类到机器人迁移

分享至