当前位置：首页 > news >正文

HumanNet：一百万年人类视频，给机器人一本最厚的“动手教科书”

news 2026/6/1 6:23:08

导语：机器人能下棋赢过世界冠军，却很难在厨房里帮你拧开一瓶酱油。这背后的根本原因，说到底是数据的匮乏——机器人没有足够多的“经验”来学习如何跟物理世界打交道。2026年5月，北京大学联合SimpleSilicon团队发布了一项重磅研究HumanNet：一个包含整整一百万小时人类活动视频的超大规模数据集，同时覆盖第一人称和第三人称视角，配有多维度标注。论文的核心主张简单而激进：与其花大价钱让机器人自己去试错，不如先让它好好观察一百万小时人类是怎么做的。实验数据表明，用其中1000小时第一人称视频预训练的机器人策略模型，在同等验证条件下可以超越使用100小时真实机器人遥控数据预训练的版本，为降低具身智能训练成本提供了一条全新路径。

一、机器人为什么“不会动手”？数据荒漠是根本原因

在语言和图像领域，人工智能已经吞下了互联网的海量数据。GPT、Gemini这类大模型，读遍了人类写下的几乎所有文字，看遍了网上能找到的大量图片。正因为数据足够多、足够杂，这些模型才能举一反三、触类旁通。

然而当我们想训练一个能操作物体的机器人时，情况完全不同。目前大多数机器人操作训练数据的规模，只有语言模型的千分之一甚至万分之一。更麻烦的是，这些数据往往只针对几个特定任务——比如“在流水线上拧螺丝”或者“把积木从A格子移到B格子”。换个场景、换个物体，机器人就彻底傻眼了。而且这些数据通常还跟特定的机器人平台绑定，换一台机器人又得从头来过。

数据量更大的项目，比如Open X-Embodiment数据集汇集了几十个研究机构的遥操作数据，以及DROID数据集花了大量人力在真实环境中遥操作，所有这些加起来也不过几千小时的规模。

这就好比你想培养一个厨师，但现有的“食谱库”里只有三道菜，每道菜还是专门为一种特定尺寸的平底锅设计的。这样的训练注定培养不出真正会做饭的厨师。

但团队敏锐地意识到，有一个地方其实早就存在着近乎无限的“动手操作”数据，那就是人类本身。每天，全球数十亿人都在用手操作各种各样的物体，在各种各样的环境里完成各种各样的任务。这些行为被摄像头记录下来，散落在YouTube、各类视频平台和私人存档里。问题不是数据不存在，而是没人把它系统地整理成机器可以学习的形式。HumanNet就是做这件事的。

二、一百万小时是怎么来的？三段式数据管道

收集一百万小时的人类活动视频，听起来简单，做起来却是一项极其精细的系统工程。研究团队设计了一套三阶段数据管道，把互联网上杂乱无章的原始素材变成可以直接用于训练的高质量数据。

第一阶段：找视频——从关键词到原始视频池

团队从一小批种子关键词出发，比如“拧瓶盖”、“搬运货物”、“使用工具”等，然后通过算法自动扩展关键词库，形成一个庞大的关键词仓库。依托这个仓库，系统同时在视频平台、通用搜索引擎、开源数据集等多个渠道检索内容。与此同时，团队还对一些专注于相关内容的视频频道进行整体抓取，并在真实日常环境中自行拍摄补充那些网上难以找到的内容类型。最终得到一个混合了各种来源的原始视频池。

第二阶段：处理视频——从原始素材到高质量片段

原始视频里充满了噪声：重复内容、画质模糊、镜头一动不动的静态录像、人根本不在画面中央的视频。系统首先进行去重和格式标准化，把来自不同来源的视频统一成相同的帧率、分辨率和文件格式。然后进行内容过滤：只保留人类活动是主角、且动作清晰可辨的片段。接着是质量过滤：丢弃有严重运动模糊、大面积遮挡、静态画面或其他影响学习质量问题的片段。最后进行场景切割和视频剪辑：在视觉变化处切分长视频，生成固定粒度的片段，让每个训练样本都精准聚焦于一个完整的人类动作。

第三阶段：标注——为“哑巴视频”注入结构化信息

这是最关键的一步。原始视频本质上是无声的动作流，要让模型真正能从中学习，必须给它加上多层次的“说明书”。团队的标注模块提供几何层面和语义层面的监督信息：

三维手部和身体姿态检测：恢复细粒度运动结构；
单目SLAM：对满足稳定性和视差要求的第一人称片段估计相机轨迹；
动作重定向：把恢复的人体运动与统一的人形骨架对齐。当重定向误差低于15毫米且有效帧覆盖率超过60%时，该片段被标记为“机器人就绪”；
LLM辅助视频描述：并行生成视频字幕。对于第一人称片段，生成以执行者为中心的动作描述；对于第三人称片段，则侧重于全身运动和场景动态。

这种设计把非结构化的互联网视频转化为可扩展的表征学习、活动理解、运动生成和人-机器人迁移的基础数据。

三、设计哲学：不是“又一个更大的视频数据集”

HumanNet不是简单地在Ego4D或HowTo100M上再扩大量级，而是在数据规模、视角覆盖、标注体系和管道设计上同时做了一套系统性工作。

对“以人为中心的视频”的严格定义

团队对数据集的入选标准有明确的操作性定义：视频中必须包含具有物理意义的行为——比如操纵物体、使用工具、导航、组装或拆解物品、操作设备或界面、搬运物体、与他人协调，或执行涉及环境状态变化的多步骤程序。这个定义刻意排除了大量人类运动只是背景噪声的视频，确保每一帧都具备对具身学习有用的物理交互信息。

双视角互补设计

第三人称视频在捕捉全身运动、姿态和多人动态方面有优势；第一人称视频更能暴露手部动作、接触细节和以执行者为中心的意图。两种视角都保留，而不是只选其一，这是一个关键的设计决定。因为想真正教会机器人一项物理任务，既要看到“这只手在干什么”，也要看到“这个人在怎么动”。

长尾覆盖

100万小时这个体量，让那些稀有但物理上有信息量的行为——比如折叠柔性物体、处理反光容器、操作陌生家电——也能出现足够多次，不至于被稀释掉。这种长尾覆盖能力，是小规模数据集无法实现的。

预训练就绪

数据按照现代大规模训练流水线的要求组织——分块、元数据索引、质量过滤、标注标签、运动注释，以及可选的文本或结构化标签对齐，开箱即用。

四、两条跨实体迁移通路：让人手变成机械手

很多业内人士可能会提出一个尖锐的质疑：人类视频和机器人数据之间有巨大的“跨实体鸿沟”——人手有26个自由度，而机械臂通常只有6到7个；人的摄像机是戴在头上稳定视角的，机器人的相机则安装在机械臂末端。那么，怎么把人类的“手感”翻译成机器的“爪感”？

HumanNet通过两条技术通路来应对这个挑战：

通路一：基于第三人称视频的全身运动重定向。把人类的全身运动直接映射到机器人的骨架模型上。虽然人手比机器人灵活得多，但全身运动的宏观结构——比如伸手够一个目标、蹲下来捡东西、侧身避开障碍物——在运动学约束下可以找到近似的最优映射。

通路二：基于第一人称视频的手部姿态映射。直接从执行者的视角提取手部精细动作和接触动力学信息，再转化为机械手的操作指令。这条通路解决的是“指尖功夫”——捏、拧、推、按这些机器人最需要学会的精细操作。

重定向质量由论文中设置的两个技术门槛来保障：重定向误差低于15毫米，且有效帧覆盖率超过60%。这确保了只有动作结构足够清晰、与机器人的物理约束足够匹配的片段，才会被用于策略训练。

五、一组关键实验数据：1000小时人类视频 vs 100小时机器人数据

这也许是整篇论文最受关注的一组数据。研究团队设计了一个受控对比实验来验证设计：在固定的验证集上，两组模型都从同一个Qwen VLM基础模型开始继续训练：

A组：用从HumanNet中抽取的1000小时第一人称人类视频继续训练；
B组：用Magic Cobot项目采集的100小时真实机器人遥操作数据继续训练。

结果令人惊讶：A组的机器人策略模型表现超越了B组。

这组数据说明了两件事：第一，在同等计算资源下，高质量人类视频的“教学效率”可以达到真实机器人数据的10倍以上（以训练时长换性能）；第二，更关键的是，使用人类视频免去了真实机器人数据采集的高昂成本——遥操作需要专业人员、专业设备和大量时间，而互联网上已有取之不尽的素材。

不过值得注意的是，这仍然是一个“第一步验证”——实验在受控条件下进行，离真正的泛化部署还有距离。论文作者也在摘要中强调这是“first-step validation”。

六、开放生态与多元应用

HumanNet团队已完整公开了项目主页、GitHub仓库和论文预印本：

项目主页：https://dagroup-pku.github.io/HumanNet/
GitHub仓库：https://github.com/DAGroup-PKU/HumanNet/
论文编号：arXiv:2605.06747

项目主页还提供了数据量统计、标注可视化样例和跨实体迁移示意图，方便研究者和工程师直接了解数据集的结构与使用方式。

从应用角度看，HumanNet不是一个只服务于单一算法的“专有训练集”，而是一个可以被多种模型范式使用的通用数据基础设施：

VLA模型：用其中的人类操作视频和对应的字幕与标注，可直接用于训练和微调视觉语言动作模型；
视频生成与世界模型：百万小时的动作视频可以作为视频生成模型的高质量预训练素材，帮助模型更好地理解物理世界中“前因后果”的动态规律；
运动生成与仿真：手部和身体的姿态标注可用于训练运动生成模型，在仿真环境中批量生成人工训练数据；
跨实体迁移研究：标注和重定向通路为该方向的研究者提供了一套可复用的基准。

论文的最终目标是探索利用人类视频规模化训练具身基础模型的可能性，而非单纯依赖机器人特定数据。这一定位也使得HumanNet的价值远超“又一个大规模视频数据集”——它试图回答的是一个更具根本性的问题：有没有可能让机器人走一条“看人类干活”的捷径，而不是必须亲自去试错？

七、扩展视角：数据基础设施浪潮中的HumanNet

HumanNet所处的具身智能数据生态正在经历一场基础性变革，我们不妨将它放入更广阔的坐标系中观察。

7.1 一条正在形成的路线共识

在HumanNet之外，同一时期出现的一系列工作正在形成一条清晰的路线：用人类视频替代或补充机器人数据。

NVIDIA Research与UC Berkeley在2026年初提出了通用机器人世界模型框架，将大规模视频生成模型与具身控制策略结合，实现从视觉预测到可执行动作的统一建模；
NVIDIA Research的EgoScale框架则基于第一人称人类操作视频训练VLA模型，用20,854小时带动作标注的数据观察到数据规模和验证损失之间接近对数线性的scaling law规律；
UniT项目设计了统一物理语言，弥合从人到人形机器人的跨实体鸿沟。

学术界对这条路径的兴趣也在显著上升。近期多个研究团队指出，具身智能正在深度挖掘视频数据的潜力，互联网上海量的第一人称操作视频提供了免费且丰富的资源。初步验证表明，基于1000小时第一人称人类视频的训练效果已可超越基于100小时真实机器人数据的训练，人类视频有望成为机器人数据的一种可扩展且成本低廉的替代方案。

7.2 HumanNet在数据图谱中的独特位置

相较于同类工作，HumanNet有几个不易被复制的特点：

百万小时量级：这是目前公开报道中规模最大的人类中心视频数据集之一，将数据量级直接提升了一个数量级；
双视角统一：同时纳入第一人称和第三人称视角，使其既可用于精细操作训练，也可用于全身运动建模，应用范围更广；
完整的标注与管道：不仅产出数据，还沉淀了一套从搜索、过滤到标注、重定向的系统化方法论，可供后续工作复用；
开放生态：代码和项目主页全部公开，降低了社区的使用门槛。

7.3 规模与成本的潜在影响

这些工作共同指向一个重要趋势：具身智能的“数据瓶颈”正在从“数据本身是否可得”转向“数据基础设施是否完备”。如果说DROID和OpenX等项目代表了“直接采集机器人数据”的路径，EgoScale代表了“规模化第一人称数据”的路径，那么HumanNet则代表了一条融合双视角、覆盖百万小时、建立完整标注管道的综合路线。在数据质量和多样性上，多管齐下可能是更稳妥的策略。

同时，任何数据的应用都应建立在负责任的基础上。论文作者在项目主页中公布了数据的来源构成和处理方式，并致力于遵循数据隐私保护的最佳实践。如何在使用大规模人类视频训练模型的同时，确保视频中被记录者的知情权和隐私得到充分尊重，需要整个社区共同关注和推动。

八、局限与展望

HumanNet的发布为具身智能领域打开了一扇新的窗户，但也面临几个需要后续攻坚的方向：

一是跨实体迁移的精度上限。人手有26个自由度，机械臂通常只有6到7个，运动重定向本质上是一个有损映射。论文设置了15毫米的重定向误差阈值和60%的有效帧覆盖率门槛来过滤低质量片段，但这同时意味着部分人类视频无法被利用。如何在保真度和利用率之间取得更好平衡，仍是一个开放问题。

二是场景多样性的边界。一百万小时虽已远超现有任何数据集，但对于真实世界中近乎无限的任务类型而言，仍然存在覆盖面不足的问题。某些极端或罕见场景——比如灾难救援、水下操作——可能在数据集中仍然稀疏。

三是从“看视频”到“真动手”的验证闭环。目前的验证实验聚焦于策略模型的预训练阶段，但预训练效果好是否一定能转化为真实机器人操作的成功率提升，还需要更多真实世界实验来佐证。

四是大规模视频数据的隐私与伦理问题。数据来源涵盖互联网公开视频和自采集视频，如何在数据规模和数据伦理之间取得平衡，需要持续的技术手段和制度保障。

不过，这些问题恰恰是HumanNet的价值所在——它提供了一个足够大的平台，让整个社区可以在此基础上共同探索答案。

九、总结

HumanNet的核心贡献可以概括为三层：

规模突破：首次将人类中心视频数据集推至百万小时量级，将具身智能的数据天花板抬升了一个数量级；
方法沉淀：构建了一套从搜索、过滤到标注、跨实体重定向的完整数据管道，将非结构化互联网视频转化为可直接用于训练的高质量数据；
范式探索：通过受控对比实验初步证明，高质量人类视频可以成为机器人数据的有效替代品，为具身智能领域开辟了一条“看人干活、学会动手”的新路径。

未来，当VLA模型、视频生成模型和机器人世界模型同时接入HumanNet这样的数据基础设施，机器人的学习方式可能会发生根本性的改变。它不需要亲自试错一万次，只需要好好“看”一百万小时人类是怎么做的。这不仅是一条技术路线，更是对人类行为数据这座沉睡金矿的第一次系统性开采——而这扇门才刚刚打开。

参考链接：