# Human Archive：印度零工经济训练全球机器人

> 硅谷初创 Human Archive 让印度家政工人佩戴相机帽采集「物理 AI」训练数据——Physical AI 面临着比大语言模型严重 7 个数量级的数据瓶颈，但 $1/小时的薪酬引发严重的伦理争议。

## 事件核心

硅谷初创公司 **Human Archive** 与印度的家政服务、酒店和餐厅企业合作，让一线工人佩戴装有摄像头的定制帽子，采集第一人称（自我中心视角/egocentric）视频和多模态传感器数据。这些数据被整理、标注后，出售给研发 Physical AI（物理 AI）的机器人实验室和前沿 AI 公司。

公司已部署 **1,000+ 活跃头戴设备**，覆盖印度多个地点，并开始向东南亚和美国扩张。官网声称拥有 **100,000+ 贡献者**和 500+ 行业合作伙伴。

## 关键数据

- **融资：** 820 万美元种子轮，由 Wing Venture Capital、NVP Capital、Y Combinator 领投，天使投资者来自 OpenAI、Nvidia、Google、BAIR、SAIL
- **硬件：** 7+ 定制硬件产品（RGB-D 摄像头帽、触觉手套、全身动捕服、腕部相机），总计 50+ 不同设备
- **日采集量：** 每天可采集 **8,000 小时** 数据
- **薪酬：** **$1/小时**（竞争对手 $2.63–$4.20/小时）
- **市场规模预估：** 前沿机器人实验室未来 2–3 年需要 **1 亿到 10 亿小时** 的自我中心预训练数据，按 $15–50/小时计算，对应 **$15 亿到 $500 亿** 的累计数据支出

## 背景与上下文

**Physical AI 的数据鸿沟：**

当前机器人训练面临的核心瓶颈是数据极度匮乏。最大的开源真实机器人数据集 Open X-Embodiment 仅汇集约 **100 万条轨迹**（来自 22 种机器人平台、60 个源数据集）。对比之下，大语言模型的训练语料是以 **万亿 token** 衡量的——两者相差约 **7 个数量级**。

与文本和图像不同，机器人训练数据无法从互联网抓取，每一个有用数据点都需通过物理世界中的真实交互获取。Nvidia 已明确将「数据稀缺」认定为 Physical AI 开发的关键瓶颈。

**三层次数据分类（Stellaris Venture Partners）：**
| 层级 | 内容 | 成本 |
|------|------|------|
| 互联网视频 | YouTube 视频等 | 丰富但视角不符，效用有限 |
| 自我中心数据（中层） | 头戴/腕戴相机+触觉手套 | 硬件成本低，**最接近互联网规模** |
| 遥操作数据（顶层） | 人类直接操控机器人 | 黄金标准但 >$100/小时，极难规模化 |

Human Archive 的技术差异化在于**多模态传感器数据的同步对齐**——同时捕捉 RGB-D 深度、触觉力反馈、全身动捕和腕部相机，Wing VC 称「全球没有其他人能做到」。

## 行业影响

- **30–50 家同类型公司涌现：** Micro1（$15/小时，客户含 Tesla/Figure AI）、Build AI/Egolab（目标 100 万小时印度数据）、Scale AI（Physical AI Data Engine）、DoorDash 快递员顺带采集等。预计 3 年内整合至 5–10 家。
- **印度成为 Physical AI 数据枢纽：** 低劳动力成本、庞大的人口基数和逐步深化的数字经济使印度成为全球机器人数据采集中心。印度电子和信息技术部（MeitY）已启动对相关做法的调查。
- **$15–500 亿市场空间：** 如果 Physical AI 要赶上 LLM 的发展速度，数据采集将成为化学行业最大的基础设施投入之一。

## 不同视角

- **薪酬争议：** $1/小时远低于竞争对手的 $2.63–$4.20，更远低于 Micro1 的 $15/小时。批评者指出工人没有股权、没有版税、不保留数据权利——如果采集的数据帮助机器人公司实现价值数十亿美元的突破，工人只获得原始的一次性报酬。Silicon Canals 形容「价值提取和报酬之间的鸿沟是人形机器人核心叙事的真相」。
- **隐私担忧：** 工人虽被要求不展示面部，但家中布置、个人物品被完全记录。Scroll.in 报道印度工厂工人未获书面同意即被要求佩戴摄像头，一名工人形容设备「像在吸我的血」。
- **结构性劳工问题：** 工人在采集可能让自己失业的数据。一名裁缝工说：「我们正在做本应让我们变得多余的工作。」国际研究揭示 AI 数据工人普遍面临低薪、无社会保障、缺乏集体谈判权等问题。
- **技术评价：** 联合创始人 Rushil Agarwal 称视频+同步触觉力+运动数据的组合使数据集价值「显著提升」。但能否达到客户要求的质量标准仍有待验证。

---

## 参考链接

- [TechCrunch — Human Archive taps India's gig economy to train robots](https://techcrunch.com/2026/05/26/human-archive-taps-into-indias-services-startups-to-collect-data-for-physical-ai/)
- [Y Combinator — Human Archive Launch](https://www.ycombinator.com/launches/PeP-human-archive-the-world-s-largest-multimodal-robotics-dataset)
- [Startup Fortune — Deep analysis](https://startupfortune.com/human-archive-wants-indias-gig-workers-to-train-tomorrows-robots/)
- [Stellaris Venture Partners — Physical AI data problem](https://www.stellarisvp.com/blog/physical-ai-has-a-massive-data-problem)
- [MIT Technology Review — Gig workers training humanoid robots](https://www.technologyreview.com/2026/04/01/1134863/humanoid-data-training-gig-economy-2026-breakthrough-technology/)
- [Scroll.in — Indian factory workers data collection investigation](https://scroll.in/article/1092960/how-big-tech-is-harnessing-the-data-of-indian-factory-workers-to-train-robots)
- [Silicon Canals — Global gig workers filming chores for robots](https://siliconcanals.com/sc-a-gig-workers-in-50-countries-are-filming-themselves-doing-chores-to-train-humanoid-robots-for-15-an-hour/)