人形机器人估值狂飙 390 亿美元，但闷声发财的是这群「卖铲人」

一、一个反常识的开场：机器人还没赚钱，数据已经先赚了

先看两组扎眼的数字。

一边是本体的估值狂欢。美国 Figure AI 在 2025 年 9 月完成超 10 亿美元 C 轮，投后估值飙至 390 亿美元，比 18 个月前暴涨约 15 倍；Skild AI 在 2026 年 1 月由软银领投约 14 亿美元，估值超 140 亿美元，七个月翻了三倍；Physical Intelligence 则被传正洽谈约 10 亿美元新融资、估值或超 110 亿美元。中国这边同样火热：银河通用 2026 年 3 月完成 25 亿元新一轮融资，估值约 225 亿元，为国内估值最高的未上市具身公司；宇树科技 6 月 1 日科创板过会，对应发行市值约 420 亿元。

另一边却是冰冷的现实：本体公司几乎都还没真正赚到钱。优必选连年亏损，多数公司净利率微薄甚至为负。机器人卖出去了，钱却没落进口袋。

那么，谁先赚到了钱？答案是——卖数据的人。

具身数据独角兽光轮智能，2026 年一季度的单季收入据称已超过 2025 年全年总和；智元旗下的数据平台公司觅蜂科技，由红杉中国领投完成数亿元融资。觅蜂 CEO 姚卯青一语道破天机："在具身智能尚未真正大规模商业化之前，数据作为基础设施，会比终端应用更早形成商业回报。"

这不是新鲜剧本。AI 圈向来有一条铁律：淘金热里最先稳定赚钱的，永远是卖铲子、卖牛仔裤的人。如今，具身智能正在重演这一幕。

值得玩味的是这张估值对比图背后的结构性差异：美国头部公司论"百亿美元"，中国头部公司论"百亿人民币"。换算成美元，中国估值最高的玩家也不过二三十亿美元量级，而 Figure 一家就近 400 亿美元。资本量级的鸿沟，恰恰逼出了中国"用工程效率和数据规模弥补资本差距"的另类打法——这是后文要讲的中美分野的伏笔。

二、数据为什么先赚钱：稀缺、刚需、资本外溢

数据生意能够抢跑，背后有三层逻辑。

第一层，极端稀缺，而且是结构性的稀缺。

截至 2026 年初，全球高质量真实物理交互数据的总量，据澎湃科技的行业测算仅约50 万小时——不足大语言模型训练语料的两万分之一。这是什么概念？如果说训练 GPT 的文本数据是一片海洋，那么今天全行业能用来训练机器人的真实数据，不过是一只水桶。

更棘手的是"数据跟着本体走"：不同品牌机器人的传感器布局、控制模态各不相同，遥操作采来的数据高度绑定特定硬件，很难跨本体复用。这意味着稀缺不是暂时的供给不足，而是结构性的复用困境。

第二层，刚性需求，且在指数级膨胀。

当机器人从实验室走向工厂、物流、商超，数据需求从"实验室级"陡然跃升到"部署级"。光轮智能联合创始人杨海波称，2026 年的数据需求"百倍于去年"——单一任务训练就需千小时级数据，复杂任务更多。需求曲线陡峭上扬，供给却卡在水桶大小，价格信号自然清晰。

据澎湃科技，具身数据当前总体定价 200–500 元/小时；其中真机数据最贵，达 500–1000 元/小时；不依赖特定机器人的"无本体数据"价格约为真机的二分之一到三分之一。

第三层，资本外溢。

本体赛道的投资门槛被推高后，挤不进牌桌的资金转向商业化确定性更强的上游。一位投资人对媒体直言："上游在商业化可预测性方面比机器人本体还要稳当——押注的不是某一家公司能不能活下来，而是整个行业对数据的刚需。"

换句话说，赌本体是赌"谁能赢"，赌数据是赌"这场仗一定要打"。后者的确定性，显然更高。

三、技术底座：VLA 与世界模型，把数据"吃"进模型

数据之所以成为战略筹码，是因为新一代具身"大脑"对数据的胃口空前。

VLA（视觉-语言-动作）模型成为主流范式。 Physical Intelligence 的 π 系列是标杆：π0（2024 年）是首个通用机器人基础模型，π0.5 实现开放世界泛化，π0.6 已能在旧金山一家洗衣店稳定叠衣服商用。Google DeepMind 的 Gemini Robotics（2025 年 3 月）把物理动作变成模型的新输出模态；其 1.5 版本（2025 年 9 月）升级为多本体 VLA，可跨机器人迁移技能。

世界模型成为新前沿。 DeepMind 的 Genie 3（2025 年 8 月）能由一句文本实时生成 720p、24fps、可交互数分钟的虚拟世界，被视为破解数据瓶颈的钥匙。而就在 2026 年的 NVIDIA 技术盛会上，黄仁勋明确抛出一个判断：仅靠真实世界数据，不足以训练物理 AI——因为现实世界的复杂度与长尾边缘场景太多。NVIDIA 的解法，是把自己的算力转化为稀缺的数据原料：其合成运动生成管线，11 小时即可生成 78 万条合成轨迹，相当于约 6500 小时、九个月的人类演示数据；合成数据与真机数据结合，可将 GR00T 模型性能提升约 40%。

关键在于：无论架构如何演进，这些模型都必须用海量、高质量、可迭代的数据来"喂养"。模型越强，对数据的质量与多样性要求越苛刻。这正是数据成为战略咽喉的根本原因。

四、中美分野：两条路径，两种死穴

这是本文的核心判断：中美正走向两条截然不同的具身数据供给路径，而且各有致命弱点。

美国路径：仿真 + 世界模型，重算力、重算法、重资本。

NVIDIA 是这条路的总设计师。它用 Cosmos 世界基础模型、Isaac GR00T、Omniverse 仿真平台，搭起一座"数据工厂"，本质是把算力转化为数据原料。Tesla 则走"本体即数据工厂"的垂直闭环——据其 AI 软件副总裁 Ashok Elluswamy 在 2025 年 10 月 ICCV 的披露，Optimus 与 FSD 共用同一个"神经世界模拟器"，这是一种从真实世界视频中学习而来的"学习式仿真"，可在雾天、暮光等不同条件下批量生成合成边缘案例。

美国阵营内部也有"真实数据派"：Generalist AI 坚持用 27 万小时真机数据训练 GEN-0 基础模型，采集自全球数千个家庭、仓库与工作场所，每周新增超 1 万小时。

美国路径的死穴：sim-to-real 鸿沟。仿真环境的物理规律无法完全复现真实世界的复杂性，模型在仿真里表现优异、到真实场景却容易"翻车"。重算力买得来算法，却买不来真实世界的"手感"。

中国路径：真机数采 + 数据工厂，重劳动力、重场景、重政策。

中国把数采变成了一门"制造业"。截至 2026 年 4 月初，全国规划或建成的具身数采中心、创新中心与训练场已达 64 座、覆盖至少 27 个城市。智元在上海浦东建起 4000 平米专属工厂，日均产出数万条高质量数据；京东更计划两年内采集 100 万小时机器人本体数据 + 1000 万小时人类真实场景视频，发动数十万人众包采集。

政策是强力推手。具身智能连续两年写入相关政府工作报告；国家数据局推动"数据要素 ×"行动与数据资产入表；中国还首发了具身智能领域首份行业标准——《YD/T 6770—2026 人工智能关键基础技术具身智能基准测试方法》，已于2026 年 6 月 1 日正式实施。

中国路径的死穴：成本、效率与孤岛化。遥操作单小时有效数据成本仍在 500 元以上，一套设备超 20 万元，操作员门槛极高，真机数据很难快速规模化。更致命的是数据孤岛——跨本体、跨品牌的数据格式难以互通，任何一条单独的路线都撑不起通用具身智能的未来。

但请注意一个正在发生的趋同： 2026 年，双方都在向"混合策略"收敛。中国行业加速转向"强化中层仿真 + 夯实底层人类数据"，以降低对昂贵真机数据的绝对依赖；美国的 Tesla、NVIDIA 也都强调真机 + 仿真 + 合成的多源融合。没有人押注单一数据源。

五、最危险的认知误区：被高估的"真实数据万能论"

讲到这里，必须给所有具身厂商泼一盆冷水："真实数据一定优于合成数据"，并不是一条已被证明的定律。

大语言模型的"GPT 时刻"建立在相对清晰的 Scaling Law 之上。但在机器人领域，数据的 Scaling Law 缺乏同等清晰的定义——"数据是否越多越好"，本身就是一个需要实验验证的开放命题。

学术界的证据是混合的。清华团队的研究《模仿学习中的数据 Scaling Law》发现：环境与物体的多样性，远比单一环境下演示的绝对数量更重要——一旦每个环境/物体的演示量超过某个阈值，再增加演示，收效甚微。

但反方向的证据同样有力。Georgia Tech 与斯坦福的EgoMimic 研究（CoRL 2024）发现：用智能眼镜采集的人类第一人称（egocentric）数据，可使任务表现较纯机器人数据提升34%–228%；而且"2 小时机器人数据 + 1 小时人类手部数据"的组合，明显优于"3 小时纯机器人数据"。

这意味着：真实数据（尤其是 egocentric 人类数据）的边际效用，是一个需要逐场景、逐任务实验验证的可测试假设，而非可以绝对化的营销口号。

真正决定模型能力上限的，从来不是"真实"或"合成"的标签，而是数据的——多样性、物理真实性、可评测性与合规性。

对厂商的启示因此清晰：与其盲目堆砌某一类数据，不如建立一套"持续、可迭代、可评测"的数据供给体系。按"金字塔"分层配置数据预算——底层用低成本人类视频夯实泛化，中层用仿真补足长尾，顶层用高质量真机攻坚精密操作——远比把任何一种数据奉为圭臬来得明智。

而这，恰恰是数据基础设施供给方的价值所在。

六、一个值得关注的样本：以"AI 垂类数据基础设施"切入价值链高位

在这场数据战争中，有一类"中立、合规、干净"的数据供给方正在浮现，艺恩数据（ENDATA，新三板代码 871430）是其中值得关注的样本。

需要先厘清的是：艺恩数据的传统主业是文娱垂类数据服务（影视、综艺、社媒内容的大数据分析）。而在 AI 数据基础设施的浪潮下，它正尝试把多年积累的"视频/图像/文本"三模态数据能力，向大模型与具身智能的训练数据延伸。这一延伸的逻辑，与本文的判断高度吻合。

其一，自有 egocentric 数据资产，踩中行业风口。据公司介绍，其储备了第一人称视角的 4D 数据集（公司自述规模 5PB、5000+ 小时，VLA-ready）。这一方向恰好与学界验证一致——前文 EgoMimic 已证明人类 egocentric 数据的高训练效率；Apple 的 EgoDex（829 小时 egocentric 视频、含桌面任务的 3D 手指追踪）、Tesla 转向头盔多摄采集第一人称视频，都在押注同一方向。

其二，合规与质量背书，是被低估的稀缺资产。这一点有一个绝佳的反面教材：2025 年 6 月，Meta 以约 143 亿美元入股数据标注巨头 Scale AI 近半股权，结果引发 Google、OpenAI 等客户因数据保密与竞争冲突而减少合作。这恰恰说明，"中立、不与客户竞争、合规干净"的第三方数据供给方，本身就是一种稀缺资产。艺恩强调的合规视频、干净 IP 链，正是大模型厂商最看重的护城河。

其三，清晰的战略分层，与行业"数据金字塔"共识吻合。据其对外阐述，它把具身数据价值链拆为三层：仿真层（最高价值/最高稀缺，长期竞争力）、渲染层（依托合规视频的当下现金牛）、规划层/VLA（随 VLA 模型爆发的 2026 增长重点）——这是一条"先做现金牛、再爬价值链"的务实路径。

需要特别强调的是：艺恩并不宣称真实数据绝对优于合成数据。恰恰相反，其立场与本文一致——真实数据的边际效用是一个需要实验验证的开放命题，而高质量、合规、egocentric 的真实数据资产，正是验证这一假设、并在混合数据策略中占据不可替代位置的关键变量。

七、给决策者的三步行动建议

如果你是具身机器人厂商的决策者，面对这场数据战争，建议分三步走。

第一步（立即）：把数据预算从"附属投入"升级为"核心预算项"，并按层分配。不要把全部预算压在最贵的真机遥操作上。采用"金字塔配置"：底层用低成本人类 egocentric 视频与互联网视频夯实泛化，中层用仿真/合成数据规模化补足长尾，顶层用高质量真机数据攻坚精密操作。基准阈值——单一落地任务先确保千小时级有效数据，复杂任务按倍数追加。

第二步（3–6 个月）：锁定合规、可评测、可跨本体复用的数据供给方，避免数据孤岛。优先选择具备合规认证、有干净 IP 链、能提供 VLA-ready 格式的供给方。对 egocentric/4D 数据资产给予额外权重——它在训练效率上已有实证优势，且不绑定特定本体。

第三步（持续）：把"真实 vs 合成"当作可验证假设来管理，而非信仰。在自有场景做 A/B 实验，量化每类数据的边际效用，动态调整配比。一个可操作的决策基准：若某类数据增加后模型成功率提升低于 5 个百分点，就该停止堆量、转向提升多样性或切换数据类型。

对中美路径的战略判断：中国厂商的真机 + 场景优势，在工业、商超等"刚性场景"落地上短期领先，但务必同步布局仿真与人类视频数据，以对冲成本与孤岛风险；切忌迷信"采得多就赢"。

市场的大方向是确定的——据 QYResearch 预测，全球具身智能数据市场将从 2024 年的 7.53 亿美元增长到 2031 年的 67.52 亿美元，CAGR 约 36.8%。但在这条高速增长的赛道里，胜出的不会是采集数据最多的人，而是最先建成"持续、可迭代、可评测、合规"数据供给体系的人。

当 AI 从数字世界迈入物理世界，真实交互数据已成为决定具身智能上限的稀缺生产要素。读懂数据，就读懂了具身智能的下一程——这或许是这场全球竞赛，留给所有参与者最重要的一条共识。