60 萬採集大軍入場，能解具身行業數據饑渴嗎？

背景：具身智能面臨數據瓶頸

隨著具身智能（Embodied AI）產業進入爆發期，訓練具備強泛化能力的具身大模型至少需要 1000 萬小時量級的真實操作數據。然而，目前市面上能拿到的相關數據集總和僅約幾十萬小時，且存在場景單一、高度重複等問題，導致行業面臨嚴重的「數據饑渴」。

針對此痛點，京東宣佈將發動最多 60 萬人參與數據採集行動，目標是在兩年內累積 1000 萬小時人類真實場景的第一視角視頻數據。該行動由超過 10 萬名京東員工與 50 萬名外部協作人員共同參與，涵蓋線下零售、倉庫及一線人員等多個場景。

儘管規模宏大，先行者普遍遭遇相似困境：缺乏統一的採集標準導致數據質量參差不齊；實時質控能力不足使得大量採集數據淪為廢數據；此外，不同場景與不同工種的數據整合亦面臨巨大挑戰。如何將生產性勞動有效轉化為數據生產管線，並確保數據的真實性與可用性，是該行動能否成功解開行業數據瓶頸的關鍵。