60 萬採集大軍入場,能解具身行業數據饑渴嗎?

60 萬採集大軍入場,能解具身行業數據饑渴嗎?

背景:具身智能面臨數據瓶頸

隨著具身智能(Embodied AI)產業進入爆發期,訓練具備強泛化能力的具身大模型至少需要 1000 萬小時量級的真實操作數據。然而,目前市面上能拿到的相關數據集總和僅約幾十萬小時,且存在場景單一、高度重複等問題,導致行業面臨嚴重的「數據饑渴」。

行動:發動大規模數據採集

針對此痛點,京東宣佈將發動最多 60 萬人參與數據採集行動,目標是在兩年內累積 1000 萬小時人類真實場景的第一視角視頻數據。該行動由超過 10 萬名京東員工與 50 萬名外部協作人員共同參與,涵蓋線下零售、倉庫及一線人員等多個場景。

挑戰:數據質量與標準化

儘管規模宏大,先行者普遍遭遇相似困境:缺乏統一的採集標準導致數據質量參差不齊;實時質控能力不足使得大量採集數據淪為廢數據;此外,不同場景與不同工種的數據整合亦面臨巨大挑戰。如何將生產性勞動有效轉化為數據生產管線,並確保數據的真實性與可用性,是該行動能否成功解開行業數據瓶頸的關鍵。

返回頂端