南洋理工大學推出 Hand2World:手勢控制 AI 生成交互視頻
研究背景與核心突破
南洋理工大學(NTU)機器學習實驗室(MMLab)團隊近日推出了一項名為 Hand2World 的創新技術,旨在讓 AI 世界模型真正具備「伸手」互動的能力。這項研究成功攻克了主動操作難題,實現了從靜態場景到動態交互視頻的閉環生成。
技術原理與運作方式
Hand2World 的核心機制在於將用戶的空中手勢動作轉化為 AI 對場景的主動操作。具體流程如下:
- 輸入場景:系統僅需一張場景照片作為基礎。
- 手勢控制:用戶只需在空中做出模擬的手勢動作(如抓取、翻書、開盒子)。
- AI 生成:AI 模型能據此生成逼真的第一人稱視角交互視頻,實時響應並調整場景細節。
應用價值與意義
該技術不僅讓「頭號玩家」式的虛擬互動照進現實,更在虛擬仿真、遠程操控及沉浸式體驗等領域展現出巨大潛力。通過結合世界模型與手勢識別,Hand2World 標誌著 AI 在理解與操作物理世界方面邁出了關鍵一步。
