文章指出,在李飛飛「3D 世界生成模型」引發關注後,騰訊混元團隊低調上線「世界模型 1.5(TencentHY WorldPlay)」,被稱為國內首個可開放體驗的即時世界模型。
什麼是世界模型:使用者輸入文字描述或上傳一張圖片,系統即可生成可即時操作的 3D 虛擬空間;不僅是觀看影片,而是能透過鍵盤、滑鼠或手把進行移動與視角控制。
- 即時生成能力:文章提到模型可生成約 24 FPS、720P 的畫面,並透過流式推理等方式降低延遲。
- 一致性與記憶:透過重構記憶機制(Reconstituted Memory)支援分鐘級的幾何一致性,提升長時間生成的 3D 空間穩定度。
- 適用與互動:可涵蓋不同風格與場景,支援第一/第三人稱視角,並提供即時文字觸發事件與影片續寫等功能。
線上體驗:文中提供體驗入口 TencentHY WorldPlay 線上體驗,並描述其介面與操作方式。
文字生成世界的實測重點:文章以雲霄飛車、雪地摩托、千禧年跨年夜、海景豪宅等提示詞進行生成,指出其沉浸感與材質細節表現可觀,但在高速運動、物體邊緣銳利度、遠近細節與局部變形等方面仍會出現瑕疵。
單圖生成與注意事項:文章提到可用「單圖生成場景」及「影片續寫」,並列出圖片規格建議(如解析度範圍、避免直式照片、控制檔案大小)。同時以《千里江山圖》局部作為示例,描述生成結果能在一定程度保留原作風格並轉為可遊覽的 3D 氛圍。
即時事件觸發:文章描述可用一句話在數秒內改變世界內容,並強調過渡並非跳切而是較平滑;同時也提到爆炸、光影反射等效果自然,但在水面波動等物理細節上仍可能不符合真實世界。
技術解讀(文章整理):文章引用技術報告的說法,對比傳統擴散式影片生成需完整去噪後輸出、導致延遲高且不易即時互動;本次採用流式 DiT 架構,能邊接收控制訊號邊去噪與解碼以降低延遲。針對世界模型「健忘」問題,文章將 Context Forcing 機制解釋為為模型加入「短期記憶」,以維持場景幾何與物體位置的一致性。
文章並進一步指出,世界模型被視為推進「空間智能」的重要方向,並提到多家科技公司正投入相關研究。
