蔡浩宇的AI公司悄悄發佈了首個視頻大模型
模型介紹與技術背景
米哈遊創始人蔡浩宇旗下AI公司Anuttacon團隊,於近期發布其新一代視頻角色表演生成模型LPM 1.0。該模型為一個基於170億參數擴散Transformer架構的視頻模型,專注於角色表演生成能力。
核心功能與應用場景
- 超絕情緒演繹能力:能同步生成說話、傾聽、微表情與自然動作,情緒表演更為到位。
- 實時推理能力:支援單人全雙工音視頻對話,可作為對話代理、直播角色及遊戲NPC的通用視覺引擎。
- 長時身份穩定性:解決傳統視頻生成模型在長時間互動中角色一致性不足的問題。
- 多語言與自由對話:支持多語言輸入,並可實現無限時長的自由對話、唱歌與表演。
技術細節與數據集
團隊透過專用流程構建多模態數據集,並進行140億參數的預訓練圖像,引入30億參數的交錯式說話/傾聽音頻交叉注意力模組,最終構建出參數量達170億的模型。
發布方式與資訊來源
該模型資訊最初由Anuttacon團隊員工Ailing Zeng於X平臺公開,並透過arXiv發表相關論文,進一步公開技術細節。
