蔡浩宇的AI公司悄悄發佈了首個視頻大模型

2026-04-13 11:29:46 / 1 閱讀所需時間

蔡浩宇的AI公司悄悄發佈了首個視頻大模型

模型介紹與技術背景

米哈遊創始人蔡浩宇旗下AI公司Anuttacon團隊，於近期發布其新一代視頻角色表演生成模型LPM 1.0。該模型為一個基於170億參數擴散Transformer架構的視頻模型，專注於角色表演生成能力。

核心功能與應用場景

超絕情緒演繹能力：能同步生成說話、傾聽、微表情與自然動作，情緒表演更為到位。
實時推理能力：支援單人全雙工音視頻對話，可作為對話代理、直播角色及遊戲NPC的通用視覺引擎。
長時身份穩定性：解決傳統視頻生成模型在長時間互動中角色一致性不足的問題。
多語言與自由對話：支持多語言輸入，並可實現無限時長的自由對話、唱歌與表演。

技術細節與數據集

團隊透過專用流程構建多模態數據集，並進行140億參數的預訓練圖像，引入30億參數的交錯式說話/傾聽音頻交叉注意力模組，最終構建出參數量達170億的模型。

發布方式與資訊來源

該模型資訊最初由Anuttacon團隊員工Ailing Zeng於X平臺公開，並透過arXiv發表相關論文，進一步公開技術細節。

來源：https://36kr.com/p/3761880764645892