國產模型悄無聲息地贏得了一場多模態戰役

阿里通義實驗室推出ThinkSound模型

直到2025年7月，阿里通義實驗室的劉華戴博士開源了ThinkSound模型，開創性地將思維鏈（CoT）引入多模態大模型，讓模型在生成聲音前先“思考”應該發出什麼聲音，從而顯著提升聲音生成的邏輯性與自然度。

ThinkSound模型通過融合視覺與語音信息，實現了更精準的聲音生成，展現了中國在多模態人工智能領域的技術進步。該模型不僅在學術界引起關注，也吸引了產業界對國產AI模型應用的廣泛興趣。

儘管目前多數大模型仍對美國算力依賴較高，但中國正逐步建立自主可控的算力軟硬件生態，ThinkSound的發佈是國產AI模型在多模態領域取得關鍵進展的體現。