國產模型悄無聲息地贏得了一場多模態戰役
阿里通義實驗室推出ThinkSound模型
直到2025年7月,阿里通義實驗室的劉華戴博士開源了ThinkSound模型,開創性地將思維鏈(CoT)引入多模態大模型,讓模型在生成聲音前先“思考”應該發出什麼聲音,從而顯著提升聲音生成的邏輯性與自然度。
多模態大模型技術突破
ThinkSound模型通過融合視覺與語音信息,實現了更精準的聲音生成,展現了中國在多模態人工智能領域的技術進步。該模型不僅在學術界引起關注,也吸引了產業界對國產AI模型應用的廣泛興趣。
國產AI生態持續發展
儘管目前多數大模型仍對美國算力依賴較高,但中國正逐步建立自主可控的算力軟硬件生態,ThinkSound的發佈是國產AI模型在多模態領域取得關鍵進展的體現。
