臺灣主權AI訓練語料庫上線至今滿3個月,語料庫詞元數增1倍至12億
語料庫發展與成長
數位發展部表示,「臺灣主權AI訓練語料庫」自2025年底上線以來,持續累積高品質正體中文語料,涵蓋語言、文化、教育、生物、地理環境等多元領域。
語料庫上線一個多月以來,詞元數從初期的6億多個,快速成長至超過11億個,目前正朝向突破12億詞元目標推進。
政府機關參與與應用
已有超過3000筆資料集上架,多數由政府機關提供,例如文化部的國家文化資產資料,強化了語料庫的在地特色與文化深度。
數發部持續推動跨機關資料整合,並與民間企業、學研機構合作,推動語料庫的實際應用與創新。
未來發展方向
數發部強調,語料庫將作為人工智慧發展的關鍵基礎,未來將進一步擴大資料來源,並加強資料品質與流通效率,以支撐更貼近臺灣語境的AI模型訓練。
