生成式AI下一道門檻：數據合規

訓練數據的來源與合法授權問題

生成式AI的發展需要大量訓練數據，這些數據的來源與取得方式成為關鍵議題。研究指出，訓練數據若包含不準確或虛假資訊，將導致模型輸出錯誤內容，因此在數據工程階段必須加強資料品質與授權管理。

在訓練階段，若使用他人作品，將觸及知識產權問題。法院判決認為，生成式AI的創設不可避免地會使用他人作品，因此需在數據訓練階段建立有效措施，確保使用行為符合法律規範。

AI大模型通常需處理大量個人數據，引發隱私與數據保護的合規問題。為確保合規，需建立數據內容管理機制，包括資料過濾、知識產權保護與個人資訊保護。

為確保數據使用合法，需強調「來源可溯、授權合規」。相關標準建議建立全流程可追溯機制，並對訓練數據的來源與授權進行嚴格審查。

服務提供者需根據相關規定，對生成合成內容添加顯式標識，並在文件元數據中加入隱式標識，以符合合規要求。

生成式AI服務需完成備案審批，內容包括服務提供者的基本資訊、技術能力、管理制度、模型概況（如名稱、類型、訓練數據規模、來源及過濾規則）與安全管理制度等。