AI趨勢周報第284期:Google DeepMind給出多語言模型的最佳擴展法則

Google DeepMind給出多語言模型的最佳擴展法則

重點新聞(0123~0129)

Google DeepMind最近提出一套新訓練法則ATLAS(Adaptive Transfer Scaling Laws),專門解決一個老問題:多語言模型越練越大,但效果常常不如預期。進一步來說,當模型規模擴張時,若缺乏適當的調整策略,其性能提升將無法線性增長,甚至可能出現退化現象。

ATLAS法則透過調整訓練過程中的多語言知識遷移機制,有效提升了模型在不同語言間的泛化能力,並確保了在擴展規模時仍能維持穩定的表現品質。此法則不僅適用於多語言模型,也為未來大模型的訓練提供了可複製的擴展框架。

該研究成果已發表於相關技術論壇,並受到學術界與產業界廣泛關注,預計將對全球語料庫建構與跨語言應用產生深遠影響。

來源:https://www.ithome.com.tw/news/173680

返回頂端