把RoPE扔掉,AI更能看懂長上下文,Transformer作者團隊開源大模型預訓練新方法

把RoPE扔掉,AI更能看懂長上下文,Transformer作者團隊開源大模型預訓練新方法

技術背景與問題提出

針對大模型在處理長文本時的困難,Transformer架構的核心作者之一Llion Jones領導的研究團隊,提出了一項新技術DroPE,旨在解決長上下文理解的問題。

核心創新點

DroPE技術不依賴昂貴的長上下文訓練,便能實現無監督零次推斷(zero-shot inference)的上下文擴展,讓模型在不進行額外訓練的情況下,也能處理更長的輸入序列。

驗證與應用

團隊已在一系列開源的預訓練大語言模型上驗證了此方法的有效性,並展示了其在長序列處理上的優異表現。

進一步技術細節

  • 團隊在精選的高品質數據上進行微調,將上下文長度從8K擴展至128K。
  • 調整RoPE的逆頻率從1e6至8e6,以確保模型在更長序列下仍能保持穩定。
  • 該方法屬於「免訓練長度外推」技術,僅需短序列語料訓練,即可實現長序列處理能力。

相關延伸技術

類似技術如LongRoPE2,透過調整RoPE的旋轉角度來適應長上下文,並提出「重縮放大法」與「進化搜索」等優化策略,進一步提升模型在長序列下的表現。

來源:https://www.36kr.com/p/3637677877069061

返回頂端