13人幹翻Transformer,新架構SSA算力暴減千倍,成本僅Opus 5%

13人幹翻Transformer,新架構SSA算力暴減千倍,成本僅Opus 5%

新架構SSA如何實現算力暴減千倍

傳統Transformer的標準注意力機制為全對全(all-pairs),計算複雜度為O(n²),導致長上下文情境下計算成本爆炸。大多數token之間的互動實際上無意義,卻仍需全量計算。

SSA架構的技術優勢

SubQ採用全sub-quadratic sparse-attention(SSA)架構,僅關注少數關鍵token,大幅降低計算需求,使計算量直接減少接近1000倍。

性能與成本表現

  • 在處理100萬字時,其速度比目前工業界通用的FlashAttention快了52倍。
  • 成本僅為Claude Opus的5%,大幅降低企業使用AI的門檻。

應用場景與優化目標

該架構特別強化長上下文下的可靠檢索與多跳推理,針對企業真實場景(如完整代碼庫、長合約、跨文件研究)進行優化,而非僅追求基準分。

技術訓練流程

SubQ採用三階段訓練流程:預訓練 → SFT(少樣本微調)→ RL(強化學習),以確保在長上下文環境下仍能維持穩定與準確的推理能力。

來源:https://36kr.com/p/3797755244157959

返回頂端