13人幹翻Transformer,新架構SSA算力暴減千倍,成本僅Opus 5%
新架構SSA如何實現算力暴減千倍
傳統Transformer的標準注意力機制為全對全(all-pairs),計算複雜度為O(n²),導致長上下文情境下計算成本爆炸。大多數token之間的互動實際上無意義,卻仍需全量計算。
SSA架構的技術優勢
SubQ採用全sub-quadratic sparse-attention(SSA)架構,僅關注少數關鍵token,大幅降低計算需求,使計算量直接減少接近1000倍。
性能與成本表現
- 在處理100萬字時,其速度比目前工業界通用的FlashAttention快了52倍。
- 成本僅為Claude Opus的5%,大幅降低企業使用AI的門檻。
應用場景與優化目標
該架構特別強化長上下文下的可靠檢索與多跳推理,針對企業真實場景(如完整代碼庫、長合約、跨文件研究)進行優化,而非僅追求基準分。
技術訓練流程
SubQ採用三階段訓練流程:預訓練 → SFT(少樣本微調)→ RL(強化學習),以確保在長上下文環境下仍能維持穩定與準確的推理能力。
