13人幹翻Transformer，新架構SSA算力暴減千倍，成本僅Opus 5%

新架構SSA如何實現算力暴減千倍

傳統Transformer的標準注意力機制為全對全（all-pairs），計算複雜度為O(n²)，導致長上下文情境下計算成本爆炸。大多數token之間的互動實際上無意義，卻仍需全量計算。

SubQ採用全sub-quadratic sparse-attention（SSA）架構，僅關注少數關鍵token，大幅降低計算需求，使計算量直接減少接近1000倍。

該架構特別強化長上下文下的可靠檢索與多跳推理，針對企業真實場景（如完整代碼庫、長合約、跨文件研究）進行優化，而非僅追求基準分。

SubQ採用三階段訓練流程：預訓練 → SFT（少樣本微調）→ RL（強化學習），以確保在長上下文環境下仍能維持穩定與準確的推理能力。