不加一塊GPU，多榨出15%算力：大模型圈對網絡“動刀”

產業轉向：從堆積硬體到挖掘效率

過去兩年，整個行業在算力軍備競賽中的標準動作僅有一個：買更多GPU，建更大集群，堆更高算力。現在，這條路徑正在被重新審視。

對一家服務上百萬開發者的大型模型API平臺來說，這意味著同一套硬體基礎設施，每秒能多扛15%的併發請求，流量洪峰下的排隊等待時間大幅縮短。同時，P99尾延遲的40%也得以改善。

這場從「堆硬體」向「挖效率」的轉向，正在對上游供應鏈產生實質影響。例如，ZCube架構所需的交換機和光模組數量比原有方案少了三分之一。

財聯社報導指出，這項變革已引起產業廣泛關注，並被視為AI算力發展的新方向。專家認為，未來將更重視系統設計與資源調度效率，而非單純增加硬體數量。