FlashAttention-4正式發佈:算法流水線大改,矩陣乘法級速度
核心突破:注意力機制速度逼近矩陣乘法
FlashAttention 核心作者、普林斯頓大學助理教授 Tri Dao 表示,在 Blackwell GPU 上,即使瓶頸截然不同,注意力機制的執行速度現在也幾乎與矩陣乘法一樣快了!
性能提升與資源優化
- 長/短上下文推理速度分別提升 2.8 倍、1.7 倍
- 顯存佔用降低 40%
- 顯著降低大模型推理成本
技術細節與實現
FlashAttention-4 重構了算法流水線,實現矩陣乘法級的注意力計算速度。通過細化任務切分,將計算任務分配到更多的線程塊和 warp 中,提高了計算資源的利用率,並優化了非矩陣乘法部分的計算,進一步提升了整體速度。
