FlashAttention-4正式發佈:算法流水線大改,矩陣乘法級速度

FlashAttention-4正式發佈:算法流水線大改,矩陣乘法級速度

核心突破:注意力機制速度逼近矩陣乘法

FlashAttention 核心作者、普林斯頓大學助理教授 Tri Dao 表示,在 Blackwell GPU 上,即使瓶頸截然不同,注意力機制的執行速度現在也幾乎與矩陣乘法一樣快了!

性能提升與資源優化

  • 長/短上下文推理速度分別提升 2.8 倍、1.7 倍
  • 顯存佔用降低 40%
  • 顯著降低大模型推理成本

技術細節與實現

FlashAttention-4 重構了算法流水線,實現矩陣乘法級的注意力計算速度。通過細化任務切分,將計算任務分配到更多的線程塊和 warp 中,提高了計算資源的利用率,並優化了非矩陣乘法部分的計算,進一步提升了整體速度。

來源:https://36kr.com/p/3711195049046148

返回頂端