FlashAttention-4正式發佈：算法流水線大改，矩陣乘法級速度

核心突破：注意力機制速度逼近矩陣乘法

FlashAttention 核心作者、普林斯頓大學助理教授 Tri Dao 表示，在 Blackwell GPU 上，即使瓶頸截然不同，注意力機制的執行速度現在也幾乎與矩陣乘法一樣快了！

FlashAttention-4 重構了算法流水線，實現矩陣乘法級的注意力計算速度。通過細化任務切分，將計算任務分配到更多的線程塊和 warp 中，提高了計算資源的利用率，並優化了非矩陣乘法部分的計算，進一步提升了整體速度。