【FlashAttention 在昇腾 CANN 上的实现原理与性能优化】上周帮同事调一个 7B 模型的推理流水线,latency 卡在 attention 算子上出不来。他说 GPU 上跑得好好的,换到昇腾 NPU 上就慢了一截。我看了一眼算子实现——直接把整块 attention 扔给 CANN 的 ops-transformer 仓库跑了事,连 tiling 策略都没调。这不行。FlashAttention 在昇腾 CANN 上的行为跟 GPU 完全不是一套逻辑,不搞清楚 Cube 和 Vector 怎么分工、数据怎么搬,性能根本出不来。