debug 笔记：llama 3.2 部署bug 之cutlassF: no kernel found to launch!

UQI-LIUWJ2025-03-28 13:51

1 问题描述

按照官方的写法

python 复制代码

import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

python 复制代码

torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

上一篇：做定时任务，一定要用这个神库！！

下一篇：Three.js 实现 GeoJSON 地图