debug 笔记:llama 3.2 部署bug 之cutlassF: no kernel found to launch!

1 问题描述

按照官方的写法

python 复制代码
import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

python 复制代码
torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

相关推荐
胡楚昊22 分钟前
第一届数证杯做题笔记(流量分析和手机取证)
笔记
Chunyyyen2 小时前
【第二十周】自然语言处理的学习笔记05
笔记·学习·自然语言处理
-雷阵雨-3 小时前
软件测试全解析:Bug生命周期与争议解决
bug
南林yan3 小时前
Bug: 升级内核后有线网络无法使用
bug
月巴月巴白勺合鸟月半3 小时前
一个DevExpress的Docx文件处理的Bug的解决
c#·bug
ao_lang3 小时前
软件测试-BUG篇
bug
技术小黑屋_4 小时前
Vibe Coding 真正的问题并不是 Bug
bug
利来利往4 小时前
lua table.remove引发的偶现bug
bug·lua·table.remove
星辰大海14125 小时前
摄影入门学习笔记
笔记·数码相机·学习
朝新_5 小时前
【SpringBoot】配置文件
java·spring boot·笔记·后端·spring·javaee