debug 笔记:llama 3.2 部署bug 之cutlassF: no kernel found to launch!

1 问题描述

按照官方的写法

python 复制代码
import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

python 复制代码
torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

相关推荐
mex_wayne2 小时前
强化学习课程:stanford_cs234 学习笔记(2)introduction to RL
笔记·学习
取个名字真难呐2 小时前
GAN随手笔记
人工智能·笔记·生成对抗网络
孞㐑¥2 小时前
Linux之权限问题
linux·经验分享·笔记
郭涤生2 小时前
全书测试:《C++性能优化指南》
开发语言·c++·笔记·性能优化
DjangoJason2 小时前
操作系统 :进程概念
linux·笔记·ubuntu
大桶矿泉水4 小时前
RK3588使用笔记:系统联网配置
笔记·rtl8723bu·usb wifi linux·网络共享到linux·linux配网
爱听歌的周童鞋4 小时前
理解llama.cpp如何进行LLM推理
llm·llama·llama.cpp·inference
花之亡灵4 小时前
.net 6 + vue3中使用SignaIR实现双向通信功能
前端·javascript·笔记·websocket·.net·信息与通信
大白曾是少年4 小时前
【Java进阶学习 第十篇】递归和异常
java·笔记·学习
【云轩】4 小时前
《边缘计算风云录:FPGA与MCU的算力之争》
笔记·嵌入式硬件