debug 笔记:llama 3.2 部署bug 之cutlassF: no kernel found to launch!

1 问题描述

按照官方的写法

python 复制代码
import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

python 复制代码
torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

相关推荐
Dann Hiroaki1 小时前
笔记分享: 哈尔滨工业大学CS31002编译原理——02. 语法分析
笔记·算法
KhalilRuan1 小时前
Unity-MMORPG内容笔记-其三
笔记
kfepiza3 小时前
Debian的`/etc/network/interfaces`的`allow-hotplug`和`auto`对比讲解 笔记250704
linux·服务器·网络·笔记·debian
I'm写代码6 小时前
el-tree树形结构笔记
javascript·vue.js·笔记
Andy杨7 小时前
20250707-4-Kubernetes 集群部署、配置和验证-K8s基本资源概念初_笔记
笔记·容器·kubernetes
UQI-LIUWJ9 小时前
李宏毅LLM笔记: AI Agent
人工智能·笔记
ouliten9 小时前
cuda编程笔记(6)--流
笔记
Love__Tay10 小时前
笔记/云计算基础
笔记·学习·云计算
李元豪10 小时前
【行云流水ai笔记】粗粒度控制:推荐CTRL、GeDi 细粒度/多属性控制:推荐TOLE、GPT-4RL
人工智能·笔记
特种加菲猫12 小时前
指尖上的魔法:优雅高效的Linux命令手册
linux·笔记