debug 笔记:llama 3.2 部署bug 之cutlassF: no kernel found to launch!

1 问题描述

按照官方的写法

python 复制代码
import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

python 复制代码
torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

相关推荐
nianniannnn1 小时前
Eigen 矩阵操作笔记
c++·笔记·线性代数·矩阵
红石榴花生油1 小时前
RBAC权限配置 核心笔记
数据库·windows·笔记
玩具猴_wjh1 小时前
11.29 学习笔记
笔记·学习
zore_c1 小时前
【C语言】数据在内存中的存储(超详解)
c语言·开发语言·数据结构·经验分享·笔记
摇滚侠2 小时前
零基础小白自学Git_Github教程,Git 四个分区的概念,笔记11
笔记·git·github
不败公爵2 小时前
Git的工作机制
笔记·git·stm32
Philtell2 小时前
【动手学深度学习】笔记
人工智能·笔记·深度学习
玩具猴_wjh2 小时前
11.30 学习笔记
笔记·学习
卡提西亚2 小时前
数据库笔记-0-MYSQL安装
数据库·笔记·sql
ljt27249606612 小时前
Compose笔记(五十九)--BadgedBox
android·笔记·android jetpack