debug 笔记:llama 3.2 部署bug 之cutlassF: no kernel found to launch!

1 问题描述

按照官方的写法

python 复制代码
import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

python 复制代码
torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

相关推荐
二哈赛车手6 小时前
新人笔记---ApiFox的一些常见使用出错
java·笔记·spring
解局易否结局6 小时前
FlashAttention 在昇腾NPU上的实现:从内存墙到IO感知
llama
xian_wwq8 小时前
【学习笔记】AGC协调控制系统概述
笔记·学习
x_yeyue9 小时前
三角形数
笔记·算法·数论·组合数学
憧憬成为java架构高手的小白10 小时前
docker学习笔记(基于b站多个视频学习)【未完结】
笔记·学习
RainCity11 小时前
Java Swing 自定义组件库分享(七)
java·笔记·后端
東隅已逝,桑榆非晚11 小时前
字符函数和字符串函数
c语言·笔记
Upsy-Daisy12 小时前
AI Agent 项目学习笔记(七):RAG 高级扩展——过滤检索、PgVector 与云知识库
人工智能·笔记·学习
智者知已应修善业13 小时前
【51单片机LED闪烁10次数码管显示0-9】2023-12-14
c++·经验分享·笔记·算法·51单片机
智者知已应修善业13 小时前
【51单片机2按键控制1个敞亮LED灯闪烁和熄灭】2023-11-3
c++·经验分享·笔记·算法·51单片机