debug 笔记:llama 3.2 部署bug 之cutlassF: no kernel found to launch!

1 问题描述

按照官方的写法

python 复制代码
import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

python 复制代码
torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

相关推荐
为啥全要学7 分钟前
LLaMA-Factory 微调 Qwen2-7B-Instruct
llama·大模型微调·llamafactory
sz66cm1 小时前
Linux基础 -- SSH 流式烧录与压缩传输笔记
linux·笔记·ssh
开发游戏的老王3 小时前
[虚幻官方教程学习笔记]深入理解实时渲染(An In-Depth Look at Real-Time Rendering)
笔记·学习·虚幻
愚润求学4 小时前
【Linux】Ext系列文件系统
linux·运维·服务器·笔记
一把年纪学编程5 小时前
dify 连接不上ollama An error occurred during credentials validation:
llama
幸好我会魔法5 小时前
使用githubPage+hexo搭建个人博客
笔记·github
jackson凌5 小时前
【Java学习笔记】finalize方法
java·笔记·学习
能来帮帮蒟蒻吗6 小时前
VUE3 -综合实践(Mock+Axios+ElementPlus)
前端·javascript·vue.js·笔记·学习·ajax·typescript
XQ丶YTY6 小时前
大二java第一面小厂(挂)
java·开发语言·笔记·学习·面试
Always_away6 小时前
数据库系统概论|第七章:数据库设计—课程笔记
数据库·笔记·sql·学习