debug 笔记:llama 3.2 部署bug 之cutlassF: no kernel found to launch!

1 问题描述

按照官方的写法

python 复制代码
import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

python 复制代码
torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

相关推荐
Yu_Lijing12 分钟前
基于C++的《Head First设计模式》笔记——生成器模式
c++·笔记·设计模式
次旅行的库23 分钟前
【问渠哪得清如许-数据分析】学习笔记-下
数据库·笔记·sql·学习
万粉变现经纪人27 分钟前
如何解决 pip install cx_Oracle 报错 未找到 Oracle Instant Client 问题
数据库·python·mysql·oracle·pycharm·bug·pip
夏星印1 小时前
学习吴恩达课程机器学习笔记
人工智能·笔记·学习·机器学习·ai
xuansec1 小时前
PHP 反序列化漏洞学习笔记(CTF向总结)
笔记·学习·php
sheeta19981 小时前
LeetCode 每日一题笔记 2025.03.20 3567.子矩阵的最小绝对差
笔记·leetcode·矩阵
苦瓜小生1 小时前
【黑马点评学习笔记 | 实战篇 】| 7-达人探店
redis·笔记·后端·学习
421!2 小时前
ESP32学习笔记之UART
笔记·学习·嵌入式·esp32·通信
诸葛思颖2 小时前
【论文阅读笔记】《Bayesian Nonparametric Federated Learning of Neural Networks》
笔记
庞轩px2 小时前
面经分享1
java·笔记·面试