Python系列Bug修复PyCharm控制台pip install报错:如何解决 pip install flash-attention 报错 需要 SM_80+(Ampere)架构 问题
摘要
"明明代码没问题,pip install 却死活装不上?"
在 AI 大模型开发中,Flash Attention 已成为加速 Transformer 训练的必备组件。然而在 PyCharm 控制台 执行 pip install flash-attention 时,很多开发者会遇到 RuntimeError: FlashAttention only supports Ampere GPUs or newer (sm >= 80) 或 No kernel image is available for execution on the device 等架构不兼容报错。这类错误不仅涉及 Python 包管理 的常见问题(网络、依赖、路径等),更深层的原因是 GPU 计算能力(Compute Capability) 的硬件限制。本文将从 PyCharm 环境配置 到 CUDA 架构原理,超详细拆解 12 种常见安装失败场景,并提供针对性解决方案,助你彻底攻克这一"硬骨头"。
文章目录
- [Python系列Bug修复PyCharm控制台pip install报错:如何解决 pip install flash-attention 报错 需要 SM_80+(Ampere)架构 问题](#Python系列Bug修复PyCharm控制台pip install报错:如何解决 pip install flash-attention 报错 需要 SM_80+(Ampere)架构 问题)
-
- 摘要
- 开发环境
- [一、问题现象全景:PyCharm 控制台 12 类典型报错](#一、问题现象全景:PyCharm 控制台 12 类典型报错)
-
- [1.1 软件配置类错误(常规 pip 问题)](#1.1 软件配置类错误(常规 pip 问题))
- [1.2 硬件架构类错误(本文核心)](#1.2 硬件架构类错误(本文核心))
- [二、深度排查:Flash Attention 安装诊断流程](#二、深度排查:Flash Attention 安装诊断流程)
-
- [2.1 快速自检命令](#2.1 快速自检命令)
- [三、通用 pip 问题解决方案(软件层)](#三、通用 pip 问题解决方案(软件层))
-
- [3.1 网络问题:切换国内镜像源](#3.1 网络问题:切换国内镜像源)
-
- [方案 A:命令行临时指定(适合一次性安装)](#方案 A:命令行临时指定(适合一次性安装))
- [方案 B:全局配置文件(推荐)](#方案 B:全局配置文件(推荐))
- [3.2 包名与导入名不一致问题](#3.2 包名与导入名不一致问题)
- [3.3 缺少 init.py 导致的导入失败](#3.3 缺少 init.py 导致的导入失败)
- [3.4 PYTHONPATH 配置问题](#3.4 PYTHONPATH 配置问题)
- [3.5 pip 版本升级](#3.5 pip 版本升级)
- [四、核心攻坚:SM_80+ 架构限制详解与应对策略](#四、核心攻坚:SM_80+ 架构限制详解与应对策略)
-
- [4.1 什么是 SM_80?GPU 架构代际科普](#4.1 什么是 SM_80?GPU 架构代际科普)
- [4.2 确认你的 GPU 计算能力](#4.2 确认你的 GPU 计算能力)
- [4.3 架构不兼容的 4 种应对策略](#4.3 架构不兼容的 4 种应对策略)
-
- [策略 1:使用 PyTorch 原生 SDPA(推荐)](#策略 1:使用 PyTorch 原生 SDPA(推荐))
- [策略 2:HuggingFace 模型设置 attn_implementation](#策略 2:HuggingFace 模型设置 attn_implementation)
- [策略 3:使用 xFormers 作为替代](#策略 3:使用 xFormers 作为替代)
- [策略 4:降级使用 Flash Attention v1(有限支持)](#策略 4:降级使用 Flash Attention v1(有限支持))
- [4.4 对于 Ampere+ GPU 但编译失败的情况](#4.4 对于 Ampere+ GPU 但编译失败的情况)
-
- [4.4.1 安装前置依赖](#4.4.1 安装前置依赖)
- [4.4.2 限制并行编译任务数(防内存不足)](#4.4.2 限制并行编译任务数(防内存不足))
- [4.4.3 使用预编译 Wheel(避免本地编译)](#4.4.3 使用预编译 Wheel(避免本地编译))
- [五、PyCharm 环境特定问题排查](#五、PyCharm 环境特定问题排查)
-
- [5.1 Virtualenv vs Conda 环境混淆](#5.1 Virtualenv vs Conda 环境混淆)
- [5.2 PyCharm 缓存导致的诡异问题](#5.2 PyCharm 缓存导致的诡异问题)
- [5.3 相对导入与绝对导入混淆](#5.3 相对导入与绝对导入混淆)
- [六、总结对照表:12 种错误与解决方案速查](#六、总结对照表:12 种错误与解决方案速查)
- [七、Mermaid 状态图:GPU 架构兼容性决策](#七、Mermaid 状态图:GPU 架构兼容性决策)
- 八、最佳实践与预防建议
-
- [8.1 环境隔离黄金法则](#8.1 环境隔离黄金法则)
- [8.2 PyCharm 项目模板配置](#8.2 PyCharm 项目模板配置)
- [8.3 自动化架构检查脚本](#8.3 自动化架构检查脚本)
- 温馨提示🔔
- 作者✍️名片

开发环境
在开始排查之前,先确认本文的基准开发环境,便于对照定位:
| 环境组件 | 版本/型号 | 说明 |
|---|---|---|
| 操作系统 | macOS Sonoma 14.x / Linux Ubuntu 22.04 | 本文主要在 macOS 下演示,Linux 方案同样适用 |
| Python | 3.10 / 3.11 | 推荐使用 3.10+ 以获得更好的兼容性 |
| IDE | PyCharm 2025.1 Professional | 集成了全新的 Python 包管理工具链 |
| GPU | NVIDIA RTX 4090 / A100 / V100 | 用于验证不同架构兼容性 |
| CUDA | 12.4 / 11.8 | 根据 PyTorch 版本灵活切换 |
| PyTorch | 2.4.0 / 2.5.0 | 需与 CUDA 版本严格匹配 |
💡 特别注意 :如果你使用的是 GTX 1080、RTX 2080 等 Turing/Pascal 架构显卡 ,将会遇到本文重点解决的 SM_80+ 架构限制 问题。
一、问题现象全景:PyCharm 控制台 12 类典型报错
在 PyCharm 的 Terminal 或 Python Console 中执行 pip install flash-attn 时,可能遇到以下多种错误形态。我们将它们分为 软件配置类 和 硬件架构类 两大阵营:
1.1 软件配置类错误(常规 pip 问题)
| 错误类型 | 典型报错信息 | 快速定位 |
|---|---|---|
| 网络超时 | ReadTimeoutError: HTTPSConnectionPool(host='pypi.org') |
国内源未配置 |
| 包名错误 | ERROR: Could not find a version that satisfies the requirement flash-attention |
应为 flash-attn |
| 依赖冲突 | Cannot install flash-attn and torch==2.4.0 because these package versions have conflicting dependencies |
PyTorch/CUDA 版本不匹配 |
| 编译内存不足 | gcc: fatal error: Killed signal terminated program cc1plus |
物理内存 < 96GB 且未限制并行度 |
| 缺少构建工具 | RuntimeError: Couldn't find ninja 或 packaging 未安装 |
前置依赖缺失 |
1.2 硬件架构类错误(本文核心)
| 错误类型 | 典型报错信息 | 关键线索 |
|---|---|---|
| SM_80 架构限制 | RuntimeError: FlashAttention only supports Ampere GPUs or newer (sm >= 80) |
GPU 架构低于 Ampere(CC < 8.0) |
| 内核镜像缺失 | RuntimeError: no kernel image is available for execution on the device |
CUDA 编译的架构与实际 GPU 不匹配 |
| CUDA 版本不符 | FlashAttention requires CUDA 12.0+ |
当前 CUDA 版本过低 |
| 计算能力不匹配 | FlashAttention only supports NVIDIA GPUs with compute capability >= 7.0, but your GPU has compute capability 6.1 |
旧显卡(如 GTX 1060/1080) |
二、深度排查:Flash Attention 安装诊断流程
遇到安装失败时,建议按照以下流程进行系统性排查。这个流程图涵盖了从 环境检查 到 架构验证 的完整路径:
GPU硬件 系统环境 PyCharm Terminal 开发者 GPU硬件 系统环境 PyCharm Terminal 开发者 alt [内存不足] [依赖缺失] [一切正常] alt [CC < 8.0 (如 GTX 1080)] [CC >= 8.0 (如 RTX 3090)] alt [pip 版本过低] [网络不通] [基础检查通过] 执行 pip install flash-attn 检查 pip 版本 & 网络连接 提示 upgrade pip ERROR: pip 版本不足 连接 PyPI 超时 Timeout Error 检查 CUDA & PyTorch 返回版本信息 查询 GPU 计算能力 sm_61 / sm_75 RuntimeError: SM_80+ required ❌ sm_86 / sm_89 / sm_90 开始编译/安装 OOM killed gcc fatal error ninja not found Build failed 编译成功 Successfully installed ✅
2.1 快速自检命令
在 PyCharm Terminal 中依次执行以下命令,快速定位问题层级:
bash
# 1. 检查 pip 版本(建议 24.0+)
pip --version
# 2. 检查 Python 版本
python --version
# 3. 检查 PyTorch 和 CUDA 版本
python -c "import torch; print(f'PyTorch: {torch.__version__}'); print(f'CUDA: {torch.version.cuda}'); print(f'可用: {torch.cuda.is_available()}')"
# 4. 【关键】检查 GPU 计算能力(Compute Capability)
nvidia-smi --query-gpu=name,compute_capability --format=csv
# 5. 检查 nvcc 编译器版本
nvcc --version
输出示例解读:
text
name, compute_capability
NVIDIA GeForce RTX 4090, 8.9 ✅ 支持 Flash Attention (SM_89)
NVIDIA GeForce RTX 3090, 8.6 ✅ 支持 Flash Attention (SM_86)
NVIDIA A100-SXM4-40GB, 8.0 ✅ 支持 Flash Attention (SM_80)
NVIDIA GeForce RTX 2080 Ti, 7.5 ❌ 不支持(低于 SM_80)
NVIDIA GeForce GTX 1080, 6.1 ❌ 不支持(低于 SM_80)
三、通用 pip 问题解决方案(软件层)
在深入 GPU 架构问题之前,先排除常见的软件配置错误。以下方案覆盖了 80% 的安装失败场景:
3.1 网络问题:切换国内镜像源
当 PyCharm 控制台出现 Connection timeout 或 Read timed out 时,配置国内源是首选方案:
方案 A:命令行临时指定(适合一次性安装)
bash
# 清华源
pip install flash-attn --no-build-isolation -i https://pypi.tuna.tsinghua.edu.cn/simple
# 或阿里云
pip install flash-attn --no-build-isolation -i https://mirrors.aliyun.com/pypi/simple/
方案 B:全局配置文件(推荐)
根据操作系统,创建或修改 pip 配置文件:
macOS/Linux 路径 :~/.pip/pip.conf 或 ~/.config/pip/pip.conf
Windows 路径 :%APPDATA%\pip\pip.ini
ini
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
trusted-host = pypi.tuna.tsinghua.edu.cn
[install]
use-mirrors = true
mirrors = https://pypi.tuna.tsinghua.edu.cn
📌 PyCharm 特别提示 :在 Settings → Project → Python Interpreter → pip 中,点击 "+" 添加包时,可以勾选 "Options" 并填入
-i https://pypi.tuna.tsinghua.edu.cn/simple。
3.2 包名与导入名不一致问题
很多开发者困惑:安装时用的名字和 import 时不一样!
| 安装命令 | 正确的 import 语句 | 常见错误 |
|---|---|---|
pip install flash-attn |
import flash_attn |
import flash-attention ❌ |
pip install python-dateutil |
import dateutil |
import python-dateutil ❌ |
pip install Pillow |
from PIL import Image |
import Pillow ❌ |
解决方案 :安装前到 PyPI 官网 确认包名,安装后使用 pip list | grep flash 验证实际安装的包名。
3.3 缺少 init.py 导致的导入失败
如果你是在开发 自定义本地包 并尝试在 PyCharm 中导入,可能会遇到 ModuleNotFoundError。
项目结构标准模板:
my_project/
├── src/
│ └── my_package/
│ ├── __init__.py # 必须存在,可为空
│ ├── core.py
│ └── utils.py
├── tests/
└── pyproject.toml
💡 Python 3.3+ 隐式命名空间包 允许没有
__init__.py,但建议显式添加以避免 IDE 和运行时行为不一致。
3.4 PYTHONPATH 配置问题
PyCharm 运行脚本时,若提示 ModuleNotFoundError: No module named 'xxx',可能是项目根目录未加入 Python 路径:
解决方案 1(项目级) :
PyCharm → Run → Edit Configurations → Environment variables → 添加:
PYTHONPATH=/path/to/your/project_root:$PYTHONPATH
解决方案 2(代码级临时添加):
python
import sys
import os
sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), '..')))
解决方案 3(使用 PYTHONPATH 管理工具):
bash
# 在项目根目录执行,临时生效
export PYTHONPATH="${PYTHONPATH}:$(pwd)"
3.5 pip 版本升级
旧版 pip 可能无法正确解析 pyproject.toml 格式的依赖:
bash
# 升级 pip 本身
python -m pip install --upgrade pip
# 同时升级 setuptools 和 wheel
pip install --upgrade setuptools wheel
四、核心攻坚:SM_80+ 架构限制详解与应对策略
这是本文的重中之重。当你在 PyCharm 控制台看到 sm >= 80 或 Ampere GPUs 相关报错时,说明你的 GPU 计算能力(Compute Capability)低于 8.0。
4.1 什么是 SM_80?GPU 架构代际科普
SM(Streaming Multiprocessor) 是 NVIDIA GPU 的核心计算单元。每一代 GPU 架构都有对应的计算能力版本号:
| 架构代号 | 计算能力 | 代表显卡 | Flash Attention 支持 |
|---|---|---|---|
| Ampere | 8.0, 8.6, 8.7, 8.9 | A100, RTX 3090, RTX 4090, RTX 4080 | ✅ 原生支持 |
| Ada Lovelace | 8.9 | RTX 4090, RTX 4080, RTX 4070 | ✅ 原生支持 |
| Hopper | 9.0 | H100, H200 | ✅ 原生支持 |
| Blackwell | 10.x | RTX 5090 (未来) | ✅ 预期支持 |
| Turing | 7.5 | RTX 2080, RTX 2070, T4 | ❌ 不支持 |
| Pascal | 6.0, 6.1 | GTX 1080, GTX 1070, P100 | ❌ 不支持 |
| Volta | 7.0 | V100 | ⚠️ 部分版本支持(需验证) |
关键结论 :Flash Attention v2 及以上版本 硬性要求 Compute Capability >= 8.0(即 Ampere 架构及以上)。这是底层 CUDA 内核的编译限制,与软件版本无关 。
4.2 确认你的 GPU 计算能力
在 PyCharm Terminal 中执行:
bash
# 查看 GPU 型号和计算能力
nvidia-smi --query-gpu=name,compute_capability,memory.total --format=table
# 或 Python 方式检查
python -c "import torch; print(f'GPU: {torch.cuda.get_device_name(0)}'); print(f'CC: {torch.cuda.get_device_capability(0)}')"
示例输出分析:
text
+-------------------------------+----------------------+--------------+
| name | compute_capability | memory.total |
+===============================+======================+==============+
| NVIDIA GeForce RTX 2080 Ti | 7.5 | 11264 MiB |
+-------------------------------+----------------------+--------------+
若显示 7.5,则 任何版本的 Flash Attention v2 都无法在该 GPU 上运行 。
4.3 架构不兼容的 4 种应对策略
如果你的 GPU 计算能力低于 8.0,以下方案可替代 Flash Attention:
策略 1:使用 PyTorch 原生 SDPA(推荐)
PyTorch 2.0+ 内置了 scaled_dot_product_attention,它会自动选择合适的底层实现(包括 Flash Attention、Memory Efficient Attention 或 Math):
python
import torch
import torch.nn.functional as F
# 强制使用 math 后端(兼容所有 GPU)
with torch.backends.cuda.sdp_kernel(enable_flash=False, enable_math=True, enable_mem_efficient=False):
output = F.scaled_dot_product_attention(q, k, v)
# 或者让 PyTorch 自动选择最佳实现(如果硬件支持 Flash,会自动使用)
output = F.scaled_dot_product_attention(q, k, v)
📌 这是 90% 成功率 的解决方案,无需安装 flash-attn,且兼容性最佳 。
策略 2:HuggingFace 模型设置 attn_implementation
如果你在使用 Transformers 库加载大模型:
python
from transformers import AutoModelForCausalLM
# 设置 eager 或 sdpa 注意力实现,跳过 flash attention
model = AutoModelForCausalLM.from_pretrained(
"meta-llama/Llama-2-7b-hf",
attn_implementation="sdpa", # 或 "eager"
torch_dtype=torch.float16,
device_map="auto"
)
策略 3:使用 xFormers 作为替代
xFormers 提供了 memory_efficient_attention,对旧 GPU 更友好:
bash
# 安装 xformers(通常预编译包兼容性更好)
pip install xformers
使用方式:
python
from xformers.ops import memory_efficient_attention
# 替代 flash attention
output = memory_efficient_attention(q, k, v)
策略 4:降级使用 Flash Attention v1(有限支持)
极少数情况下,如果你有 Volta 架构(V100, CC 7.0),可尝试旧版本:
bash
# 仅适用于特定老版本和特定 CUDA 组合
pip install flash-attn==1.0.9 --no-build-isolation
⚠️ 警告 :v1 功能有限且可能引发
flash_attn_varlen_qkvpacked_func等方法缺失错误 ,强烈建议使用策略 1-3 替代。
4.4 对于 Ampere+ GPU 但编译失败的情况
如果你确认 GPU 是 RTX 3090/4090/A100 等(CC >= 8.0),但仍安装失败,通常是 编译环境问题:
4.4.1 安装前置依赖
bash
# 必须安装 ninja 加速编译,packaging 用于版本检查
pip install ninja packaging
# 验证 ninja 工作正常
ninja --version
echo $? # 应返回 0
若 ninja --version 返回非零退出码,重装:
bash
pip uninstall -y ninja && pip install ninja
4.4.2 限制并行编译任务数(防内存不足)
Flash Attention 编译需要大量内存。若机器内存 < 96GB,限制并行度:
bash
# 限制 4 个并行任务(根据内存调整,每任务约需 4-8GB)
MAX_JOBS=4 pip install flash-attn --no-build-isolation
4.4.3 使用预编译 Wheel(避免本地编译)
根据你的 PyTorch 和 CUDA 版本,直接下载预编译包:
bash
# 示例:CUDA 12.1 + PyTorch 2.5 + Python 3.11
pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.5cxx11abiFALSE-cp311-cp311-linux_x86_64.whl
📋 可用版本列表参考 Flash Attention GitHub Releases。
五、PyCharm 环境特定问题排查
PyCharm 的隔离环境有时会导致与系统环境不一致的问题:
5.1 Virtualenv vs Conda 环境混淆
症状 :PyCharm Terminal 中 pip list 与系统终端显示不同。
解决方案:
- 确认 PyCharm 右下角 Python Interpreter 选择的是目标环境
- 在 PyCharm Terminal 中执行
which python验证路径 - 如需使用 Conda,在 PyCharm Settings → Tools → Terminal 中设置 Shell path 为
/bin/zsh -i(加载 shell 配置)
5.2 PyCharm 缓存导致的诡异问题
当修改 PYTHONPATH 或安装新包后,PyCharm 可能仍使用旧缓存:
清理缓存快捷键:
File → Invalidate Caches... → Invalidate and Restart
5.3 相对导入与绝对导入混淆
在 PyCharm 中运行脚本时,相对导入(from . import module)可能报错 ImportError: attempted relative import with no known parent package。
正确做法:
- 将项目根目录标记为 Sources Root(右键文件夹 → Mark Directory as → Sources Root)
- 使用绝对导入:
from my_package import module
六、总结对照表:12 种错误与解决方案速查
| 序号 | 错误现象 | 根因 | 解决方案 | 复杂度 |
|---|---|---|---|---|
| 1 | ModuleNotFoundError: No module named 'flash_attn' |
包未安装 | pip install flash-attn --no-build-isolation |
⭐ |
| 2 | ReadTimeoutError |
网络问题 | 配置国内镜像源(清华/阿里) | ⭐ |
| 3 | Could not find a version... |
包名错误 | 正确名称为 flash-attn 而非 flash-attention |
⭐ |
| 4 | No module named 'xxx'(自建包) |
缺少 __init__.py |
在包目录添加空 __init__.py |
⭐ |
| 5 | ModuleNotFoundError(路径问题) |
PYTHONPATH 未设置 | 在 PyCharm Run Config 中添加 PYTHONPATH | ⭐⭐ |
| 6 | ImportError: attempted relative import |
相对导入使用不当 | 改用绝对导入或标记 Sources Root | ⭐⭐ |
| 7 | pip version outdated |
pip 版本过低 | python -m pip install --upgrade pip |
⭐ |
| 8 | ninja not found |
编译依赖缺失 | pip install ninja packaging |
⭐ |
| 9 | gcc fatal error: Killed |
编译内存不足 | MAX_JOBS=2 pip install flash-attn |
⭐⭐ |
| 10 | CUDA error: no kernel image... |
CUDA 版本不匹配 | 安装与 PyTorch 匹配的 CUDA 版本 | ⭐⭐⭐ |
| 11 | FlashAttention requires CUDA 12.0+ |
CUDA 版本过低 | 升级 CUDA 或安装旧版 flash-attn | ⭐⭐ |
| 12 | sm >= 80 required / Ampere GPUs |
GPU 架构不支持 | 使用 SDPA / xformers / eager attention 替代 | ⭐⭐⭐ |
七、Mermaid 状态图:GPU 架构兼容性决策
开始安装 flash-attn
nvidia-smi查询
>= 8.0 (Ampere+) < 8.0 (Turing/Pascal)
pip install flash-attn
内存/依赖问题
MAX_JOBS=4
硬件限制无法突破
PyTorch原生 scaled_dot_product_attention
memory_efficient_attention
HuggingFace attn_implementation='eager'
检查GPU型号
计算能力CC
CC_80_plus
CC_75_minus
安装成功
编译失败
限制并行度
使用替代方案
SDPA
xFormers
Eager
运行成功

八、最佳实践与预防建议
8.1 环境隔离黄金法则
"永远不要在大模型训练环境中直接 pip install!"
bash
# 1. 创建独立环境(推荐 conda)
conda create -n llm-dev python=3.10 -y
conda activate llm-dev
# 2. 先安装 PyTorch(指定 CUDA 版本)
conda install pytorch==2.4.0 torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
# 3. 验证 PyTorch 能看到 GPU
python -c "import torch; print(torch.cuda.is_available())" # 应输出 True
# 4. 最后安装 flash-attn(如果硬件支持)
pip install flash-attn --no-build-isolation
8.2 PyCharm 项目模板配置
在 PyCharm 中保存一套 Run Configuration Template:
- Environment variables :
PYTHONPATH=/project/root:/project/root/src:$PYTHONPATH - Working directory: 设置为项目根目录
- Python Interpreter: 指向 conda env 或 venv 的 python
8.3 自动化架构检查脚本
在项目中添加 check_env.py:
python
#!/usr/bin/env python3
"""环境检查脚本:验证 GPU 是否支持 Flash Attention"""
import sys
import torch
def check_gpu():
if not torch.cuda.is_available():
print("❌ CUDA 不可用")
return False
gpu_name = torch.cuda.get_device_name(0)
cc = torch.cuda.get_device_capability(0)
cc_major, cc_minor = cc
cc_value = cc_major * 10 + cc_minor
print(f"GPU: {gpu_name}")
print(f"Compute Capability: {cc_major}.{cc_minor} (SM_{cc_value})")
if cc_value >= 80:
print("✅ 支持 Flash Attention v2")
return True
else:
print("⚠️ 不支持 Flash Attention v2,建议使用 PyTorch SDPA 替代")
return False
if __name__ == "__main__":
check_gpu()
温馨提示🔔
更多 Bug 解决方案请查看 ==> 全栈 Bug 解决方案专栏 https://blog.csdn.net/lyzybbs/category_12988910.html
如果你在实践过程中遇到本文未覆盖的异常情况,欢迎在评论区留言,我会持续更新补充!记得 点赞+收藏+关注 三连支持,你的支持是我持续输出高质量技术内容的动力!🚀
作者✍️名片

📌 版权声明 :本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
💬 评论区互动:你在安装 Flash Attention 时还遇到过哪些奇葩报错?欢迎在评论区分享你的踩坑经历!