【python】flash-attn安装

这个命令:

确保使用正确的 CUDA 12.6 工具链

设置必要的 CUDA 环境变量

包含了常见的 GPU 架构支持

利用你的128核心进行并行编译

复制代码
# 清理之前的安装
proxychains4 pip uninstall -y flash-attn

# 获取 CUDA 路径
CUDA_PATH=$(dirname $(dirname $(which nvcc)))

# 使用 proxychains4 安装
CUDA_HOME=$CUDA_PATH \
TORCH_CUDA_ARCH_LIST="8.0;8.6;8.9;9.0" \
MAKEFLAGS="-j128" \
CMAKE_BUILD_PARALLEL_LEVEL=128 \
CMAKE_GENERATOR="Ninja" \
CFLAGS="-march=native -O3" \
CXXFLAGS="-march=native -O3" \
proxychains4 pip install flash-attn --no-build-isolation

# 如果上面失败,可以尝试这个备选命令(从源码安装)
CUDA_HOME=$CUDA_PATH \
TORCH_CUDA_ARCH_LIST="8.0;8.6;8.9;9.0" \
MAKEFLAGS="-j128" \
CMAKE_BUILD_PARALLEL_LEVEL=128 \
CMAKE_GENERATOR="Ninja" \
CFLAGS="-march=native -O3" \
CXXFLAGS="-march=native -O3" \
proxychains4 pip install git+https://github.com/Dao-AILab/flash-attention.git
相关推荐
Highcharts.js2 小时前
倒置百分比堆叠面积图表示列详解|Highcharts大气成分图表代码
开发语言·信息可视化·highcharts·图表开发·面积图·图表示例·推叠图
Li emily2 小时前
解决了加密货币api多币种订阅时的数据乱序问题
人工智能·python·api·fastapi
csdn_aspnet2 小时前
C语言 Lomuto分区算法(Lomuto Partition Algorithm)
c语言·开发语言·算法
晨曦中的暮雨2 小时前
4.15腾讯 CSIG云服务产线 一面
java·开发语言
2301_781571422 小时前
Golang格式化输出占位符都有什么_Golang fmt占位符教程【通俗】
jvm·数据库·python
存在morning2 小时前
【GO语言开发实践】二 GO 并发快速上手
大数据·开发语言·golang
asdzx672 小时前
使用 Python 为 PDF 添加页码 (详细教程)
python·pdf·页码
AI技术控2 小时前
《Transformers are Inherently Succinct》论文解读:从“能表达什么”到“多紧凑地表达”
人工智能·python·深度学习·机器学习·自然语言处理
xiaoerbuyu12333 小时前
开源Java 邮箱 基于SpringBoot+Vue前后端分离的电子邮件
java·开发语言
sparEE4 小时前
c++值类别、右值引用和移动语义
开发语言·c++