沐曦MCX500安装llama factory

d.run算力云上沐曦显卡安装llama factory

沐曦显卡安装llama factory

修复MCX500容器初始化报错

溯源:

bash 复制代码
ls /etc/profile.d

应该是01-locale-fix.sh 、 conda.sh这两个文件导致的,首先用cat conda.sh

bash 复制代码
# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
__conda_setup="$('/opt/conda/bin/conda' 'shell.posix' 'hook' 2> /dev/null)"
if [ $? -eq 0 ]; then
    eval "$__conda_setup"
else
    if [ -f "/opt/conda/etc/profile.d/conda.sh" ]; then
        . "/opt/conda/etc/profile.d/conda.sh"
    else
        export PATH="/opt/conda/bin:$PATH"
    fi
fi
unset __conda_setup
# <<< conda initialize <<<

conda 崩溃不是"conda.sh 写错",而是 conda.sh + 算力平台 PATH 注入 + 重复激活 base,共同触发了 conda 在 reactivate 分支里的一个已知缺陷。

修复:

vim conda.sh ,将原本的内容覆盖写入以下信息

bash 复制代码
# >>> conda initialize (SAFE MODE) >>>

# 初始化 conda shell hook
__conda_setup="$('/opt/conda/bin/conda' 'shell.posix' 'hook' 2> /dev/null)"

if [ $? -eq 0 ]; then
    eval "$__conda_setup"
else
    if [ -f "/opt/conda/etc/profile.d/conda.sh" ]; then
        . "/opt/conda/etc/profile.d/conda.sh"
    else
        export PATH="/opt/conda/bin:$PATH"
    fi
fi

unset __conda_setup

# 🚫 关键:防止自动激活 base(避免 reactivate)
if [ "${CONDA_DEFAULT_ENV:-}" = "base" ]; then
    # 仅当是自动进来的 base,才主动清理
    unset CONDA_DEFAULT_ENV
    unset CONDA_PREFIX
    unset CONDA_SHLVL
fi
# <<< conda initialize (SAFE MODE) <<<

重启容器即可。

重启后就可以激活环境,如下图所示:

下载沐曦专业的pytorch

具体版本信息可以在平台上寻找:沐曦开发者里边的软件下载链接

使用命令下载:

bash 复制代码
wget -O maca-pytorch2.6-py310-3.3.0.2-x86_64.tar.xz "https://wheel-pub.oss-cn-shanghai.aliyuncs.com/mxc500/3.3.0.x/x86_64/maca-pytorch2.6-py310-3.3.0.2-x86_64.tar.xz?OSSAccessKeyId=LTAI5t8HeoJo71RpDsrCMZbQ&Expires=1770631270&Signature=Mw5eO8bl1nvAcePpzIb0JGIgpaY%3D"

下载完成,如下图所示:

解压文件:

bash 复制代码
tar -xJf maca-pytorch2.6-py310-3.3.0.2-x86_64.tar.xz

此时会解压到这个文件目录/root/3.3.0.2/wheel下,具体如下图所示:

此时创建并且激活环境:

bash 复制代码
conda create -n llama python=3.10
conda activate llama   

安装numpy为1.26.0版本:

bash 复制代码
pip install numpy==1.26.0

安装pytorch

bash 复制代码
cd /root/3.3.0.2/wheel
pip install torch-2.6.0+metax3.3.0.2-cp310-cp310-linux_x86_64.whl

导入环境变量

bash 复制代码
export MACA_PATH=/opt/maca
export LD_LIBRARY_PATH=${MACA_PATH}/lib:${MACA_PATH}/mxgpu_llvm/lib:${MACA_PATH}/ompi/lib:${LD_LIBRARY_PATH}
export MACA_CLANG_PATH=${MACA_PATH}/mxgpu_llvm/bin

在命令行中执行这个命令:

bash 复制代码
python -c "import torch; print(torch.ones(2).cuda())"

如下图所示,显示安装成功。

继续安装相关包:

bash 复制代码
pip install torchvision-0.15.1+metax3.3.0.2-cp310-cp310-linux_x86_64.whl 
pip install torchaudio-2.4.1+metax3.3.0.2-cp310-cp310-linux_x86_64.whl 
pip install torchcodec-0.6.0+metax3.3.0.2-cp310-cp310-linux_x86_64.whl 
pip install triton-3.0.0+metax3.3.0.2-cp310-cp310-linux_x86_64.whl 
pip install rotary_emb-0.1+metax3.3.0.2torch2.6-cp310-cp310-linux_x86_64.whl
pip install xentropy_cuda_lib-0.1+metax3.3.0.2torch2.6-cp310-cp310-linux_x86_64.whl 
pip install flash_attn-2.6.3+metax3.3.0.2torch2.6-cp310-cp310-linux_x86_64.whl 

安装llama factory

下载llama factory, 安装环境

bash 复制代码
 apt update
 apt install -y git
git clone https://gh.llkk.cc/https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
git checkout v0.9.3
pip install -e .

检验是否安装成功

bash 复制代码
llamafactory-cli env

安装成功的显示结果如下:

参考内容

  1. https://blog.csdn.net/qq_38161074/article/details/154992388
相关推荐
OpenBayes贝式计算9 分钟前
教程上新丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控
人工智能·深度学习·机器学习
CoovallyAIHub23 分钟前
开源:YOLO最强对手?D-FINE目标检测与实例分割框架深度解析
人工智能·算法·github
用户2576595759091 小时前
当人类知识学会自己奔跑--skill
人工智能
个入资料3 小时前
阿里云ecs+飞书搭建openclaw
人工智能
孤烟4 小时前
【RAG 实战系列 02】检索精度翻倍!混合检索(稀疏 + 稠密)实战教程
人工智能·llm
明明如月学长4 小时前
OpenClaw 帮我睡后全自动完成了老板交代的任务
人工智能
深藏blue474 小时前
GPT-5.3 Instant 重磅上线!2026最新 ChatGPT 告别说教,国内使用与 Plus 升级教程
gpt·chatgpt·openai
uuware4 小时前
Lupine.Press + AI 助您分分钟搞定技术项目的文档网站
人工智能·前端框架
海上日出5 小时前
使用 QuantStats 进行投资组合绩效分析:Python 量化实战指南
人工智能
Qinana5 小时前
150行代码搞定私有知识库!Node.js + LangChain 打造最小化 RAG 系统全流程
人工智能·程序员·node.js