华为atlas800T 算力服务器基础环境搭建指南-910b算力卡

第一步先去安装固件和驱动,下载对应版本

执行如下命令,切换至root用户。

bash 复制代码
su - root

执行如下命令,进入软件包所在路径(如"/opt")。

bash 复制代码
cd /opt

执行如下命令,增加软件包的可执行权限。

bash 复制代码
chmod +x Ascend-hdk-310b-npu-driver_x.x.x_linux-{arch}.run

执行如下命令,校验run安装包的一致性和完整性。

bash 复制代码
./Ascend-hdk-310b-npu-driver_x.x.x_linux-{arch}.run --check

若出现如下回显信息,表示软件包校验成功。

bash 复制代码
Verifying archive integrity...  100%   SHA256 checksums are OK. All good.

执行如下命令,完成驱动安装,软件包默认安装路径为"/usr/local/Ascend"。

bash 复制代码
./Ascend-hdk-310b-npu-driver_x.x.x_linux-{arch}.run --full

说明

安装详细日志路径:/var/log/ascend_seclog/ascend_install.log。

安装后软件包的安装路径、安装命令以及运行用户信息记录路径为"/etc/ascend_install.info"。

安装run包驱动时,会将动态库libdcmi.so和头文件dcmi_interface_api.h拷贝到"/usr/local/dcmi/"目录下。

安装CANN

注意,npu固件和驱动,不等于CANN

下载toolkit

bash 复制代码
chmod +x Ascend-cann-toolkit_8.3.RC1.alpha002_linux-aarch64.run
./Ascend-cann-toolkit_8.3.RC1.alpha002_linux-aarch64.run --install

安装成功

测试python3 -c "import torch;import torch_npu; a = torch.randn(3, 4).npu(); print(a + a);"

失败了,检查发现是CANN版本不一致导致,toolkit的版本是8.3,驱动的版本是8.0.0

重新安装

bash 复制代码
Driver:   Installed in /usr/local/Ascend/driver.
Toolkit:  Ascend-cann-toolkit_8.0.0_linux-aarch64 install success, installed in /usr/local/Ascend.

Please make sure that the environment variables have been configured.
-  To take effect for all users, you can add "source /usr/local/Ascend/ascend-toolkit/set_env.sh" to /etc/profile.
-  To take effect for current user, you can exec command below: source /usr/local/Ascend/ascend-toolkit/set_env.sh or add "source /usr/local/Ascend/ascend-toolkit/set_env.sh" to ~/.bashrc.

成功了,但是同样的方法另一台机器就不行

然后跑大模型时又报错,还是版本的问题,要再升级到8.2

终于搞明白华为的这一套架构了,ascend-toolkit的latest是用于存放最近安装的版本,并非是最高的版本,所以存在多个也无所谓

export ROCR_VISIBLE_DEVICES=显卡序号(0,1,2,3,4,5,6,...)

例如

bash 复制代码
export ROCR_VISIBLE_DEVICES=0,1,2,3

然后是安装Python

bash 复制代码
 apt update
 apt install build-essential zlib1g-dev libncurses5-dev libgdbm-dev libnss3-dev libssl-dev libreadline-dev libffi-dev libsqlite3-dev wget libbz2-dev

sudo tar xzf Python-3.10.0.tgz
cd Python-3.10.0

./configure --prefix=/opt/python3.10 --enable-optimizations

make -j$(nproc)  # 使用所有可用核心加速编译
sudo make install

/opt/python3.10/bin/python3 --version

export PATH=/opt/python3.10/bin:$PATH

若要永久生效需写如bash中

软连接设置

bash 复制代码
ln -s /opt/python3.10/bin/pip3 /usr/local/bin/pip

Torch和torch_npu

下载软件包

bash 复制代码
wget https://download.pytorch.org/whl/cpu/torch-2.1.0-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl

安装命令

bash 复制代码
pip3 install torch-2.1.0-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl

#下载插件包

bash 复制代码
wget https://gitee.com/ascend/pytorch/releases/download/v6.0.0-pytorch2.1.0/torch_npu-2.1.0.post10-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl

安装命令

bash 复制代码
pip3 install torch_npu-2.1.0.post10-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl

如果还缺什么包就补什么

相关推荐
AI视觉网奇2 分钟前
2d 数字人解决方案-待机动作
人工智能·计算机视觉
人工智能AI酱23 分钟前
【AI深究】逻辑回归(Logistic Regression)全网最详细全流程详解与案例(附大量Python代码演示)| 数学原理、案例流程、代码演示及结果解读 | 决策边界、正则化、优缺点及工程建议
人工智能·python·算法·机器学习·ai·逻辑回归·正则化
爱喝可乐的老王28 分钟前
机器学习监督学习模型--逻辑回归
人工智能·机器学习·逻辑回归
Ao00000028 分钟前
机器学习——逻辑回归
人工智能·机器学习·逻辑回归
_下雨天.34 分钟前
Nginx性能调优与深度监控
运维·nginx
智算菩萨40 分钟前
【How Far Are We From AGI】3 AGI的边界扩张——数字、物理与智能三重接口的技术实现与伦理困境
论文阅读·人工智能·深度学习·ai·agi
智算菩萨40 分钟前
【How Far Are We From AGI】2 大模型的“灵魂“缺口:当感知、记忆与自我意识的迷雾尚未散去
人工智能·ai·agi·感知
皮卡蛋炒饭.1 小时前
进程得控制
linux·运维·服务器
deepxuan1 小时前
Day1--python三大库-Pandas
人工智能·python·pandas
阿泽·黑核1 小时前
Easy Vibe Coding 学习心得(二):从产品原型到 AI 应用——我的第一个完整项目
人工智能·ai编程·vibe coding