尝试升级SCNet DCU异构系统VLLM版本(失败)

使用的系统:SCNet DCU ,版本dcu25.04

先上结论,cupy这个软件包没装上去....所以升级失败

首先确认系统系统

复制代码
lsb_release -a

复制代码
Distributor ID: Ubuntu
Description:    Ubuntu 22.04.5 LTS
Release:        22.04
Codename:       jammy

去找DTK-25.04.2 ubuntu22.40

这是系统:

复制代码
https://download.sourcefind.cn:65024/1/main/DTK-25.04.2/Ubuntu22.04

生态包:

复制代码
https://download.sourcefind.cn:65024/4/main/

dash 1.7的,啥意思啊

复制代码
# torch2.51
https://download.sourcefind.cn:65024/directlink/4/pytorch/DAS1.7/torch-2.5.1+das.opt1.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl
# torch2.71
https://download.sourcefind.cn:65024/directlink/4/pytorch/DAS1.7/torch-2.7.1+das.opt1.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl

lsm

复制代码
https://download.sourcefind.cn:65024/directlink/4/lmslim/DAS1.7/lmslim-0.3.1+das.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl

vllm

复制代码
https://download.sourcefind.cn:65024/directlink/4/vllm/DAS1.7/vllm-0.9.2+das.opt1.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl

lighttop

复制代码
https://download.sourcefind.cn:65024/directlink/4/lightop/DAS1.7/lightop-0.6.0+das.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl

transformer

这个不管用

复制代码
https://download.sourcefind.cn:65024/directlink/4/transformer_engine/DAS1.7/transformer_engine-2.5.0+das.opt1.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl

用这个

pip install transformer -U

cupy这个硬骨头

复制代码
export CUPY_INSTALL_USE_HIP=1
export ROCM_HOME=/opt/rocm
export HCC_AMDGPU_TARGET=gfx906
pip install cupy

安装hipcub

复制代码
git clone https://github.com/ROCmSoftwarePlatform/hipCUB.git
cd hipCUB
mkdir build && cd build
cmake ..
make -j$(nproc)
sudo make install

cmake .. -DCMAKE_CXX_COMPILER=/opt/dtk/bin/hipcc  # 显式指定编译器
make -j

也不知道这样是安装好了不?

复制代码
-- Up-to-date: /opt/rocm/include/
-- Up-to-date: /opt/rocm/include//hipcub
-- Installing: /opt/rocm/include//hipcub/hipcub_version.hpp
-- Installing: /opt/rocm/lib/cmake/hipcub/hipcub-targets.cmake
-- Installing: /opt/rocm/lib/cmake/hipcub/hipcub-config.cmake
-- Installing: /opt/rocm/lib/cmake/hipcub/hipcub-config-version.cmake
-- Installing: /opt/rocm/share/doc/hipcub/LICENSE.txt

dcu24.04

先安装hipcub

复制代码
git clone https://github.com/ROCmSoftwarePlatform/hipCUB.git
cd hipCUB
mkdir build && cd build
cmake ..   -DCMAKE_CXX_COMPILER=/opt/dtk/bin/hipcc  # 显式指定编译器
make -j$(nproc)
make install

安装cupy

复制代码
export CUPY_INSTALL_USE_HIP=1
export ROCM_HOME=/opt/dtk
# export HCC_AMDGPU_TARGET=gfx906
pip install cupy

如果不行,就安装cupy12.3版本。

设置:export HCC_AMDGPU_TARGET=gfx942

安装相关库,并安装vllm

复制代码
wget https://download.sourcefind.cn:65024/directlink/4/pytorch/DAS1.7/torch-2.5.1+das.opt1.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl
pip install torch-2.5.1+das.opt1.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl

wget https://download.sourcefind.cn:65024/directlink/4/lightop/DAS1.7/lightop-0.6.0+das.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl
pip install lightop-0.6.0+das.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl


wget https://download.sourcefind.cn:65024/directlink/4/vllm/DAS1.7/vllm-0.9.2+das.opt1.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl
pip install vllm-0.9.2+das.opt1.dtk25042-cp310-cp310-manylinux_2_28_x86_64.whl

最后还是没升级成功。

调试

报错 Exception: Please install hipCUB and retry

raise Exception('Please install hipCUB and retry')

Exception: Please install hipCUB and retry

尝试编译安装

编译的时候报错

-- System architecture is x86_64

CMake Error at cmake/VerifyCompiler.cmake:39 (message):

On ROCm platform 'hipcc' or HIP-aware Clang must be used as C++ compiler.

Call Stack (most recent call first):

CMakeLists.txt:124 (include)

-- Configuring incomplete, errors occurred!

make: *** No targets specified and no makefile found. Stop.

相关推荐
华如锦2 小时前
一.2部署——大模型服务快速部署vLLM GPU 安装教程 (Linux)
java·linux·运维·人工智能·后端·python·vllm
wxl7812273 小时前
零基础10分钟部署MinerU:Docker Compose一键搭建指南
api·gradio·docker compose·vllm·mineru2.7.1
HyperAI超神经12 小时前
【vLLM 学习】Rlhf
人工智能·深度学习·学习·机器学习·vllm
ouliten2 天前
vllm笔记(1):最基础的离线推理
笔记·vllm·模型推理
越努力越幸运~2 天前
AMD AI MAX +395迷你主机 架构1151安装 vllm部署大模型操作记录
ai·vllm·rocm·ai max+395
Lkygo2 天前
Embedding 和 Reranker 模型
人工智能·embedding·vllm·sglang
wangqiaowq3 天前
vllm 部署验证
vllm
CodeCaptain3 天前
通过huggingface的hf download下载的Qwen模型,如何使用用Docker 启动 vLLM 服务
docker·ai·vllm
不错就是对4 天前
【agent-lightning】 - 2_使用 Agent-lightning 训练第一个智能体
人工智能·深度学习·神经网络·自然语言处理·chatgpt·transformer·vllm
技术狂人1684 天前
(七)大模型工程落地与部署 10 题!vLLM/QPS 优化 / 高可用,面试实战必备(工程篇)
人工智能·深度学习·面试·职场和发展·vllm