华为昇腾910B通过vllm部署InternVL3-8B教程

前言

本文主要借鉴:VLLM部署deepseek,结合自身进行整理

下载模型

python 复制代码
from modelscope import snapshot_download
model_dir = snapshot_download('OpenGVLab/InternVL3-8B', local_dir="xxx/OpenGVLab/InternVL2_5-1B")

环境配置

auto-dl上选择单卡910B即可,Pytorch框架只有一个CANN版本选择,选这个即可。

安装vllm和vllm ascend

bash 复制代码
git clone --depth 1 --branch v0.7.3 https://github.com/vllm-project/vllm
cd vllm
VLLM_TARGET_DEVICE=empty pip install . --extra-index https://download.pytorch.org/whl/cpu/


git clone  --depth 1 --branch v0.7.3rc1 https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
pip install -e . --extra-index https://download.pytorch.org/whl/cpu/

手动安装torch-npu

bash 复制代码
mkdir pta
cd pta
wget https://pytorch-package.obs.cn-north-4.myhuaweicloud.com/pta/Daily/v2.5.1/20250320.3/pytorch_v2.5.1_py310.tar.gz
tar -xvf pytorch_v2.5.1_py310.tar.gz
pip install ./torch_npu-2.5.1.dev20250320-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
swift 复制代码
pip install torchvision==0.20.1

启动指令

python 复制代码
vllm serve /root/xxx/xxx/InternVL3-8B --max-model-len 4096 --port 8000 --tensor-parallel-size 1 --trust-remote-code --served-model-name InternVL3-8B

启动成功如下图所示:

通过curl去进行验证

python 复制代码
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "InternVL3-8B",
        "messages": [
            {
                "role": "user", 
                "content": "你是谁?"
            }
        ]
    }'
相关推荐
专注写bug4 小时前
Spring AI Alibaba——支持Agent Skill
ai·llm·langchain4j·ai alibaba
OpenBayes贝式计算8 小时前
强化文字渲染与海报排版:百度开源文生图模型 ERNIE-Image-Turbo;告别大模型「遗忘」:微软 OpenMementos 上下文压缩训练数据集上线
microsoft·百度·llm
MrMao0079 小时前
我做了一个会"自我进化"的小红书运营 Agent——它自己上网搜笔记、读图片、蒸馏知识
llm·agent
倘来之遇9 小时前
GraphRAG 深度解析:从原理到实战
llm·rag·graphrag
一个处女座的程序猿11 小时前
LLMs之Memory之MIA:《Memory Intelligence Agent》翻译与解读
llm·agent·memory
TheRouter14 小时前
gpt-image-2发布第一天,我用它替换了文章配图的整套流程
gpt·ai·ai作画·llm·openai
渡边时雨17 小时前
大多数人搭 RAG,第一步就错了
后端·llm
bryant_meng19 小时前
【AGI】OpenClaw
人工智能·深度学习·llm·agi·openclaw
J_bean1 天前
大语言模型 API Token 消耗深度剖析
人工智能·ai·llm·大语言模型·token
BeforeEasy2 天前
结合Agent的RAG技术梳理【详细版】
llm·agent·rag