使用 vllm 运行 Llama3-8b-Instruct

使用 vllm 运行 Llama3-8b-Instruct

  • [0. 引言](#0. 引言)
  • [1. 安装 vllm](#1. 安装 vllm)
  • [2. 运行 Llama3-8b-Instruct](#2. 运行 Llama3-8b-Instruct)

0. 引言

此文章主要介绍使用 vllm 运行 Llama3-8b。

1. 安装 vllm

创建虚拟环境,

复制代码
conda create -n myvllm python=3.11 -y
conda activate myvllm

安装 Ray 和 Vllm,

复制代码
pip install ray vllm

安装 flash-attention,

复制代码
git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation

2. 运行 Llama3-8b-Instruct

复制代码
eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000

完结!

相关推荐
董董灿是个攻城狮24 分钟前
大模型连载1:了解 Token
人工智能
RoyLin3 小时前
沉睡三十年的标准:HTTP 402、生成式 UI 与智能体原生软件的时代
人工智能
needn5 小时前
TRAE为什么要发布SOLO版本?
人工智能·ai编程
毅航5 小时前
自然语言处理发展史:从规则、统计到深度学习
人工智能·后端
前端付豪5 小时前
LangChain链 写一篇完美推文?用SequencialChain链接不同的组件
人工智能·python·langchain
ursazoo6 小时前
写了一份 7000字指南,让 AI 帮我消化每天的信息流
人工智能·开源·github
_志哥_9 小时前
Superpowers 技术指南:让 AI 编程助手拥有超能力
人工智能·ai编程·测试
YongGit10 小时前
OpenClaw 本地 AI 助手完全指南:飞书接入 + 远程部署实战
人工智能
程序员鱼皮11 小时前
斯坦福大学竟然开了个 AI 编程课?!我已经学上了
人工智能·ai编程
星浩AI12 小时前
Skill 的核心要素与渐进式加载架构——如何设计一个生产可用的 Skill?
人工智能·agent