使用 vllm 运行 Llama3-8b-Instruct

使用 vllm 运行 Llama3-8b-Instruct

  • [0. 引言](#0. 引言)
  • [1. 安装 vllm](#1. 安装 vllm)
  • [2. 运行 Llama3-8b-Instruct](#2. 运行 Llama3-8b-Instruct)

0. 引言

此文章主要介绍使用 vllm 运行 Llama3-8b。

1. 安装 vllm

创建虚拟环境,

复制代码
conda create -n myvllm python=3.11 -y
conda activate myvllm

安装 Ray 和 Vllm,

复制代码
pip install ray vllm

安装 flash-attention,

复制代码
git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation

2. 运行 Llama3-8b-Instruct

复制代码
eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000

完结!

相关推荐
_風箏12 分钟前
Ollama【部署 02】Linux本地化部署及SpringBoot2.X集成Ollama(ollama-linux-amd64.tgz最新版本 0.6.2)
人工智能·后端·ollama
勤劳的进取家31 分钟前
论文阅读:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
论文阅读·人工智能·机器学习·语言模型·自然语言处理
THMAIL35 分钟前
大模型0基础开发入门与实践:第8章 “大力出奇迹”的哲学:大语言模型的核心技术揭秘
人工智能·语言模型·自然语言处理
这张生成的图像能检测吗1 小时前
(论文速读)RandAR:突破传统限制的随机顺序图像自回归生成模型
图像处理·人工智能·机器学习·计算机视觉·生成模型·自回归模型
智驱力人工智能1 小时前
智慧工厂烟雾检测:全场景覆盖与精准防控
人工智能·算法·安全·智慧城市·烟雾检测·明火检测·安全生产
山烛9 小时前
矿物分类系统开发笔记(一):数据预处理
人工智能·python·机器学习·矿物分类
拾零吖9 小时前
吴恩达 Machine Learning(Class 3)
人工智能·机器学习
admiraldeworm10 小时前
Spring Boot + Spring AI 最小可运行 Demo
java·人工智能·ai
算法_小学生10 小时前
长短期记忆网络(LSTM)
人工智能·rnn·lstm