使用 vllm 运行 Llama3-8b-Instruct

使用 vllm 运行 Llama3-8b-Instruct

  • [0. 引言](#0. 引言)
  • [1. 安装 vllm](#1. 安装 vllm)
  • [2. 运行 Llama3-8b-Instruct](#2. 运行 Llama3-8b-Instruct)

0. 引言

此文章主要介绍使用 vllm 运行 Llama3-8b。

1. 安装 vllm

创建虚拟环境,

复制代码
conda create -n myvllm python=3.11 -y
conda activate myvllm

安装 Ray 和 Vllm,

复制代码
pip install ray vllm

安装 flash-attention,

复制代码
git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation

2. 运行 Llama3-8b-Instruct

复制代码
eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000

完结!

相关推荐
雷工笔记几秒前
读书笔记|《AI知识库:个人与企业的智慧玩法》
人工智能
李可以量化10 分钟前
【2026 量化工具选型】通达信 TdxQuant vs 迅投 QMT/miniQMT 深度对比:新手该怎么选?
大数据·人工智能·区块链·通达信·qmt·量化 qmt ptrade
互联科技报19 分钟前
零售数字化:高准确率客流分析系统优质推荐
大数据·人工智能
互联科技报20 分钟前
成熟零售客流系统该怎么选?决定门店效率的关键选择
人工智能·零售
北京耐用通信26 分钟前
国产优选:耐达讯自动化EtherCAT转RS232在工业协议转换中的卓越表现
人工智能·科技·物联网·网络协议·自动化
沃垠AI31 分钟前
万字干货!Agent Skills从入门到精通
人工智能
mit6.82433 分钟前
设计系统的智慧
人工智能
竹之却39 分钟前
【Agent-阿程】AI先锋杯·14天征文挑战第14期-第8天-大模型量化压缩与轻量化部署实战
人工智能
Rik1 小时前
AI Agent 控制浏览器完全指南:OpenClaw × Chrome 的 5 种连接方式
人工智能
key_3_feng1 小时前
AI大模型时代的企业可观测性架构设计方案
人工智能·可观测性