使用 vllm 运行 Llama3-8b-Instruct

使用 vllm 运行 Llama3-8b-Instruct

  • [0. 引言](#0. 引言)
  • [1. 安装 vllm](#1. 安装 vllm)
  • [2. 运行 Llama3-8b-Instruct](#2. 运行 Llama3-8b-Instruct)

0. 引言

此文章主要介绍使用 vllm 运行 Llama3-8b。

1. 安装 vllm

创建虚拟环境,

复制代码
conda create -n myvllm python=3.11 -y
conda activate myvllm

安装 Ray 和 Vllm,

复制代码
pip install ray vllm

安装 flash-attention,

复制代码
git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation

2. 运行 Llama3-8b-Instruct

复制代码
eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000

完结!

相关推荐
私人珍藏库1 分钟前
Parallels Desktop 26.1.1 for Mac 秋叶QiuChenly中文解锁直装版,最好用的macOS虚拟机
人工智能
程序员大雄学编程18 分钟前
用Python来学微积分23-微分中值定理
人工智能·python·数学·微积分
GMICLOUD20 分钟前
网易科技专访 GMI Cloud 创始人&CEO Alex Yeh:以“产品+布局+服务”构建全球竞争力
人工智能·科技·ai·gpu算力·agi·ai应用·ai基础设施
wwlsm_zql25 分钟前
石头科技专利创新:清洁机器人维护简化,效率升级
人工智能·科技·microsoft·机器人
luoganttcc28 分钟前
加快高水平科技自立自强,引领发展新质生产力 <十五五 规划节选>
大数据·人工智能·科技
夕阳染色的坡道39 分钟前
LineSlam线特征投影融合(Fuse) 中pML->GetLineNormalVector()的理解代码理解
人工智能·opencv·计算机视觉
rengang661 小时前
502-Spring AI Alibaba React Agent 功能完整案例
人工智能·spring·agent·react·spring ai·ai应用编程
F2的AI学习笔记1 小时前
AI智能体工具调用终极指南:从Function Calling到MCP的三大方案详解
人工智能
北辰alk1 小时前
边缘端AI部署全面指南:原理、方案与实战代码
人工智能
噜~噜~噜~1 小时前
LSTM(Long Short-Term Memory)个人理解
人工智能·lstm·双层lstm·多层lstm