[书生·浦语大模型实战营]——LMDeploy 量化部署 LLM 实践

1.基础作业

1.1配置 LMDeploy 运行环境

创建开发机

创建新的开发机,选择镜像Cuda12.2-conda;选择10% A100*1GPU;点击"立即创建"。注意请不要选择Cuda11.7-conda的镜像,新版本的lmdeploy会出现兼容性问题。其他和之前一样,不赘述。

创建conda环境

c 复制代码
studio-conda -t lmdeploy -o pytorch-2.1.2

安装LMDeploy

c 复制代码
#激活虚拟环境
conda activate lmdeploy
#安装0.3.0的imdeploy
pip install lmdeploy[all]==0.3.0

1.2以命令行方式与 InternLM2-Chat-1.8B 模型对话


2.进阶作业

2.1 设置KV Cache最大占用比例为0.4,开启W4A16量化,以命令行方式与模型对话。


2.2 以API Server方式启动 lmdeploy,开启 W4A16量化,调整KV Cache的占用比例为0.4,分别使用命令行客户端与Gradio网页客户端与模型对话。

命令行:

网页客户端:

2.3 使用W4A16量化,调整KV Cache的占用比例为0.4,使用Python代码集成的方式运行internlm2-chat-1.8b模型。

2.4 使用 LMDeploy 运行视觉多模态大模型 llava gradio demo。


相关推荐
IT_陈寒2 小时前
Vue这个坑我跳了两次,原来问题出在这
前端·人工智能·后端
新新技术迷2 小时前
Node给AI接口做SSE代理与鉴权
人工智能
ServBay3 小时前
9 个 Python 第三方库推荐,不用 AI 都好像多出一个团队
后端·python
用户8356290780513 小时前
如何使用 Python 添加和管理 Excel 批注(完整示例)
后端·python
redreamSo3 小时前
大模型是不是到顶了?瓶颈到底在哪
人工智能·openai
用户8356290780513 小时前
使用 Python 管理 Excel 工作表:创建、复制、删除与重命名
后端·python
Oo9203 小时前
Tool Use 背后的技术逻辑
人工智能
姗姗来迟了3 小时前
Vue3封装AI流式对话组件踩坑实录
人工智能
码上天下4 小时前
用Pinia管理AI多会话状态
人工智能
用户054324329704 小时前
Next.js接大模型流式SSE实操踩坑
人工智能