[书生·浦语大模型实战营]——LMDeploy 量化部署 LLM 实践

1.基础作业

1.1配置 LMDeploy 运行环境

创建开发机

创建新的开发机,选择镜像Cuda12.2-conda;选择10% A100*1GPU;点击"立即创建"。注意请不要选择Cuda11.7-conda的镜像,新版本的lmdeploy会出现兼容性问题。其他和之前一样,不赘述。

创建conda环境

c 复制代码
studio-conda -t lmdeploy -o pytorch-2.1.2

安装LMDeploy

c 复制代码
#激活虚拟环境
conda activate lmdeploy
#安装0.3.0的imdeploy
pip install lmdeploy[all]==0.3.0

1.2以命令行方式与 InternLM2-Chat-1.8B 模型对话


2.进阶作业

2.1 设置KV Cache最大占用比例为0.4,开启W4A16量化,以命令行方式与模型对话。


2.2 以API Server方式启动 lmdeploy,开启 W4A16量化,调整KV Cache的占用比例为0.4,分别使用命令行客户端与Gradio网页客户端与模型对话。

命令行:

网页客户端:

2.3 使用W4A16量化,调整KV Cache的占用比例为0.4,使用Python代码集成的方式运行internlm2-chat-1.8b模型。

2.4 使用 LMDeploy 运行视觉多模态大模型 llava gradio demo。


相关推荐
threerocks12 小时前
过了个年,AI 圈变天了?但没人告诉你为什么
人工智能
threerocks13 小时前
Anthropic CEO Dario Amodei:海啸已在地平线上,但没人在看
人工智能
用户51914958484513 小时前
Adrenaline GPU 漏洞利用框架:突破 Android 内核内存读写限制
人工智能·aigc
hulkie13 小时前
从 AI 对话应用理解 SSE 流式传输:一项 "老技术" 的新生
前端·人工智能
鞋带松了13 小时前
openclaw + ollama本地模型 + 飞书平台 windows平台部署教程
人工智能
啥都学点的程序员13 小时前
关于langchain调用MCP确保稳定性的小经验
人工智能
billhan201614 小时前
RAG 从零到一:构建你的第一个检索增强生成系统
人工智能
billhan201614 小时前
Function Calling:让大模型连接真实世界
人工智能
markfeng814 小时前
Python+Django+H5+MySQL项目搭建
python·django
程序员飞哥14 小时前
Block科技公司裁员四千人,竟然是因为 AI ?
人工智能·后端·程序员