大模型实战营Day5 作业

流浪德意志2024-01-15 0:36

基础作业：

bash 复制代码

lmdeploy chat turbomind /share/temp/model_repos/internlm-chat-7b/  --model-name internlm-chat-7b

一个终端

bash 复制代码

lmdeploy serve api_server ./workspace \
> --server_name 0.0.0.0 \
> --server_port 23333 \
> --instance_num 64 \
> --tp 1

另一个终端

bash 复制代码

lmdeploy serve gradio http://0.0.0.0:23333 \
> --server_name 0.0.0.0 \
> --server_port 6006 \
> --restful_api True

进阶作业（可选做）

将第四节课训练自我认知小助手模型使用 LMDeploy 量化部署到 OpenXLab 平台。
对internlm-chat-7b模型进行量化，并同时使用KV Cache量化，使用量化后的模型完成API服务的部署，分别对比模型量化前后和 KV Cache 量化前后的显存大小（将 bs设置为 1 和 max len 设置为512）。
在自己的任务数据集上任取若干条进行Benchmark测试，测试方向包括：
（1）TurboMind推理+Python代码集成
（2）在（1）的基础上采用W4A16量化
（3）在（1）的基础上开启KV Cache量化
（4）在（2）的基础上开启KV Cache量化
（5）使用Huggingface推理