大模型实战营Day5 作业

基础作业:

  • 使用 LMDeploy 以本地对话、网页Gradio、API服务中的一种方式部署 InternLM-Chat-7B 模型,生成 300 字的小故事(需截图)

TurboMind 推理+命令行本地对话

bash 复制代码
lmdeploy chat turbomind /share/temp/model_repos/internlm-chat-7b/  --model-name internlm-chat-7b

TurboMind推理+API服务

网页 Demo 演示

一个终端

bash 复制代码
lmdeploy serve api_server ./workspace \
> --server_name 0.0.0.0 \
> --server_port 23333 \
> --instance_num 64 \
> --tp 1

另一个终端

bash 复制代码
lmdeploy serve gradio http://0.0.0.0:23333 \
> --server_name 0.0.0.0 \
> --server_port 6006 \
> --restful_api True

进阶作业(可选做)

  • 将第四节课训练自我认知小助手模型使用 LMDeploy 量化部署到 OpenXLab 平台。
  • 对internlm-chat-7b模型进行量化,并同时使用KV Cache量化,使用量化后的模型完成API服务的部署,分别对比模型量化前后和 KV Cache 量化前后的显存大小(将 bs设置为 1 和 max len 设置为512)。
  • 在自己的任务数据集上任取若干条进行Benchmark测试,测试方向包括:
    (1)TurboMind推理+Python代码集成
    (2)在(1)的基础上采用W4A16量化
    (3)在(1)的基础上开启KV Cache量化
    (4)在(2)的基础上开启KV Cache量化
    (5)使用Huggingface推理
相关推荐
PNP Robotics3 分钟前
聚焦具身智能,PNP机器人展出力反馈遥操作,VR动作捕捉等方案,获得中国科研贡献奖
大数据·人工智能·python·学习·机器人
小霖家的混江龙3 分钟前
数学不好也能懂:解读 AI 经典论文《Attention is All You Need》与大模型生成原理
人工智能·llm·aigc
njsgcs5 分钟前
ai控制鼠标生成刀路系统2 环境搭建 尝试
人工智能
喜欢吃豆6 分钟前
大语言模型(LLM)全栈技术深度综述:理论、系统与工程实践
人工智能·语言模型·自然语言处理·大模型
渡我白衣6 分钟前
计算机组成原理(8):各种码的作用详解
c++·人工智能·深度学习·神经网络·其他·机器学习
黑客思维者7 分钟前
机器学习016:监督学习【分类算法】(支持向量机)-- “分类大师”入门指南
人工智能·学习·机器学习·支持向量机·分类·回归·监督学习
小毅&Nora10 分钟前
【AI微服务】【Spring AI Alibaba】 ④ 深度实战:从零构建通义千问聊天服务(2025 最新版)
人工智能·微服务·spring ai
糖葫芦君10 分钟前
Lora模型微调
人工智能·算法
编码小哥11 分钟前
OpenCV几何变换详解:缩放、旋转与平移
人工智能·opencv·计算机视觉
gallonyin11 分钟前
【AI智能体】Cline核心文件编辑工具分析(replace_in_file)
人工智能·架构·智能体