【HCIA- AI(正课)】6.1 大模型部署及商业模式

大模型部署介绍

大模型部署流程

大模型常用压缩方法

大模型常用部署工具

大模型推理加速技术

大模型应用开发

大模型本地部署展望

大模型商业模式

  • 大模型部署流程

  • 运行参数配置

    • 超参数设置:运行参数配置需修改对应配置文件,如 TopK 是一个超参数,它决定预测出概率最高的词的数量,TopK 等于几就会预测出几个排名最高的词。

    • 实际应用:在实际部署中,运行参数配置是必选环节,需要根据具体需求设置合适的超参数,以确保模型的正常运行。

    • 工程编译与编程框架接入

      • 编译类型:工程编译主要是 C++ 的推理编译,编程框架接入主要是连接数据库以处理模型不足问题。
      • 可选性说明:工程编译和编程框架接入在整个部署流程中是可选的,可根据实际情况决定是否添加。
  • 大模型压缩方法

    • 剪枝
      • 原理:剪枝是去掉不重要的权重,将网络稀疏化,本质是把权重矩阵中不重要的部分置 0,从而减少存储权重,提高运行速度。
      • 效果:通过剪枝可以有效降低模型的复杂度,减少计算量,提升模型的运行效率。
    • 知识蒸馏
      • 本质:知识蒸馏需要一个大模型(teacher 模型)和一个小模型(student 模型),将大模型的问题和输出结果交给小模型学习,使小模型的回答效果接近大模型,节省计算资源。
      • 类比理解:类似于武侠小说中的传功,大模型走过很多弯路学会功法,直接传给小模型,小模型学习速度快且效果相近。
    • 量化
      • 训练后量化(PTQ):专门压缩量化预训练的浮点模型,无需数据集,直接翻转优化权重,如使用 libra file 算法,可快速将浮点转换成 int 8,减少计算量。
      • 量化感知训练(QAT):在训练中插入尾量化模块,与浮点计算需求做适配以提升精度,训练完后再做 int 8 的转换。
  • 常用部署工具

    • 主流工具
      • Transformers:预训练模型部署时使用最多的工具。
      • VLLM:企业级应用较多的开源推理引擎,采用帕特的 attention 算法,速度比 Transformers 快约 24 倍。
    • 华为相关工具
      • atformers:华为的套件,在主流模型应用下流任务云端部署时使用较多。
      • modelink:可与 atformers 配合使用,是端到端应用较多的部署工具之一。
  • 加速技术

    • 通用优化
      • Moe 稀疏接口:华为在推理上采用 Moe 稀疏接口,即专家模型,实现快速加速。
      • KV cache 加速:与芯片绑定,在芯片底层对 KV cache 的缓存矩阵进行优化,避免重复计算。
    • 华为专用优化:华为专用的芯片级优化,直接在硬件上进行本地优化。
  • 应用开发

    • Langchain 框架
      • 解决问题:用于解决大模型开发中的幻觉问题,在 IP 课程中会详细学习。
      • 官网介绍:官网实时更新快,考试以 PPT 内容为准,其核心组件包括 tools 工具链等,可按数据链形式将模型、提示词、RAG 等链到一起。
    • 其他开发工具
      • Gladio:Python 工具,通过 web 页面快速连接知识库和 LLM 进行开发,有 webUI 页面可直接调用 Python 函数进行交互。
      • FastAPI:可采用前后端分离方式搭建大模型开发环境。
  • 本地部署趋势

    • 模型选择:建议部署参数量 10B 以上的模型,如 13B 模型,因为 7B 模型未达到涌现标准,效果不佳。
    • 部署方式:可在云服务器、PC 端等进行部署,如 AIPC 部署、混合 AI 部署等,可根据不同情况调节硬件。
  • 商业模式

    • 行业模型:华为盘古大模型主要做行业模型,市场上还有讯飞星火、BLOOM、GPT 等多种模型,都在向行业模型和场景大模型发展。
    • 变现方式:商业化变现方式多样,如租赁服务、提供算力服务、打造大模型等,部分厂商通过水印、分辨率限制等方式促使付费,国内模型也有先开源后收费的情况。
  • 问答环节

    • 大模型部署是否必须压缩:大模型部署不是必须进行压缩,压缩是为了节省资源,在有限资源上提高推理速度,若资源充足则无需压缩。
    • bytepoliter 对大模型部署的重要性:可从 PPT 中提取相关内容,如配节 attention 可提高推理速度,meta performance 可在训练方面做优化等。