------企业私有RAG知识库业务助手的构建
课程背景
大规模预训练模型已成为推动智能化转型的核心动力。从DeepSeek,Qwen, Yiyan 到各行业定制化大模型,越来越多的企业开始将"以大模型为中台"的技术架构融入产品与服务。
然而,大模型的设计原理、部署方案、性能优化和落地案例往往具有较高的技术门槛。多数从业人员对大模型的整体架构、关键技术细节、端到端实操流程缺乏系统化认知,难以在实际项目中快速有效地运用。
本课程由浅入深、理论与实操并重,聚焦大模型的核心技术体系、典型开源与商用模型对比、前沿的 Prompt 工程与检索生成(RAG)智能体解决方案,帮助学员在两天内构建完整的知识框架与落地能力。
课程收益
- 系统化掌握大模型核心原理:理解大模型的概念、发展脉络与关键技术,对比主流大模型的性能与应用场景
- 深度体验 DeepSeek 平台技术栈:分析 DeepSeek-V3 与 DeepSeek-R1 架构差异,精通 Prompt 工程:设计、调优与常见陷阱
- 熟练搭建与优化大模型部署环境:掌握单机、分布式及云原生部署方案,实战 GPU/集群调优、量化、剪枝等性能优化策略
- 构建智能体与 RAG 解决方案:掌握基于大模型的智能客服、金融/医疗问答等典型应用,落地检索增强生成(RAG)智能体项目:从索引构建到模型集成
培训时长
2天
课程大纲
第一部分 大模型商用部署的现状与低成本优化部署方案
1. 大模型商用部署
1.1 大模型商用部署的现状与挑战
1.1.1 当前主流大模型概述(GPT、LLaMA、Claude等)
1.1.2 商用部署面临的核心问题(成本、性能、可扩展性)
1.1.3 低成本部署的商业价值与市场机会
2. 大模型部署基础
2.1 大模型部署架构概述
2.1.1 云端部署 vs 边缘部署
2.1.2 微服务架构设计
2.1.3 容器化与编排技术(Docker, Kubernetes)
2.2 硬件选型与成本分析
2.2.1 GPU选择策略
2.2.2 混合精度计算优化
2.2.3 异构计算资源利用
3. 主流低成本部署方案
3.1 模型量化技术
3.1.1 8-bit/4-bit量化原理与实践
3.1.2 GPTQ、AWQ等量化方法比较
3.1.3 量化对推理性能的影响
3.2 模型剪枝与蒸馏
3.2.1 结构化与非结构化剪枝
3.2.2 知识蒸馏技术
3.2.3 师生模型协同训练
3.3 参数高效微调(PEFT)
3.3.1 LoRA及其变体
3.3.2 Adapter模块设计
3.3.3 Prefix-tuning技术
4. 大模型推理优化技术
4.1 计算图优化
4.1.1 算子融合技术
4.1.2 内存优化策略
4.1.3 批处理(Batching)技术
4.2 推理加速框架
4.2.1 TensorRT优化实践
4.2.2 ONNX Runtime部署
4.2.3 vLLM等专用推理框架
4.3 缓存与检索增强
4.3.1 KV Cache优化
4.3.2 注意力机制改进
4.3.3 RAG(检索增强生成)系统
5. 大模型部署系统级优化方案
5.1 分布式推理
5.1.1 模型并行策略
5.1.2 流水线并行技术
5.1.3 张量并行实现
5.2 弹性伸缩与自动扩展
5.2.1 基于负载预测的扩展
5.2.2 冷启动优化
5.2.3 混合精度自动切换
5.3 边缘计算与混合部署
5.3.1 边缘设备部署方案
5.3.2 云端-边缘协同推理
5.3.3 模型分片技术
6. 大模型部署成本控制与监控
6.1 资源利用率优化
6.1.1 计算资源监控
6.1.2 内存使用分析
6.1.3 能耗管理
6.2 成本估算模型
6.2.1 推理成本计算框架
6.2.2 训练成本回收分析
6.2.3 ROI评估方法
6.3 性能-成本权衡
6.3.1 延迟与准确率平衡
6.3.2 服务质量(SLA)管理
6.3.3 自适应降级策略
第二部分 DeepSeek,Qwen, Yiyan技术解析和关键应用
2.1 DeepSeek-V3 与 DeepSeek-R1 技术对比
2.1.1 架构差异
2.1.2 性能指标对比
2.1.3 应用定位差异
2.2 模型解析
2.2.1 网络结构详解
2.2.2 参数量、计算成本与算力需求
2.3 案例实操:提示词工程(Prompt Engineering)应用案例实践
2.3.1 基本原则与方法
2.3.2 提示词设计技巧
2.3.3 常见坑与优化案例
2.4 DeepSeek 应用与系统架构
2.4.1 典型应用场景
2.4.2 整体系统架构
2.4.3 高可用、高并发设计要点
第三部分 大模型(DeepSeek,Qwen, Yiyan)企业级部署的工程化方法案例实操
3.1 部署架构与方案:vllm部署和sgLang部署对比分析
3.1.1 单机部署
3.1.2 分布式部署
3.1.3 云端原生部署
3.2 部署方案对比与选型
3.2.1 成本 vs 性能
3.2.2 可维护性与扩展性
3.3 学习环境搭建
3.3.1 硬件准备(GPU、存储、网络)
3.3.2 软件安装与依赖管理
3.4 API 与应用开发
3.4.1 常用 RESTful 接口
3.4.2 SDK 使用示例
3.4.3 安全认证与限流策略
3.5 关键技术特点
3.5.1 性能优化(并行计算、量化、剪枝)
3.5.2 安全与隐私保护(差分隐私、模型水印)
3.6 案例实践演练
3.6.1 从零搭建 DeepSeek 服务
3.6.2 编写示例客户端并完成调用
第四部分 案例实操:大模型部署架构与方案及实操
4.1 部署架构:vLLm和sgLang部署案例实操
4.1.1 端侧部署
4.1.2 边缘部署
4.1.3 云端部署
4.2 各部署方案对比
4.2.1 延迟 vs 吞吐
4.2.2 成本 vs 可扩展性
4.3 实操演练
4.3.1 环境准备与脚本化部署
4.3.2 模型上线与灰度发布
第五部分 智能体(Agent)架构与实现、应用案例与实践
5.1 智能体架构概述
5.1.1 感知层(输入处理)
5.1.2 决策层(策略规划)
5.1.3 执行层(动作输出)
5.2 智能体实现关键技术
5.2.1 任务分解与规划算法
5.2.2 多模态融合与知识库接入
5.3 典型应用案例
5.3.1 智能客服机器人
5.3.2 工业质检与监控智能体
5.4 实践演练
5.4.1 基于大模型构建简单智能体
5.4.2 部署与效果评估
第六部分 RAG 智能体架构与实现、应用案例与实践
6.1 RAG 原理与流程
6.1.1 检索(Retrieval)机制
6.1.2 生成(Generation)机制
6.2 RAG 智能体系统架构
6.2.1 索引构建与管理
6.2.2 检索模块设计
6.2.3 生成模块集成
6.3 应用案例
6.3.1 企业问答系统
6.3.2 企业业务咨询助手
6.4 实践演练
6.4.1 搭建向量检索服务
6.4.2 集成生成模型,部署 RAG 智能体