ChatGPT实战与私有化大模型落地

uncle_ll2023-09-10 12:05

文章目录

大模型现状
领域大模型训练技巧
- Tokenizer
- 分布式深度学习
- - 数据并行
  - 管道并行
  - 向量并行
  - 分布式框架------Megatron-LM
  - 分布式深度学习框架------Colossal-AI
  - 分布式深度学习框架------DeepSpeed
  - [P-tuning 微调](#P-tuning 微调)
- 资源消耗
- 模型推理加速
- - 模型推理加速方法------FastLLM
  - 模型推理加速方法------VLLm
领域大模型产品形态及落地场景

大模型现状

baseline底座选择

数据构造

领域数据
书籍数据
网站数据
新闻内容
指令微调数据

混合数据（公用数据+领域数据，比例1：5 ）避免知识遗忘，导致通用能力下降。

迁移方法

资源不充足的时候，在chat模型基础上训练
资源充足的时候，在Base模型上训练
千万级别的数据，在chat模型上不要用全量数据进行训练。

评价

思考

领域大模型训练技巧

ChatGPTBook：<github.com/liucongg/ChatGPTBook>

Tokenizer

分布式深度学习

数据并行

管道并行

向量并行

分布式框架------Megatron-LM

分布式深度学习框架------Colossal-AI

分布式深度学习框架------DeepSpeed

P-tuning 微调

资源消耗

模型推理加速

模型推理加速方法------FastLLM

模型推理加速方法------VLLm

领域大模型产品形态及落地场景

ChatGPT用户视角思考

ChatGPT企业视角思考

企业级ChatGPT的建设要素

选择优质的应用场景

ChatGPT场景设计-工业制造

ChatGPT场景设计-文案编写

上一篇：React 性能优化

下一篇：自然语言处理-词向量模型-Word2Vec

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03KGG转MP3工具|非KGM文件|解密音频 04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）07Claude Code VSCode集成开发指南：AI编程助手完整配置 08Linux下V2Ray安装配置指南 092025最新国内服务器可用docker源仓库地址大全（2025年8月更新）10Spring 调试终于不再痛苦了