ChatGPT实战与私有化大模型落地

文章目录

大模型现状

baseline底座选择

数据构造

  • 领域数据
  • 书籍数据
  • 网站数据
  • 新闻内容
  • 指令微调数据

混合数据(公用数据+领域数据,比例1:5 )避免知识遗忘,导致通用能力下降。

迁移方法

  • 资源不充足的时候,在chat模型基础上训练
  • 资源充足的时候,在Base模型上训练
    千万级别的数据,在chat模型上不要用全量数据进行训练。

评价

思考


领域大模型训练技巧

Tokenizer

分布式深度学习

数据并行

管道并行

向量并行


分布式框架------Megatron-LM

分布式深度学习框架------Colossal-AI

分布式深度学习框架------DeepSpeed




P-tuning 微调

资源消耗


模型推理加速

模型推理加速方法------FastLLM

模型推理加速方法------VLLm


领域大模型产品形态及落地场景

ChatGPT用户视角思考

ChatGPT企业视角思考

企业级ChatGPT的建设要素

选择优质的应用场景

ChatGPT场景设计-工业制造

ChatGPT场景设计-文案编写

相关推荐
Him__17 小时前
OpenAI发布最新推理模型o3-mini
人工智能·chatgpt·deepseek
雾岛心情1 天前
【AIGC专栏】AI在自然语言中的应用场景
人工智能·chatgpt·aigc
Jet45051 天前
玩转ChatGPT:DeepSeek测评(科研思路梳理)
人工智能·chatgpt·kimi·deepseek-r1
沐雪架构师1 天前
ChatGPT与GPT的区别与联系
gpt·chatgpt
AIGC大时代1 天前
对比DeepSeek、ChatGPT和Kimi的学术写作撰写引言能力
数据库·论文阅读·人工智能·chatgpt·数据分析·prompt
神经美学_茂森1 天前
【方法论】ChatGPT与DeepSeek的联合应用,提升工作效率的新解决方案
人工智能·chatgpt
kakaZhui2 天前
【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE
人工智能·深度学习·chatgpt·aigc·llama
AIGC大时代2 天前
对比DeepSeek、ChatGPT和Kimi的学术写作关键词提取能力
论文阅读·人工智能·chatgpt·数据分析·prompt
kakaZhui2 天前
【llm对话系统】大模型 Llama 源码分析之 LoRA 微调
pytorch·深度学习·chatgpt·aigc·llama
单蠢小威2 天前
受击反馈HitReact、死亡效果Death Dissolve、Floating伤害值Text(末尾附 客户端RPC )
c++·chatgpt·ue5