大语言模型-1.3-GPT、DeepSeek模型介绍

简介

本博客内容是《大语言模型》一书的读书笔记,该书是中国人民大学高瓴人工智能学院赵鑫教授团队出品,覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助学员全面掌握大语言模型的核心技术。并且,课程内容基于大量的代码实战与讲解,通过实际项目与案例,学员能将理论知识应用于真实场景,提升解决实际问题的能力。

本文主要记录datawhale的活动学习笔记,可点击活动连接

参考

参考
【大模型】GPT: Improving Language Understanding by Generative Pre-Training
AI 世界生存手册(二):从LR到DeepSeek,模型慢慢变大了,也变强了

#41 AI-002-十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解Transformer

1.3.1GPT 系列模型成体系推进

2017年,谷歌提出Transformer

2018年,OpenAI提出GPT(1亿+参数)

2019年,GPT-2(15亿参数)

2020年,GPT-3(1750亿参数)

2021年,CodeX(基于GPT-3,代码预训练)

2021年,WebGPT(搜索能力)

2022年2月,InstructGPT(人类对齐)

2022年11月,ChatGPT(对话能力)

2023年3月,GPT-4(推理能力、多模态能力)

2024年9月,o1(深度思考能力提升)

2025年1月,o3(深度思考能力进一步增强)

GPT系列模型从18年开始系统迭代,对于大模型发展起到了深远影响

GPT从开始至今,其发展历程如下:

2017年6月,Google发布论文《Attention is all you need》,首次提出Transformer模型,成为GPT发展的基础。 论文地址: https://arxiv.org/abs/1706.03762

2018年6月,OpenAI 发布论文《Improving Language Understanding by Generative Pre-Training》(通过生成式预训练提升语言理解能力),首次提出GPT模型(Generative Pre-Training)。论文地址: paperswithcode.com/method/gpt

2019年2月,OpenAI 发布论文《Language Models are Unsupervised Multitask Learners》(语言模型应该是一个无监督多任务学习者),提出GPT-2模型。论文地址: paperswithcode.com/method/gpt-...

2020年5月,OpenAI 发布论文《Language Models are Few-Shot Learners》(语言模型应该是一个少量样本(few-shot)学习者,提出GPT-3模型。论文地址: https://paperswithcode.com/method/gpt-2

2022年2月底,OpenAI 发布论文《Training language models to follow instructions with human feedback》(使用人类反馈指令流来训练语言模型),公布 Instruction GPT模型。论文地址: https://arxiv.org/abs/2203.02155

2022年11月30日,OpenAI推出ChatGPT模型,并提供试用,全网火爆。见:AI-001-火爆全网的聊天机器人ChatGPT能做什么

GPT 系列模型发展历程

➢ 小模型:GPT-1,GPT-2

➢ 大模型:GPT-3,CodeX,GPT-3.5,GPT-4

➢ 推理大模型:o-series

GPT-1(1.1亿参数)

当时NLP的问题

此时训练一个 NLP 模型和我们之前做的推荐类似,针对某个任务,首先搞一些样本,然后对模型进行有监督训练。问题出在题面上。

1.样本怎么来,大量的高质量的标注不太容易获得。

2.模型训练的任务是固定的,很难学到泛化能力,没法复用到做其他任务。

这样训练出来的模型被困在了一个特定的领域,离我们想要的 AGI(人工通用智能)有点远。

GPT-1采用的架构

➢ Decode-only Transformer架构

➢ 预训练后针对特定任务微调

entailment术语翻译为"蕴涵"
1.用了4.6GB的BookCorpus数据集(该数据集主要是小说,openai 为了验证技术可行性,特意选了未出版的 7000 本书),无监督训练一个预训练模型,即generative pre-training,GPT 名字的由来。

2.对于子任务,用有标签的小的数据集训练一个微调模型,discriminative fine-tuning。
微调方式具体来说,可见上图右图部分。

对于每个任务,输入会被构造成一个连续的 token 序列。分类任务,会将输入文本拼接成一个序列,并在开头添加一个特殊token-start,在结尾增加 extract然后经过模型+线性层后输出结果,对于相似度的文本比较有趣,比如看 A 和 B 是否相似,那么就组成个序列分别为 AB 和 BA,其输入模型后,最终通过softmax 判断,是否相似,是个二分类问题。第四个问答其实是一个多分类问题。

这四个任务有一个共性,就是我们只需要对输入做定制化,输出做一些定制,但是中间的 transformer 模型不会去动它。

左图:GPT是一个transformer decoder-only的结构, MHA +add&norm 的 Block 其用了 12 层,参数量 0.11B,对,此时它还很小。另外输入的token 用了word2vec做了 embedding 表征。






GPT-2 (15亿参数)

➢ 将任务形式统一为单词预测

➢ Pr (output | input, task)

➢ 预训练与下游任务一致

➢ 使用提示进行无监督任务求解

➢ 初步尝试了规模扩展

GPT-3(1750亿参数)

➢ 模型规模达到1750亿参数

➢ 涌现出上下文学习能力

CodeX

➢ 代码数据训练

➢ 推理与代码合成能力


WebGPT

➢ 大语言模型使用浏览器

WebGPT: Browser-assisted question-answering with human feedback, Arxiv 2021

InstructGPT

➢ 大语言模型与人类价值观对齐

➢ 提出RLHF算法

Training language models to follow instructions with human feedback, NIPS 2022

1)、对GPT-3进行fine-tuning(监督微调)。

2)、再训练一个Reward Model(奖励模型,RM)

3)、最后通过增强学习优化SFT

值得注意的是,第2步、第3步是完全可以迭代、循环多次进行的。

Instruction GPT的训练规模

基础数据规模同GPT-3 ,只是在其基础上增加了3个步骤(监督微调SFT、奖励模型训练Reward Model,增强学习优化RPO)。

下图中labeler是指OpenAI雇佣或有相关关系的标注人员(labler)。

而customer则是指GPT-3 API的调用用户(即其他一些机器学习研究者、程序员等)。

本次ChatGPT上线后据说有百万以上的用户,我们每个人都是其customer,所以可以预见,未来GPT-4发布时,其customer规模至少是百万起。

ChatGPT

➢ 基于 InstructGPT 相似技术开发,面向对话进行优化

ChatGPT和InstructionGPT本质上是同一代际的,仅仅是在InstructionGPT的基础上,增加了Chat功能,同时开放到公众测试训练,以便产生更多有效标注数据。

GPT-4

➢ 推理能力显著提升,建立可预测的训练框架

➢ 可支持多模态信息的大语言模型

GPT-4 Technical Report, Arxiv 2023

GPT-4o

➢ 原生多模态模型,综合模态能力显著提升

➢ 支持统一处理和输出文本、音频、图片、视频信息

o系列模型

➢ 推理任务上能力大幅提升

➢ 长思维链推理能力

o-series

➢ 类似人类的"慢思考"过程

1.3.2DeepSeek 系列模型的技术演变

DeepSeek系列模型发展历程

➢ 训练框架:HAI-LLM

➢ 语言大模型:DeepSeek LLM/V2/V3、Coder/Coder-V2、Math

➢ 多模态大模型:DeepSeek-VL

➢ 推理大模型:DeepSeek-R1

DeepSeek 实现了较好的训练框架与数据准备

➢ 训练框架 HAI-LLM(发布于2023年6月)

➢ 大规模深度学习训练框架,支持多种并行策略

➢ 三代主力模型均基于该框架训练完成

➢ 数据采集

➢ V1和Math的报告表明清洗了大规模的Common Crawl,具备超大规模数据处理能力

➢ Coder的技术报告表明收集了大量的代码数据

➢ Math的技术报告表明清洗收集了大量的数学数据

➢ VL的技术报告表明清洗收集了大量多模态、图片数据

DeepSeek 进行了重要的网络架构、训练算法、性能优化探索

➢ V1 探索了scaling law分析(考虑了数据质量影响),用于预估超参数性能

➢ V2 提出了MLA高效注意力机制,提升推理性能

➢ V2、V3都针对MoE架构提出了相关稳定性训练策略

➢ V3 使用了MTP(多token预测)训练

➢ Math 提出了PPO的改进算法 GRPO

➢ V3详细介绍Infrastructure的搭建方法,并提出了高效 FP8 训练方法

DeepSeek-V3

➢ 671B参数(37B激活),14.8T训练数据

➢ 基于V2的MoE架构,引入了MTP和新的复杂均衡损失

➢ 对于训练效率进行了极致优化,共使用 2.788M H800 GPU时

DeepSeek-R1

DeepSeek-V3和DeepSeek-R1均达到了同期闭源模型的最好效果

➢ 开源模型实现了重要突破

为什么 DeepSeek 会引起世界关注

➢ 打破了OpenAI 闭源产品的领先时效性

➢ 国内追赶GPT-4的时间很长,然而复现o1模型的时间大大缩短

➢ 达到了与OpenAI现有API性能可比的水平

Large Language Model, 2025 (Book under progress)

为什么 DeepSeek 会引起世界关注

➢ 中国具备实现世界最前沿大模型的核心技术

➢ 模型开源、技术开放

参考:【大模型】GPT: Improving Language Understanding by Generative Pre-Training
AI 世界生存手册(二):从LR到DeepSeek,模型慢慢变大了,也变强了

相关推荐
NAGNIP10 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab12 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab12 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP15 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年15 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼16 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS16 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区17 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈17 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang18 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx