用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节

大家好,今天的文章分享三个方面的内容:

  • 1、比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。

  • 2、大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。

  • 3、大语言模型的参数高效微调技术:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

本文内容较长,喜欢可以收藏、点赞、关注。

目录

      • 用通俗易懂的方式讲解系列
      • 技术交流
      • [0. 大纲](#0. 大纲)
      • [1. 大语言模型的细节](#1. 大语言模型的细节)
        • [1.0 transformer 与 LLM](#1.0 transformer 与 LLM)
        • [1.1 模型结构](#1.1 模型结构)
        • [1.2 训练目标](#1.2 训练目标)
        • [1.3 tokenizer](#1.3 tokenizer)
        • [1.4 位置编码](#1.4 位置编码)
        • [1.5 层归一化](#1.5 层归一化)
        • [1.6 激活函数](#1.6 激活函数)
        • [1.7 Multi-query Attention 与 Grouped-query Attention](#1.7 Multi-query Attention 与 Grouped-query Attention)
        • [1.8 并行 transformer block](#1.8 并行 transformer block)
        • [1.9 总结-训练稳定性](#1.9 总结-训练稳定性)
      • [2. LLM 的分布式预训练](#2. LLM 的分布式预训练)
        • [2.0 点对点通信与集体通信](#2.0 点对点通信与集体通信)
        • [2.1 数据并行](#2.1 数据并行)
        • [2.2 张量并行](#2.2 张量并行)
        • [2.3 流水线并行](#2.3 流水线并行)
        • [2.4 3D 并行](#2.4 3D 并行)
        • [2.5 混合精度训练](#2.5 混合精度训练)
        • [2.6 激活重计算](#2.6 激活重计算)
        • [2.7 ZeRO,零冗余优化器](#2.7 ZeRO,零冗余优化器)
        • [2.8 CPU-offload,ZeRO-offload](#2.8 CPU-offload,ZeRO-offload)
        • [2.9 Flash Attention](#2.9 Flash Attention)
        • [2.10 vLLM: Paged Attention](#2.10 vLLM: Paged Attention)
      • [3. LLM 的参数高效微调](#3. LLM 的参数高效微调)
        • [3.0 为什么进行参数高效微调?](#3.0 为什么进行参数高效微调?)
        • [3.1 prompt tuning](#3.1 prompt tuning)
        • [3.2 prefix tuning](#3.2 prefix tuning)
        • [3.3 adapter](#3.3 adapter)
        • [3.4 LLaMA adapter](#3.4 LLaMA adapter)
        • [3.5 LoRA](#3.5 LoRA)
        • [3.6 实验比较](#3.6 实验比较)

用通俗易懂的方式讲解系列

技术交流

技术要学会分享、交流,不建议闭门造车。一个人走的很快、一堆人可以走的更远。

建立了大模型技术交流群,大模型学习资料、数据代码、技术交流提升, 均可加知识星球交流群获取,群友已超过2000人,添加时切记的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区 ,后台回复:技术交流

方式②、添加微信号:mlc2060,备注:技术交流

0. 大纲

1. 大语言模型的细节

1.0 transformer 与 LLM
1.1 模型结构
1.2 训练目标
1.3 tokenizer
1.4 位置编码
1.5 层归一化
1.6 激活函数
1.7 Multi-query Attention 与 Grouped-query Attention
1.8 并行 transformer block
1.9 总结-训练稳定性

2. LLM 的分布式预训练

2.0 点对点通信与集体通信
2.1 数据并行
2.2 张量并行
2.3 流水线并行
2.4 3D 并行
2.5 混合精度训练
2.6 激活重计算
2.7 ZeRO,零冗余优化器
2.8 CPU-offload,ZeRO-offload
2.9 Flash Attention
2.10 vLLM: Paged Attention

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调?
3.1 prompt tuning
3.2 prefix tuning
3.3 adapter
3.4 LLaMA adapter
3.5 LoRA
3.6 实验比较

4. 参考文献

相关推荐
深蓝海拓3 分钟前
使用sam进行零样本、零学习的分割实践
人工智能·深度学习·学习·目标检测·计算机视觉
香橙薄荷心3 分钟前
学一学前沿开发语言之Python
人工智能·python
人类群星闪耀时18 分钟前
利用AI进行系统性能优化:智能运维的新时代
运维·人工智能·性能优化
AZDNA25 分钟前
搭建医疗行业AI知识库:提升信息管理与服务效能
大数据·人工智能
SmartBrain1 小时前
AI新书推荐:深度学习和大模型原理与实践(清华社)
人工智能·深度学习
是十一月末1 小时前
opencv实现KNN算法识别图片数字
人工智能·python·opencv·算法·k-近邻算法
百家方案1 小时前
「下载」智慧园区及重点区域安全防范解决方案:框架统一规划,建设集成管理平台
大数据·人工智能·安全·智慧园区·数智化园区
Ven%2 小时前
DeepSpeed的json配置讲解:ds_config_zero3.json
人工智能·python·ubuntu·json·aigc
z千鑫2 小时前
【AIGC】AI、大数据、机器学习、深度学习、神经网络之间的关系详解:你必须知道的5个关键点!
人工智能·深度学习·机器学习
金书世界2 小时前
自动驾驶AVM环视算法--python版本的车轮投影模式
人工智能·机器学习·自动驾驶