用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节

大家好,今天的文章分享三个方面的内容:

  • 1、比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。

  • 2、大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。

  • 3、大语言模型的参数高效微调技术:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

本文内容较长,喜欢可以收藏、点赞、关注。

目录

      • 用通俗易懂的方式讲解系列
      • 技术交流
      • [0. 大纲](#0. 大纲)
      • [1. 大语言模型的细节](#1. 大语言模型的细节)
        • [1.0 transformer 与 LLM](#1.0 transformer 与 LLM)
        • [1.1 模型结构](#1.1 模型结构)
        • [1.2 训练目标](#1.2 训练目标)
        • [1.3 tokenizer](#1.3 tokenizer)
        • [1.4 位置编码](#1.4 位置编码)
        • [1.5 层归一化](#1.5 层归一化)
        • [1.6 激活函数](#1.6 激活函数)
        • [1.7 Multi-query Attention 与 Grouped-query Attention](#1.7 Multi-query Attention 与 Grouped-query Attention)
        • [1.8 并行 transformer block](#1.8 并行 transformer block)
        • [1.9 总结-训练稳定性](#1.9 总结-训练稳定性)
      • [2. LLM 的分布式预训练](#2. LLM 的分布式预训练)
        • [2.0 点对点通信与集体通信](#2.0 点对点通信与集体通信)
        • [2.1 数据并行](#2.1 数据并行)
        • [2.2 张量并行](#2.2 张量并行)
        • [2.3 流水线并行](#2.3 流水线并行)
        • [2.4 3D 并行](#2.4 3D 并行)
        • [2.5 混合精度训练](#2.5 混合精度训练)
        • [2.6 激活重计算](#2.6 激活重计算)
        • [2.7 ZeRO,零冗余优化器](#2.7 ZeRO,零冗余优化器)
        • [2.8 CPU-offload,ZeRO-offload](#2.8 CPU-offload,ZeRO-offload)
        • [2.9 Flash Attention](#2.9 Flash Attention)
        • [2.10 vLLM: Paged Attention](#2.10 vLLM: Paged Attention)
      • [3. LLM 的参数高效微调](#3. LLM 的参数高效微调)
        • [3.0 为什么进行参数高效微调?](#3.0 为什么进行参数高效微调?)
        • [3.1 prompt tuning](#3.1 prompt tuning)
        • [3.2 prefix tuning](#3.2 prefix tuning)
        • [3.3 adapter](#3.3 adapter)
        • [3.4 LLaMA adapter](#3.4 LLaMA adapter)
        • [3.5 LoRA](#3.5 LoRA)
        • [3.6 实验比较](#3.6 实验比较)

用通俗易懂的方式讲解系列

技术交流

技术要学会分享、交流,不建议闭门造车。一个人走的很快、一堆人可以走的更远。

建立了大模型技术交流群,大模型学习资料、数据代码、技术交流提升, 均可加知识星球交流群获取,群友已超过2000人,添加时切记的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区 ,后台回复:技术交流

方式②、添加微信号:mlc2060,备注:技术交流

0. 大纲

1. 大语言模型的细节

1.0 transformer 与 LLM
1.1 模型结构
1.2 训练目标
1.3 tokenizer
1.4 位置编码
1.5 层归一化
1.6 激活函数
1.7 Multi-query Attention 与 Grouped-query Attention
1.8 并行 transformer block
1.9 总结-训练稳定性

2. LLM 的分布式预训练

2.0 点对点通信与集体通信
2.1 数据并行
2.2 张量并行
2.3 流水线并行
2.4 3D 并行
2.5 混合精度训练
2.6 激活重计算
2.7 ZeRO,零冗余优化器
2.8 CPU-offload,ZeRO-offload
2.9 Flash Attention
2.10 vLLM: Paged Attention

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调?
3.1 prompt tuning
3.2 prefix tuning
3.3 adapter
3.4 LLaMA adapter
3.5 LoRA
3.6 实验比较

4. 参考文献

相关推荐
愚公搬代码8 小时前
【愚公系列】《AI+直播营销》015-直播的选品策略(设计直播产品矩阵)
人工智能·线性代数·矩阵
静听松涛1338 小时前
中文PC端多人协作泳道图制作平台
大数据·论文阅读·人工智能·搜索引擎·架构·流程图·软件工程
学历真的很重要9 小时前
LangChain V1.0 Context Engineering(上下文工程)详细指南
人工智能·后端·学习·语言模型·面试·职场和发展·langchain
IT=>小脑虎9 小时前
Python零基础衔接进阶知识点【详解版】
开发语言·人工智能·python
黄焖鸡能干四碗9 小时前
智能制造工业大数据应用及探索方案(PPT文件)
大数据·运维·人工智能·制造·需求分析
世岩清上9 小时前
乡村振兴主题展厅本土化材料运用与地域文化施工表达
大数据·人工智能·乡村振兴·展厅
工藤学编程9 小时前
零基础学AI大模型之LangChain智能体执行引擎AgentExecutor
人工智能·langchain
图生生9 小时前
基于AI的商品场景图批量生成方案,助力电商大促效率翻倍
人工智能·ai
说私域9 小时前
短视频私域流量池的变现路径创新:基于AI智能名片链动2+1模式S2B2C商城小程序的实践研究
大数据·人工智能·小程序
yugi9878389 小时前
用于图像分类的EMAP:概念、实现与工具支持
人工智能·计算机视觉·分类