用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节

大家好,今天的文章分享三个方面的内容:

  • 1、比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。

  • 2、大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。

  • 3、大语言模型的参数高效微调技术:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

本文内容较长,喜欢可以收藏、点赞、关注。

目录

      • 用通俗易懂的方式讲解系列
      • 技术交流
      • [0. 大纲](#0. 大纲)
      • [1. 大语言模型的细节](#1. 大语言模型的细节)
        • [1.0 transformer 与 LLM](#1.0 transformer 与 LLM)
        • [1.1 模型结构](#1.1 模型结构)
        • [1.2 训练目标](#1.2 训练目标)
        • [1.3 tokenizer](#1.3 tokenizer)
        • [1.4 位置编码](#1.4 位置编码)
        • [1.5 层归一化](#1.5 层归一化)
        • [1.6 激活函数](#1.6 激活函数)
        • [1.7 Multi-query Attention 与 Grouped-query Attention](#1.7 Multi-query Attention 与 Grouped-query Attention)
        • [1.8 并行 transformer block](#1.8 并行 transformer block)
        • [1.9 总结-训练稳定性](#1.9 总结-训练稳定性)
      • [2. LLM 的分布式预训练](#2. LLM 的分布式预训练)
        • [2.0 点对点通信与集体通信](#2.0 点对点通信与集体通信)
        • [2.1 数据并行](#2.1 数据并行)
        • [2.2 张量并行](#2.2 张量并行)
        • [2.3 流水线并行](#2.3 流水线并行)
        • [2.4 3D 并行](#2.4 3D 并行)
        • [2.5 混合精度训练](#2.5 混合精度训练)
        • [2.6 激活重计算](#2.6 激活重计算)
        • [2.7 ZeRO,零冗余优化器](#2.7 ZeRO,零冗余优化器)
        • [2.8 CPU-offload,ZeRO-offload](#2.8 CPU-offload,ZeRO-offload)
        • [2.9 Flash Attention](#2.9 Flash Attention)
        • [2.10 vLLM: Paged Attention](#2.10 vLLM: Paged Attention)
      • [3. LLM 的参数高效微调](#3. LLM 的参数高效微调)
        • [3.0 为什么进行参数高效微调?](#3.0 为什么进行参数高效微调?)
        • [3.1 prompt tuning](#3.1 prompt tuning)
        • [3.2 prefix tuning](#3.2 prefix tuning)
        • [3.3 adapter](#3.3 adapter)
        • [3.4 LLaMA adapter](#3.4 LLaMA adapter)
        • [3.5 LoRA](#3.5 LoRA)
        • [3.6 实验比较](#3.6 实验比较)

用通俗易懂的方式讲解系列

技术交流

技术要学会分享、交流,不建议闭门造车。一个人走的很快、一堆人可以走的更远。

建立了大模型技术交流群,大模型学习资料、数据代码、技术交流提升, 均可加知识星球交流群获取,群友已超过2000人,添加时切记的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区 ,后台回复:技术交流

方式②、添加微信号:mlc2060,备注:技术交流

0. 大纲

1. 大语言模型的细节

1.0 transformer 与 LLM
1.1 模型结构
1.2 训练目标
1.3 tokenizer
1.4 位置编码
1.5 层归一化
1.6 激活函数
1.7 Multi-query Attention 与 Grouped-query Attention
1.8 并行 transformer block
1.9 总结-训练稳定性

2. LLM 的分布式预训练

2.0 点对点通信与集体通信
2.1 数据并行
2.2 张量并行
2.3 流水线并行
2.4 3D 并行
2.5 混合精度训练
2.6 激活重计算
2.7 ZeRO,零冗余优化器
2.8 CPU-offload,ZeRO-offload
2.9 Flash Attention
2.10 vLLM: Paged Attention

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调?
3.1 prompt tuning
3.2 prefix tuning
3.3 adapter
3.4 LLaMA adapter
3.5 LoRA
3.6 实验比较

4. 参考文献

相关推荐
千寻girling2 小时前
Python 是用来做 AI 人工智能 的 , 不适合开发 Web 网站 | 《Web框架》
人工智能·后端·算法
AI攻城狮2 小时前
OpenClaw 里 TAVILY_API_KEY 明明写在 ~/.bashrc,为什么还是失效?一次完整排查与修复
人工智能·云原生·aigc
stark张宇2 小时前
构建第一个AI聊天机器人:Flask+DeepSeek+Postgres实战
人工智能·postgresql·flask
yiyu07163 小时前
3分钟搞懂深度学习AI:自我进化的最简五步法
人工智能·深度学习
浪浪山_大橙子5 小时前
OpenClaw 十分钟快速,安装与接入完全指南 - 推荐使用trae 官方 skills 安装
前端·人工智能
火山引擎开发者社区5 小时前
OpenClaw 快速上手:把云手机变成你的 7×24 小时 AI 手机助手
人工智能
Qlly5 小时前
DDD 架构为什么适合 MCP Server 开发?
人工智能·后端·架构
Lee川5 小时前
从零构建智能对话系统:AI Agent 实战指南
人工智能
冬奇Lab6 小时前
一天一个开源项目(第43篇):Star-Office-UI - 像素风格的 AI 办公室看板,让 AI 助手的工作状态可视化
人工智能·开源·资讯
风象南6 小时前
纯文本模型竟然也能直接“画图”,而且还很好用
前端·人工智能·后端