Transformer 从零开始

资料:

从零开始

环境

bash 复制代码
conda create -n torch python=3.12
conda activate torch

# Install PyTorch (CPU version)
pip install torch torchvision
# Install PyTorch with CUDA (version <= nvidia-smi shown)
#  https://pytorch.org/get-started/locally
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

运行

bash 复制代码
cd start-deep-learning/practice/Transformer
pip install -r requirements.txt
python build_transformer.py

BATCH_SIZE 4, 可以改 32,如果显存够大。我呢,训不太动 😢

进化线

之后是概括,给一些关键词。基此问一下 AI,能得到更好的回答呢。

例如,DeepSeek 归纳了 5 条核心进化线,

如果把大模型比作一辆车:

  • Attention引擎(GQA/MLA 是省油技术);
  • Normalization底盘悬挂(RMSNorm 保证行驶稳定);
  • 激活函数燃油标号(SwiGLU 是高标号汽油);
  • 位置编码导航系统(RoPE 让你知道该去哪);
  • 架构车身设计(Decode-Only 最终统一了赛道)。

这些进化线相互配合,才有了今天又长、又快、又强的 LLM。

架构进化

Encoder-Decoder: 原始,适合 Seq2Seq 任务

Decoder-only (Causal): 当前,经过 Scaling Laws 验证

Attention 进化

KV Cache 优化,

注意力机制 KV Cache 量级 表达能力 核心思想
MHA (多头注意力) 最大 (H) 最强 每个头独立看世界
MQA (多查询注意力) 最小 (1) 较弱 所有人用同一套记忆
GQA (分组查询注意力) 中等 (G) 可控 分组共享,折中之道
MLA (多头潜在注意力) 极小 (≈1) 压缩记忆,解耦计算

计算模式优化,

  • Sliding Window Attention (滑动窗口注意力)
  • FlashAttention: 改进 GPU 的访存算法
  • Sparse Attention (稀疏注意力)

位置编码进化

让模型理解顺序,

  • 绝对位置编码
  • 相对位置编码
  • RoPE (旋转位置编码): 当前主流,更好的长度外推
  • ALiBi

激活函数进化

增强非线性,

  • ReLU
  • GeLU
  • SwiGLU

结语

开篇的资料 ① 适合入门,资料 ② 适合实践,都是超级棒的文章,值得学习 👍

相关推荐
这张生成的图像能检测吗5 小时前
(论文速读)IMSE-IGA-CNN-Transformer
人工智能·深度学习·cnn·transformer·故障诊断·预测模型·时序模型
大连好光景5 小时前
《从函数到大模型速通》
rnn·cnn·transformer
Flying pigs~~7 小时前
LoRA 面试完全指南:低秩分解原理 + Transformer 应用
人工智能·深度学习·lora·大模型·微调·transformer
高洁018 小时前
大模型部署资源不足?轻量化部署解决方案
python·深度学习·机器学习·数据挖掘·transformer
高洁0114 小时前
AI项目团队意见分歧?协调与决策方法
人工智能·深度学习·数据挖掘·transformer·知识图谱
我是无敌小恐龙2 天前
Java SE 零基础入门Day06 方法重载+Debug调试+String字符串全套API详解(超全干货)
java·开发语言·人工智能·python·transformer·无人机·量子计算
aidesignplus2 天前
从平方到线性:Mamba如何挑战Transformer的长序列效率瓶颈?
人工智能·python·深度学习·vim·transformer
qcx232 天前
AI 工程知识图谱:从 Transformer 到 Agentic AI 的全景地图
人工智能·transformer·知识图谱
数智工坊2 天前
【Anchor DETR论文阅读】:基于锚点查询设计的Transformer检测器,50epoch收敛且速度精度双升
论文阅读·深度学习·transformer
生物信息与育种2 天前
JIPB | 一个表观多组学整合分析与可视化工具OmicsCanvas
运维·人工智能·算法·自动化·transformer