从零手搓中文GPT：原生transformer完整实现与详解

作者：xiaomin.zhang
项目地址 ：https://github.com/King2021521/nanogpt-zh
关键词：GPT、Transformer、深度学习、自然语言处理、PyTorch

📝 前言

在大语言模型（LLM）席卷全球的今天，GPT系列模型已经成为AI领域最耀眼的明星。但是，你是否真正理解GPT的工作原理？是否想过从零开始实现一个属于自己的GPT模型？

本文将带你走进NanoGPT-ZH项目------一个完全从零手工实现的中文GPT文本生成模型。不依赖任何transformers库，纯PyTorch实现，代码清晰，注释详细，非常适合深度学习爱好者学习和研究。

项目亮点：

🔧 100%手工实现，零外部Transformer依赖
🇨🇳 专为中文优化，支持中文文本生成
📚 代码清晰，注释详细，教育友好
⚡ 轻量级设计，7M参数，个人电脑可训练
🚀 完整流程，从数据处理到训练推理

🎯 一、项目概述

1.1 什么是NanoGPT-ZH？

NanoGPT-ZH是一个教育性质的深度学习项目，目标是通过从零实现一个小型GPT模型（约7M参数），深入理解Transformer架构和深度学习的核心概念。

1.2 为什么要做这个项目？

在学习深度学习的过程中，我发现很多教程要么过于理论化，要么直接使用封装好的库（如Hugging Face Transformers），导致学习者对模型内部机制一知半解。因此，我决定从零开始，手工实现每一个组件，让大家真正理解GPT的工作原理。

1.3 项目特点

特点	说明
完全手工实现	不依赖transformers库，所有组件从零实现
小规模参数	默认7M参数，可在个人电脑（甚至CPU）上训练
中文优化	使用jieba分词，专为中文文本生成优化
教育友好	代码清晰，注释详细，适合学习
完整流程	包含数据处理、模型训练、文本生成全流程
现代架构	采用Pre-LN、GELU等现代改进

🏗️ 二、Transformer架构详解

2.1 整体架构

NanoGPT-ZH采用Decoder-Only Transformer架构（GPT风格），与原始Transformer的Encoder-Decoder架构不同，只使用解码器部分。

复制代码

输入文本 (Token IDs)
    ↓
Token Embedding (词嵌入)
    ↓
Positional Encoding (位置编码)
    ↓
┌─────────────────────────────┐
│  Transformer Block 1        │
│  ├─ Causal Self-Attention   │  ← 因果自注意力
│  ├─ Layer Normalization     │  ← 层归一化
│  ├─ Feed Forward Network    │  ← 前馈网络
│  └─ Residual Connections    │  ← 残差连接
├─────────────────────────────┤
│  Transformer Block 2-6      │
│  └─ ...                     │
└─────────────────────────────┘
    ↓
Final Layer Normalization
    ↓
Language Model Head (输出层)
    ↓
Logits (词表概率分布)

2.2 核心组件

2.2.1 Token嵌入层

将离散的token ID转换为连续的向量表示。

python 复制代码

class TokenEmbedding(nn.Module):
    """
    Token嵌入层
    @Author xiaomin.zhang
    """
    def __init__(self, vocab_size, d_model):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, d_model)
        self.d_model = d_model
    
    def forward(self, x):
        # 乘以√d_model进行缩放（论文中的做法）
        return self.embedding(x) * math.sqrt(self.d_model)

为什么要乘以√d_model？

位置编码的值在[-1, 1]范围
嵌入向量的值较小
缩放使两者量级相当，便于相加

2.2.2 位置编码

Transformer没有循环结构，无法感知位置信息。位置编码为每个位置添加唯一的标识。

python 复制代码

class PositionalEncoding(nn.Module):
    """
    正弦余弦位置编码
    @Author xiaomin.zhang
    """
    def __init__(self, d_model, max_seq_len=5000, dropout=0.1):
        super().__init__()
        self.dropout = nn.Dropout(p=dropout)
        
        # 创建位置编码矩阵
        pe = torch.zeros(max_seq_len, d_model)
        position = torch.arange(0, max_seq_len, dtype=torch.float).unsqueeze(1)
        
        # 计算分母项
        div_term = torch.exp(
            torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model)
        )
        
        # 应用sin和cos
        pe[:, 0::2] = torch.sin(position * div_term)  # 偶数维度
        pe[:, 1::2] = torch.cos(position * div_term)  # 奇数维度
        
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)
    
    def forward(self, x):
        x = x + self.pe[:, :x.size(1), :]
        return self.dropout(x)

数学公式：

复制代码

PE(pos, 2i)   = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

2.2.3 多头自注意力机制

注意力机制是Transformer的核心，允许模型在处理每个位置时关注序列中的所有位置。

python 复制代码

class MultiHeadAttention(nn.Module):
    """
    多头注意力机制
    @Author xiaomin.zhang
    """
    def __init__(self, d_model, n_heads, dropout=0.1):
        super().__init__()
        assert d_model % n_heads == 0
        
        self.d_model = d_model
        self.n_heads = n_heads
        self.d_k = d_model // n_heads
        
        # Q, K, V的线性变换
        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model)
        self.W_v = nn.Linear(d_model, d_model)
        self.W_o = nn.Linear(d_model, d_model)
        
        self.dropout = nn.Dropout(dropout)
    
    def scaled_dot_product_attention(self, Q, K, V, mask=None):
        """缩放点积注意力"""
        # 计算注意力分数
        scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.d_k)
        
        # 应用mask（因果注意力）
        if mask is not None:
            scores = scores.masked_fill(mask == 0, float('-inf'))
        
        # Softmax归一化
        attention_weights = F.softmax(scores, dim=-1)
        attention_weights = self.dropout(attention_weights)
        
        # 应用到Value
        output = torch.matmul(attention_weights, V)
        return output, attention_weights

注意力公式：

复制代码

Attention(Q, K, V) = softmax(QK^T / √d_k) × V

直觉理解：

Query（查询）：当前词想要什么信息
Key（键）：其他词能提供什么信息
Value（值）：其他词的实际表示

2.2.4 因果自注意力

GPT使用因果注意力，确保每个位置只能看到它之前的位置，不能"偷看"未来。

python 复制代码

class CausalSelfAttention(MultiHeadAttention):
    """
    因果自注意力（用于GPT）
    @Author xiaomin.zhang
    """
    def __init__(self, d_model, n_heads, max_seq_len, dropout=0.1):
        super().__init__(d_model, n_heads, dropout)
        
        # 创建因果mask（下三角矩阵）
        causal_mask = torch.tril(torch.ones(max_seq_len, max_seq_len))
        self.register_buffer('causal_mask', 
                           causal_mask.view(1, 1, max_seq_len, max_seq_len))
    
    def forward(self, x):
        seq_len = x.size(1)
        mask = self.causal_mask[:, :, :seq_len, :seq_len]
        return super().forward(x, mask)

因果Mask示例：

复制代码

序列: [今天, 天气, 很好]

注意力矩阵（1=允许看，0=禁止）:
        今天  天气  很好
今天  [  1    0    0  ]  # 只能看自己
天气  [  1    1    0  ]  # 能看"今天"和自己
很好  [  1    1    1  ]  # 能看所有之前的

2.2.5 前馈神经网络

python 复制代码

class FeedForward(nn.Module):
    """
    前馈神经网络
    @Author xiaomin.zhang
    """
    def __init__(self, d_model, d_ff, dropout=0.1):
        super().__init__()
        self.linear1 = nn.Linear(d_model, d_ff)
        self.linear2 = nn.Linear(d_ff, d_model)
        self.dropout = nn.Dropout(dropout)
        self.activation = nn.GELU()  # GPT使用GELU
    
    def forward(self, x):
        x = self.linear1(x)
        x = self.activation(x)
        x = self.dropout(x)
        x = self.linear2(x)
        x = self.dropout(x)
        return x

公式：

复制代码

FFN(x) = GELU(xW₁ + b₁)W₂ + b₂

2.2.6 Transformer Block

python 复制代码

class TransformerBlock(nn.Module):
    """
    完整的Transformer层
    @Author xiaomin.zhang
    """
    def __init__(self, d_model, n_heads, d_ff, max_seq_len, dropout=0.1):
        super().__init__()
        
        self.attention = CausalSelfAttention(d_model, n_heads, max_seq_len, dropout)
        self.feed_forward = FeedForward(d_model, d_ff, dropout)
        self.ln1 = nn.LayerNorm(d_model)
        self.ln2 = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(dropout)
    
    def forward(self, x):
        # 子层1: 自注意力 + 残差连接（Pre-LN）
        attn_output = self.attention(self.ln1(x))
        x = x + self.dropout(attn_output)
        
        # 子层2: 前馈网络 + 残差连接
        ff_output = self.feed_forward(self.ln2(x))
        x = x + self.dropout(ff_output)
        
        return x

Pre-LN vs Post-LN：

Pre-LN（本项目）：在子层之前归一化，训练更稳定
Post-LN（原始论文）：在子层之后归一化

💻 三、完整代码实现

3.1 项目结构

复制代码

nanogpt-zh/
├── models/                    # 模型实现
│   ├── embedding.py           # 嵌入层和位置编码
│   ├── attention.py           # 注意力机制
│   ├── transformer.py         # Transformer Block
│   └── gpt.py                 # 完整GPT模型
├── utils/                     # 工具函数
│   ├── tokenizer.py           # 中文分词器
│   ├── data_loader.py         # 数据加载
│   └── trainer.py             # 训练器
├── scripts/                   # 数据处理脚本
│   ├── prepare_data.py        # 数据准备
│   └── extract_wiki.py        # 维基百科提取
├── tests/                     # 测试代码
├── examples/                  # 使用示例
├── docs/                      # 文档
├── config.py                  # 配置文件
└── train.py                   # 训练脚本

3.2 完整GPT模型

python 复制代码

class GPTModel(nn.Module):
    """
    完整的GPT模型
    @Author xiaomin.zhang
    """
    def __init__(self, config):
        super().__init__()
        self.config = config
        
        # 1. Token嵌入层
        self.token_embedding = TokenEmbedding(config.vocab_size, config.d_model)
        
        # 2. 位置编码
        self.pos_encoding = PositionalEncoding(
            config.d_model, config.max_seq_len, config.dropout
        )
        
        # 3. Transformer层堆叠
        self.transformer_blocks = nn.ModuleList([
            TransformerBlock(
                d_model=config.d_model,
                n_heads=config.n_heads,
                d_ff=config.d_ff,
                max_seq_len=config.max_seq_len,
                dropout=config.dropout
            )
            for _ in range(config.n_layers)
        ])
        
        # 4. 最后的Layer Normalization
        self.ln_f = nn.LayerNorm(config.d_model)
        
        # 5. 输出层（语言模型头）
        self.lm_head = nn.Linear(config.d_model, config.vocab_size, bias=False)
        
        # 6. 权重共享：嵌入层和输出层共享权重
        self.lm_head.weight = self.token_embedding.embedding.weight
        
        # 7. 初始化参数
        self.apply(self._init_weights)
        
        print(f"GPT模型初始化完成，参数量: {self.get_num_params() / 1e6:.2f}M")
    
    def forward(self, input_ids, targets=None):
        """前向传播"""
        # 1. Token嵌入
        x = self.token_embedding(input_ids)
        
        # 2. 添加位置编码
        x = self.pos_encoding(x)
        
        # 3. 通过所有Transformer层
        for block in self.transformer_blocks:
            x = block(x)
        
        # 4. 最后的归一化
        x = self.ln_f(x)
        
        # 5. 输出层
        logits = self.lm_head(x)
        
        # 6. 计算损失
        loss = None
        if targets is not None:
            loss = nn.functional.cross_entropy(
                logits.view(-1, logits.size(-1)),
                targets.view(-1),
                ignore_index=-1
            )
        
        return logits, loss
    
    @torch.no_grad()
    def generate(self, input_ids, max_new_tokens, temperature=1.0, 
                 top_k=None, top_p=None):
        """自回归生成文本"""
        self.eval()
        
        for _ in range(max_new_tokens):
            # 截断到max_seq_len
            input_ids_cond = input_ids if input_ids.size(1) <= self.config.max_seq_len \
                            else input_ids[:, -self.config.max_seq_len:]
            
            # 前向传播
            logits, _ = self(input_ids_cond)
            logits = logits[:, -1, :] / temperature
            
            # Top-K采样
            if top_k is not None:
                v, _ = torch.topk(logits, min(top_k, logits.size(-1)))
                logits[logits < v[:, [-1]]] = float('-inf')
            
            # Top-P采样
            if top_p is not None:
                sorted_logits, sorted_indices = torch.sort(logits, descending=True)
                cumulative_probs = torch.cumsum(
                    torch.softmax(sorted_logits, dim=-1), dim=-1
                )
                sorted_indices_to_remove = cumulative_probs > top_p
                sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
                sorted_indices_to_remove[..., 0] = 0
                indices_to_remove = sorted_indices_to_remove.scatter(
                    1, sorted_indices, sorted_indices_to_remove
                )
                logits[indices_to_remove] = float('-inf')
            
            # 采样
            probs = torch.softmax(logits, dim=-1)
            next_token = torch.multinomial(probs, num_samples=1)
            input_ids = torch.cat([input_ids, next_token], dim=1)
        
        return input_ids

3.3 配置文件

python 复制代码

class Config:
    """
    模型和训练配置
    @Author xiaomin.zhang
    """
    # 模型架构
    vocab_size = 10000          # 词表大小
    max_seq_len = 256           # 最大序列长度
    d_model = 256               # 模型维度
    n_layers = 6                # Transformer层数
    n_heads = 8                 # 注意力头数
    d_ff = 1024                 # 前馈网络维度
    dropout = 0.1               # Dropout概率
    
    # 训练参数
    batch_size = 32
    learning_rate = 3e-4
    weight_decay = 0.01
    max_epochs = 10
    warmup_steps = 1000
    
    # 采样参数
    temperature = 1.0
    top_k = 50
    top_p = 0.9

🚀 四、快速开始

4.1 环境准备

bash 复制代码

# 克隆项目
git clone https://github.com/King2021521/nanogpt-zh.git
cd nanogpt-zh

# 安装依赖
pip install -r requirements.txt

依赖列表：

复制代码

torch>=2.0.0
jieba>=0.42.1
tensorboard>=2.13.0
tqdm>=4.65.0
numpy>=1.24.0

4.2 数据准备

bash 复制代码

# 方式1：使用示例数据（快速测试）
python scripts/prepare_data.py

# 方式2：使用维基百科数据（推荐）
# 1. 下载中文维基百科
# 2. 提取文本
python scripts/extract_wiki.py --input zhwiki-latest-pages-articles.xml.bz2
# 3. 处理数据
python scripts/process_wiki_data.py

4.3 开始训练

bash 复制代码

# 开始训练
python train.py

# 查看训练日志（另开终端）
tensorboard --logdir=logs

训练输出示例：

复制代码

==================================================
中文GPT模型训练
==================================================

1. 加载分词器...
词表大小: 10000

2. 创建数据加载器...
训练样本数: 50000

3. 创建模型...
GPT模型初始化完成
参数量: 7.30M

4. 开始训练...
Epoch 1/10: 100%|██████████| 1563/1563 [05:23<00:00, 4.83it/s]
Train Loss: 4.2156 | Val Loss: 3.9823

4.4 文本生成

bash 复制代码

# 交互式生成
python examples/inference.py

生成示例：

python 复制代码

输入: 今天天气
生成: 今天天气很好，阳光明媚，适合出去散步。

输入: 人工智能
生成: 人工智能是计算机科学的一个分支，致力于创建能够模拟人类智能的系统。

📊 五、模型参数分析

5.1 参数量计算

python 复制代码

# 默认配置（vocab_size=10000, d_model=256, n_layers=6）

# 1. Token嵌入层
embedding = vocab_size × d_model = 10,000 × 256 = 2,560,000

# 2. 位置编码（不参与训练）
positional_encoding = 0

# 3. 单个Transformer Block
attention = 4 × (d_model × d_model) = 4 × 65,536 = 262,144
feed_forward = 2 × (d_model × d_ff) = 2 × 262,144 = 524,288
layer_norm = 2 × d_model = 512
block_total = 786,944

# 4. N层Transformer
all_blocks = n_layers × block_total = 6 × 786,944 = 4,721,664

# 5. 最后的Layer Norm
final_ln = d_model = 256

# 6. 输出层（与嵌入层共享权重）
lm_head = 0  # 权重共享

# 总参数量
total = 2,560,000 + 4,721,664 + 256 = 7,281,920 ≈ 7.3M

5.2 不同配置的参数量

配置	vocab_size	d_model	n_layers	参数量	适用场景
Tiny	5,000	128	4	~2M	快速实验
Small	10,000	256	6	~7M	个人电脑
Medium	20,000	512	12	~50M	单GPU
Large	50,000	768	24	~200M	多GPU

5.3 显存占用估算

python 复制代码

# 模型参数显存
model_memory = params × 4 bytes (FP32) = 7.3M × 4 = 29.2 MB

# 梯度显存
gradient_memory = params × 4 bytes = 29.2 MB

# 优化器状态（AdamW）
optimizer_memory = params × 8 bytes = 58.4 MB

# 激活值显存（batch_size=32, seq_len=256）
activation_memory ≈ batch_size × seq_len × d_model × n_layers × 4
                  = 32 × 256 × 256 × 6 × 4 ≈ 50 MB

# 总显存占用
total_memory ≈ 29.2 + 29.2 + 58.4 + 50 ≈ 167 MB

# 实际使用（包括PyTorch开销）
actual_memory ≈ 500 MB - 1 GB

🎓 六、训练技巧与优化

6.1 学习率调度

本项目使用预热 + 余弦退火策略：

python 复制代码

def lr_lambda(step):
    # 预热阶段：线性增长
    if step < warmup_steps:
        return step / warmup_steps
    
    # 余弦退火
    progress = (step - warmup_steps) / (max_steps - warmup_steps)
    return 0.5 * (1.0 + math.cos(math.pi * progress))

学习率曲线：

复制代码

LR
 ^
 |     /‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾\___
 |    /                        \___
 |   /                              \___
 |  /                                   \___
 | /                                        \___
 |/____________________________________________\___
 0        warmup      training                  max_steps

6.2 梯度裁剪

防止梯度爆炸：

python 复制代码

torch.nn.utils.clip_grad_norm_(model.parameters(), grad_clip=1.0)

6.3 权重衰减

L2正则化，防止过拟合：

python 复制代码

optimizer = torch.optim.AdamW(
    model.parameters(),
    lr=learning_rate,
    weight_decay=0.01  # 权重衰减
)

6.4 混合精度训练

使用FP16加速训练：

python 复制代码

from torch.cuda.amp import autocast, GradScaler

scaler = GradScaler()

with autocast():
    logits, loss = model(input_ids, targets)

scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

优势：

训练速度提升1.5-3倍
显存占用减少约50%

6.5 梯度累积

模拟更大的batch size：

python 复制代码

accumulation_steps = 4

for i, (input_ids, targets) in enumerate(dataloader):
    logits, loss = model(input_ids, targets)
    loss = loss / accumulation_steps
    loss.backward()
    
    if (i + 1) % accumulation_steps == 0:
        optimizer.step()
        optimizer.zero_grad()

📈 七、训练监控与调试

7.1 TensorBoard可视化

bash 复制代码

tensorboard --logdir=logs --port=6006

监控指标：

训练损失（train/loss）：应该持续下降
验证损失（val/loss）：应该下降，如果上升说明过拟合
困惑度（perplexity）：PPL = exp(loss)，越低越好
学习率（train/lr）：查看调度是否正常

7.2 训练曲线分析

正常训练

复制代码

Loss
  ^
  |  \___
  |      \___
  |          \___
  +-----------------> Steps

学习率过大

复制代码

Loss
  ^
  |  \/\/\/\
  |  /\/\/\/
  +-----------------> Steps

解决：降低学习率

过拟合

复制代码

Loss
  ^
  |  train ----\___
  |  val   ----/\/\/
  +-----------------> Steps

解决：增加dropout、weight_decay

7.3 常见问题排查

显存不足

python 复制代码

# 解决方案（按优先级）
1. 降低batch_size: 32 → 16
2. 减小seq_len: 256 → 128
3. 减小模型: d_model=128, n_layers=4
4. 使用梯度累积
5. 使用混合精度训练

损失不下降

python 复制代码

# 可能原因
1. 学习率过大 → 降低学习率
2. 学习率过小 → 提高学习率
3. 数据问题 → 检查数据质量
4. 梯度消失/爆炸 → 检查梯度范数

生成质量差

python 复制代码

# 解决方案
1. 训练不足 → 延长训练时间
2. 数据质量差 → 使用高质量语料
3. 采样参数不当 → 调整temperature, top_k, top_p
4. 模型太小 → 增加参数量

🔬 八、实验结果

8.1 训练配置

python 复制代码

# 硬件环境
GPU: NVIDIA GTX 1050 (4GB)
CPU: Intel i5-10400
RAM: 16GB

# 训练配置
vocab_size = 10000
d_model = 256
n_layers = 6
batch_size = 24
learning_rate = 3e-4
max_epochs = 10

# 数据
训练数据: 中文维基百科（50MB）
训练样本: 约50,000条
验证样本: 约5,000条

8.2 训练结果

复制代码

Epoch 1/10:  Train Loss: 4.21 | Val Loss: 3.98 | PPL: 53.6
Epoch 2/10:  Train Loss: 3.65 | Val Loss: 3.52 | PPL: 33.8
Epoch 3/10:  Train Loss: 3.28 | Val Loss: 3.25 | PPL: 25.8
Epoch 4/10:  Train Loss: 3.05 | Val Loss: 3.08 | PPL: 21.8
Epoch 5/10:  Train Loss: 2.89 | Val Loss: 2.96 | PPL: 19.3
...
Epoch 10/10: Train Loss: 2.45 | Val Loss: 2.68 | PPL: 14.6

训练时间: 约5小时
最终困惑度: 14.6

8.3 生成样本

Prompt : 今天天气
Generated: 今天天气很好，阳光明媚，温度适宜，非常适合外出活动。

Prompt : 人工智能
Generated: 人工智能是计算机科学的一个重要分支，它研究如何让计算机模拟人类的智能行为。

Prompt : 深度学习
Generated: 深度学习是机器学习的一个子领域，通过构建多层神经网络来学习数据的表示。

8.4 性能对比

模型	参数量	训练时间	困惑度	生成质量
NanoGPT-ZH	7.3M	5小时	14.6	⭐⭐⭐
GPT-2 Small	117M	-	~10	⭐⭐⭐⭐
GPT-2 Medium	345M	-	~8	⭐⭐⭐⭐⭐

💡 九、核心技术亮点

9.1 权重共享

python 复制代码

# 嵌入层和输出层共享权重
self.lm_head.weight = self.token_embedding.embedding.weight

优势：

减少参数量（节省2.56M参数）
提升性能（输入输出使用相同表示）
正则化效果（减少过拟合）

9.2 Pre-LN架构

python 复制代码

# Pre-LN: 在子层之前归一化
x = x + Sublayer(LayerNorm(x))

# 优于Post-LN
x = LayerNorm(x + Sublayer(x))

优势：

训练更稳定
不需要学习率预热
更容易训练深层网络

9.3 因果注意力

python 复制代码

# 创建下三角mask
causal_mask = torch.tril(torch.ones(max_seq_len, max_seq_len))

作用：

确保自回归生成
每个位置只能看到之前的位置
不能"偷看"未来

9.4 GELU激活函数

python 复制代码

# GELU比ReLU更平滑
self.activation = nn.GELU()

优势：

更平滑的梯度
更好的性能
GPT、BERT等模型的标准选择

🎯 十、学习建议

10.1 学习路径

初学者

阅读README了解项目
查看Transformer架构文档
运行测试代码理解组件
使用示例数据训练小模型

进阶用户

阅读参数指南了解调优
修改配置调整模型规模
使用维基百科数据训练
优化训练策略

高级用户

研究源码实现细节
扩展模型功能
优化训练性能
贡献代码

10.2 动手实践建议

从小模型开始

python 复制代码

# 快速验证配置
vocab_size = 5000
d_model = 128
n_layers = 4
batch_size = 16
max_epochs = 2

可视化理解

python 复制代码

# 查看注意力权重
import matplotlib.pyplot as plt
plt.imshow(attention_weights[0, 0].cpu().numpy())
plt.show()

实验对比

python 复制代码

# 尝试不同配置
- 不同的学习率
- 不同的dropout
- 不同的采样策略

记录实验

markdown 复制代码

# 创建实验日志
## 实验1: 基线模型
- 配置: d_model=256, n_layers=6
- 结果: Loss=2.68, PPL=14.6
- 观察: 生成质量一般

## 实验2: 增加层数
- 配置: d_model=256, n_layers=12
- 结果: Loss=2.45, PPL=11.6
- 观察: 生成质量提升

📚 十一、扩展方向

11.1 模型改进

更大的模型规模：增加参数量到50M-100M
更长的上下文：支持2048-4096 token
稀疏注意力：减少计算复杂度
相对位置编码：替代绝对位置编码

11.2 训练优化

分布式训练：多GPU/多机训练
Flash Attention：加速注意力计算
ZeRO优化器：减少显存占用
数据并行：提升训练速度

11.3 功能扩展

微调（Fine-tuning）：特定任务适配
RLHF：人类反馈强化学习
多任务学习：同时训练多个任务
对话系统：实现ChatGPT风格对话

11.4 应用开发

Web界面：Gradio/Streamlit界面
API服务：FastAPI部署
移动端部署：模型量化和优化
插件开发：VSCode/IDE插件

🌟 十二、总结与展望

12.1 项目总结

NanoGPT-ZH是一个完全从零实现的中文GPT模型，具有以下特点：

教育价值高 ⭐⭐⭐⭐⭐
- 代码清晰，注释详细
- 适合深度学习入门
- 理解Transformer原理的最佳实践
实现质量高 ⭐⭐⭐⭐⭐
- 100%手工实现
- 符合论文原理
- 包含现代改进
实用性强 ⭐⭐⭐⭐
- 可在个人电脑训练
- 完整的训练推理流程
- 详细的文档和指南

12.2 核心收获

通过本项目，你将学到：

Transformer架构
- 注意力机制的原理和实现
- 位置编码的作用
- 残差连接和归一化
GPT模型
- Decoder-Only架构
- 因果注意力机制
- 自回归文本生成
深度学习工程
- PyTorch模型实现
- 训练流程设计
- 性能优化技巧
项目实践
- 代码组织结构
- 文档编写
- 工程最佳实践

12.3 未来展望

随着大语言模型的快速发展，我们计划：

持续更新：跟进最新研究成果
社区建设：欢迎贡献和反馈
教程完善：制作视频教程
应用拓展：开发更多应用场景

12.4 致谢

感谢以下项目和论文的启发：

Attention Is All You Need - Transformer原论文
nanoGPT - Andrej Karpathy的GPT实现
The Annotated Transformer - Harvard NLP的详细注释

📞 联系方式

项目地址：https://github.com/King2021521/nanogpt-zh
作者：xiaomin.zhang

⭐ 如果觉得有帮助，请给个Star！

如果这个项目对你有帮助，欢迎：

⭐ Star项目
🔀 Fork项目
🐛 提Issue
💡 提Pull Request
📢 分享给朋友

最后，祝你学习愉快，早日掌握Transformer和GPT！ 🎉

版权声明 ：本文为原创文章，遵循MIT License开源协议。
转载声明 ：欢迎转载，但请注明出处并保留原文链接。
创作日期：2026年2月9日

附录：常用命令速查

bash 复制代码

# 环境准备
pip install -r requirements.txt

# 数据准备
python scripts/prepare_data.py

# 开始训练
python train.py

# 查看日志
tensorboard --logdir=logs

# 文本生成
python examples/inference.py

# 测试模型
python tests/test_model.py

# 测试GPU
python tests/test_gpu.py

NanoGPT-ZH - 从零手搓中文GPT

Made with ❤️ by xiaomin.zhang

GitHub | 文档 | Issues