婴儿版训练GPT

import numpy as np

==============================

1. 固定词典(你建立的字典)

==============================

vocab = {"我":0, "喜":1, "欢":2, "中":3, "国":4, "美":5, "食":6, "[END]":7}

idx2word = {v:k for k,v in vocab.items()}

vocab_size = len(vocab)

d_model = 8 # 向量维度

lr = 0.1 # 学习率(训练步长)

==============================

2. 初始化所有矩阵!【随机,但会被训练】

==============================

np.random.seed(42) # 固定初始随机值,方便看效果

embedding = np.random.randn(vocab_size, d_model) # 嵌入矩阵

Wq = np.random.randn(d_model, d_model) # 注意力Q

Wk = np.random.randn(d_model, d_model) # 注意力K

Wv = np.random.randn(d_model, d_model) # 注意力V

output_layer = np.random.randn(d_model, vocab_size) # 输出层

==============================

3. 定义 softmax(稳定版)

==============================

def softmax(x):

exp_x = np.exp(x - np.max(x, axis=-1, keepdims=True))

return exp_x / np.sum(exp_x, axis=-1, keepdims=True)

==============================

4. 【核心】前向传播(模型预测)

==============================

def forward(input_ids):

字 → 向量

x = embedding[input_ids]

自注意力

Q = x @ Wq

K = x @ Wk

V = x @ Wv

scores = Q @ K.T / np.sqrt(d_model)

attn_weights = softmax(scores)

attn_out = attn_weights @ V

取最后一个token → 预测下一个字

last_vec = attn_out[-1]

logits = last_vec @ output_layer

probs = softmax(logits)

return x, Q, K, V, scores, attn_weights, attn_out, last_vec, logits, probs

==============================

5. 【核心】训练!反向传播(调参)

让模型从错误中学习

==============================

def train(input_ids, target_id):

global embedding, Wq, Wk, Wv, output_layer

1. 前向预测

x, Q, K, V, scores, attn_weights, attn_out, last_vec, logits, probs = forward(input_ids)

2. 计算误差(预测值 - 真实值)

loss = -np.log(probs[target_id] + 1e-10) # 损失越小越准

3. 反向更新所有矩阵(学习过程)

grad_logits = probs.copy()

grad_logits[target_id] -= 1

更新输出层

grad_output_layer = np.outer(last_vec, grad_logits)

output_layer -= lr * grad_output_layer

更新注意力 & 嵌入层(简化版,让模型能学到)

grad_last = grad_logits @ output_layer.T

embedding[input_ids[-1]] -= lr * grad_last

return loss, probs

==============================

6. 开始训练!

输入:我喜欢中国 → 目标:输出 美(ID=5)

==============================

input_text = "我喜欢中国"

input_ids = [vocab[c] for c in input_text]

target_id = 5 # 正确答案:美

print("===== 开始训练(越训练,越准)=====\n")

for step in range(200): # 训练200次

loss, probs = train(input_ids, target_id)

pred_id = np.argmax(probs)

pred_word = idx2word[pred_id]

true_word = idx2word[target_id]

每10步打印一次

if step % 10 == 0:

print(f"训练步数 {step:3d} | 损失:{loss:.4f} | 预测:{pred_word} | 正确:{true_word}")

==============================

训练完成,最终测试

==============================

print("\n===== 训练完成!最终预测 =====")

_, _, _, _, _, _, _, _, _, probs = forward(input_ids)

pred_id = np.argmax(probs)

pred_word = idx2word[pred_id]

print(f"输入:{input_text}")

print(f"模型预测下一个字:【 {pred_word} 】")

print("? 训练成功!模型学会了!")

相关推荐
CLX05056 分钟前
C#怎么实现全局异常过滤器_C#如何捕获控制器报错【核心】
jvm·数据库·python
性野喜悲11 分钟前
python将excel中的链接转成图片并替换链接展示在excel中【将pdf的第一页插入excel并将对应信息获取到插入签名等位置】
开发语言·python·excel
Marvel__Dead12 分钟前
基于 AI 大模型的百度旋转验证识别(通用能力极强)
人工智能·爬虫·python·验证码识别·ai 大模型
Leinwin18 分钟前
OpenAI Daybreak实战指南:如何将AI安全检查嵌入你的开发流程
后端·python·flask
monkeyhlj23 分钟前
LangChain - V1.0
python·langchain·ai编程
zh路西法33 分钟前
【Qwen2.5本地部署】超简单pytorch-gpu部署教程
人工智能·pytorch·python
狐狐生风40 分钟前
LangGraph Human-in-the-loop 全解
python·langchain·prompt·langgraph·agentai
TangGeeA40 分钟前
Hermes Agent RL / Evaluation Environment 使用与实现分析
人工智能·深度学习·机器学习
CS创新实验室1 小时前
OpenAI GPT-5.5 技术深度报告
人工智能·gpt·大模型·llm
倒霉熊dd1 小时前
Python 学习(第二部分:函数、模块与面向对象编程)
前端·数据库·python