gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
Duang007_10 分钟前
拆解 Transformer 的灵魂:全景解析 Attention 家族 (Self, Cross, Masked & GQA)
人工智能·深度学习·transformer
xixixi7777730 分钟前
对 两种不同AI范式——Transformer 和 LSTM 进行解剖和对比
人工智能·深度学习·大模型·lstm·transformer·智能·前沿
和你一起去月球1 小时前
Agent 应用开发与落地学习总结
大数据·ai·大模型·agent·agentic
三千世界0062 小时前
Claude Code Agent Skills 自动发现原理详解
人工智能·ai·大模型·agent·claude·原理
CoderJia程序员甲2 小时前
GitHub 热榜项目 - 日榜(2026-1-15)
开源·大模型·llm·github·ai教程
精致先生3 小时前
OCR发票识别
大模型·ocr
阿正的梦工坊3 小时前
pip install transformer_engine[pytorch]编译错误解决方法
pytorch·transformer·pip
huazi-J3 小时前
Datawhale Happy-LLM 课程 task 1和2:NLP基础概念
人工智能·自然语言处理·大模型·llm·datawhale
小辉笔记3 小时前
Transformer讲解
人工智能·深度学习·transformer
清 澜3 小时前
大模型扫盲式面试知识复习 (一)
人工智能·面试·大模型