gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
热爱生活的五柒7 小时前
026主流三大模型(GPT / Gemini / Claude Code)总结
人工智能·gpt
高兴就好(石8 小时前
Mac使用llama.cpp
macos·llama
New_Horizons66615 小时前
Claude Code的安装和使用(Win10)
大模型·claude code
陈天伟教授15 小时前
GPT Image 2-勾股定理
大数据·数据库·人工智能·gpt
Forrit15 小时前
Agent 调用工具失败了,是直接报错,还是有重试?重试策略怎么设计的?
transformer
数字游民952716 小时前
gpt image 2怎么用?附超全提示词案例库
人工智能·gpt·ai·opc·waytoopc·数字游民9527
GPUStack17 小时前
Day 0 部署:昇腾 910B DeepSeek-V4 部署指南与压测表现
大模型·ascend·模型推理·deepseek·gpustack
庄小焱17 小时前
【AI模型】——RAG格式集成
大模型·rag·ai模型·模型结果格式化
guokai.wu18 小时前
GPT-5.5 简要介绍(免费使用方法)
gpt
冰西瓜60018 小时前
深度学习的数学原理(三十)—— Transformer的子层连接:残差+层归一化
人工智能·深度学习·transformer