gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
pcplayer44 分钟前
Delphi程序和大模型交互之二
人工智能·ai·大模型·agent·delphi
~kiss~1 小时前
Ollama 底层的 llama.cpp 和 GGUF
llama
CoderJia程序员甲13 小时前
GitHub 热榜项目 - 日榜(2026-02-23)
人工智能·ai·大模型·github·ai教程
AI周红伟16 小时前
周红伟:信创大模型企业级部署实操,Qwen3.5 昇腾企业级部署案例实操
大数据·人工智能·大模型·智能体
光的方向_18 小时前
04-Tokenization实战-从BPE到Hugging-Face应用
人工智能·深度学习·chatgpt·transformer
sponge'18 小时前
opencv学习笔记14:transformer
笔记·学习·transformer
AI周红伟19 小时前
周红伟:Qwen3.5-Plus - 企业级部署案例实操,Qwen3.5 LLM,包括 Qwen3.5-397B-A17B
大数据·人工智能·大模型·智能体
风栖柳白杨20 小时前
【Transformer】核心思想与原理
人工智能·深度学习·transformer
带娃的IT创业者1 天前
预测编码=Decoder 训练?Friston 自由能的 Transformer 实现
人工智能·深度学习·transformer·脑机接口·nct·硅基生命·意识编码
带娃的IT创业者1 天前
STDP+Transformer:当局部可塑性遇见全局语义
人工智能·深度学习·神经网络·transformer·ai智能体·硅基生命·意识编程实现