gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
CoderJia程序员甲2 小时前
GitHub 热榜项目 - 日榜(2026-1-12)
ai·开源·大模型·github·ai教程
Lkygo6 小时前
LlamaIndex使用指南
linux·开发语言·python·llama
持续升级打怪中11 小时前
大模型微调实战指南:从理论到实践的全流程解析
大模型
高洁0112 小时前
AIGC技术与进展(1)
深度学习·算法·机器学习·transformer·知识图谱
Hcoco_me12 小时前
大模型面试题76:强化学习中on-policy和off-policy的区别是什么?
人工智能·深度学习·算法·transformer·vllm
韦东东14 小时前
万元级边缘算力方案:Mac Mini在几个知识库项目的部署实践
人工智能·macos·大模型·mac mini·边缘算力·知识库应用
杀生丸学AI15 小时前
【视频生成】HY-World 1.5:实时延迟和几何一致的交互式世界模型系统(腾讯混元)
人工智能·深度学习·3d·音视频·transformer·三维重建
人工智能培训15 小时前
AIGC技术与进展(2)
人工智能·深度学习·机器学习·大模型·aigc·ai工程师证书·ai证书
KAI智习17 小时前
大模型榜单周报(2026/1/17)
人工智能·大模型
CoderJia程序员甲17 小时前
GitHub 热榜项目 - 日榜(20260116)
ai·开源·大模型·github·ai教程