gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
未羽出衫2 小时前
DB-GPT本地模型+tuGragh安装使用
数据库·gpt
keep_learning1112 小时前
Z-Image模型架构全解析
人工智能·算法·计算机视觉·大模型·多模态
CoderOnly3 小时前
【代码】下载COIG-CQIA数据集并转为alpaca jsonl/json格式
大模型
高洁014 小时前
深度学习—卷积神经网络(3)
人工智能·深度学习·机器学习·transformer·知识图谱
CoderJia程序员甲4 小时前
GitHub 热榜项目 - 日榜(2025-12-31)
开源·大模型·llm·github·ai教程
深度学习实战训练营6 小时前
结合 Swin Transformer 与 LSTM 的残差自回归模型,用于高精度光学波前时序预测与相位重建
回归·lstm·transformer
Coder个人博客6 小时前
Llama.cpp GGML 模块深度分析
人工智能·自动驾驶·llama
司南OpenCompass7 小时前
司南“六位一体”评测体系的一年演进
人工智能·大模型·多模态模型·大模型评测·司南评测·ai评测
KG_LLM图谱增强大模型7 小时前
OntoMetric:破解ESG报告难题的“大模型+本体知识图谱”新范式,准确率提升10倍
人工智能·大模型·知识图谱
chen_song_8 小时前
Transformer架构及其源码实现
人工智能·深度学习·transformer