gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
程序员小崔日记12 分钟前
DeepSeek V4,我在做项目和写软著材料时,顺手用了一段时间
大模型·web开发·deepseek
CoderJia程序员甲1 小时前
GitHub 热榜项目 - 日榜(2026-05-03)
ai·大模型·llm·github·ai教程
卷Java3 小时前
GPT-Image 2隐藏玩法:一张产品图批量生成8种不同风格海报
gpt
码农的神经元5 小时前
拆解 SDGT 算法:图神经网络 + Transformer 如何做短期电力负荷预测
神经网络·算法·transformer
guslegend5 小时前
第4节:应用架构与代码组织
人工智能·大模型·ai编程
AI 编程助手GPT6 小时前
GPT-5.6意外曝光、Claude安全检查全面公测、Grok 4.3搅局价格战——多模型混战的五月,开发者如何避坑?
人工智能·gpt·ai·chatgpt·bug·ai编程
你可以叫我仔哥呀6 小时前
Agent架构之ReAct
人工智能·ai·大模型
Resistance丶未来7 小时前
Coding-Interview-University 学习路径实战评测
人工智能·gpt·学习·github·claude·gemini·kimi
索木木7 小时前
Flash Attention反向梯度优化显存
人工智能·机器学习·大模型·attention·训练·显存优化·aiinfra
哥本哈士奇(aspnetx)14 小时前
SQL Server 图数据库学习笔记1:构建图数据库
大模型