gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
Wenweno0o5 小时前
Eino-Document 组件使用指南
golang·大模型·智能体·eino
code_pgf8 小时前
Qwen2.5-VL 算法解析
人工智能·深度学习·算法·transformer
菜鸟‍10 小时前
【论文学习】Transformer中的数据流动
深度学习·学习·transformer
高洁0110 小时前
大模型在天文科研中的应用:天体数据分析
人工智能·深度学习·数据挖掘·transformer·知识图谱
陈振wx:zchen200813 小时前
SpringAI+DeepSeek大模型开发
大模型·springai·deepseek
liu****13 小时前
LangGraph-AI应用开发框架(二)
windows·langchain·大模型·工作流·langgraph
路人与大师13 小时前
在天垓150上部署 Llama-2-13B:一次 Iluvatar BI-V150 / CoreX 实战适配记录
llama
code_pgf13 小时前
Llama 3 / Qwen / Mistral / DeepSeek 对比详解
人工智能·知识图谱·llama
xixixi7777714 小时前
从Mythos到GPT-5.4-Cyber:AI安全竞赛的“双轨”分化与防御新范式
网络·gpt·安全·机器学习·架构·大模型·claude
loong_XL14 小时前
2026智能体爆发现象级产品:OpenClaw、Hermes Agent、Claude Cowork
大模型·agent·智能体·claw·龙虾