gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
E等于MC平方3 小时前
AI 辅助物理课堂实验
人工智能·ai·大模型·模拟·物理·实验
南汁bbj3 小时前
Llama 4 开源了!1.2 万亿参数 MoE 模型本地部署 + 推理测试(附代码)
开源·llama
YBAdvanceFu4 小时前
拆解 MusicGen:Meta 开源音乐大模型,到底是怎么跑起来的?
人工智能·深度学习·机器学习·数据挖掘·transformer·agent·智能体
huisheng_qaq4 小时前
【AI入门篇-02】深入理解ChatGPT发展流程
人工智能·gpt·ai·chatgpt·大模型·transfomer
生物信息与育种5 小时前
黄三文院士领衔植物星球计划(PLANeT)发表Cell
人工智能·深度学习·算法·面试·transformer
陈天伟教授6 小时前
AI 未来趋势:产业应用范式之变
大数据·开发语言·人工智能·gpt
码农的神经元6 小时前
从论文复现到模型升级:Transformer-Attention-WOA-XGBoost 在含新能源配电网故障诊断中的实现
人工智能·深度学习·transformer
MClink6 小时前
Trae 自定义模型接入指南:把 DeepSeek、GLM、Qwen 装进你的 AI 编程助手
人工智能·大模型
智算菩萨7 小时前
OpenAI Codex 国内使用完全指南:Windows/macOS/Linux 三平台详细安装配置教程(现在最新的有gpt-5.3-codex和gpt-5.4)
linux·windows·gpt·macos·ai·ai编程·codex
庞轩px7 小时前
Transformer的核心思想——Attention机制直观理解
人工智能·rnn·深度学习·transformer·attention·q-k-v