gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
chaofan9801 分钟前
OpenAI重塑设计生产力!GPT-image-2发布:从像素拼接到代理推理的范式跃迁
人工智能·gpt·深度学习·计算机视觉·api
深度智能Ai1 小时前
GPT Image 2 图片生成 API 接口对接文档
android·gpt
AI 编程助手GPT1 小时前
GPT-5.5与Claude Opus 4.7编程能力深度对比:2026年4月主流AI编程模型选型指南
大数据·人工智能·gpt·ai·ai编程
山顶夕景2 小时前
【Agent】Openclaw架构(Gateway|subagent|工具过滤|Sandbox)
大模型·llm·agent·智能体·openclaw
大龄程序员狗哥2 小时前
第45篇:文本生成实战:使用GPT-2创作故事——体验AI的“创造力”(项目实战)
人工智能·gpt
小wu学cv2 小时前
llama.cpp调用GPU推理Qwen3.5-0.8b模型
llama
zhangfeng11332 小时前
LLaMA-Factory 保存 checkpoint 时崩溃解决办法 OOM 内存溢出(不是显存)
运维·服务器·人工智能·深度学习·llama
lulu12165440782 小时前
国内怎么用GPT5.5?基于weelinking零门槛合规接入GPT5.5全系列生产级能力
java·人工智能·python·gpt·ai编程
桂花饼2 小时前
深度体验:新一代 AI 绘图模型 GPTimage2 技术亮点与国内直连/API接入实践
人工智能·gpt·sora2·nano banana 2·claude-opus-4-6·gptimage2
默 语2 小时前
从 0 到 1 实战:魔珐星云 SDK 搭建实时交互屏幕助手(附可直接运行源码)
gpt·microsoft·开源·prompt·aigc·ai写作·agi