gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
绵满2 小时前
"Natural-Language Agent Harnesses" 论文笔记
大模型·多智能体
大数据AI人工智能培训专家培训讲师叶梓3 小时前
Merlin:面向腹部 CT 的三维视觉语言基础模型
人工智能·计算机视觉·大模型·医疗·ct·视觉大模型·医疗人工智能
AIBox3654 小时前
openclaw api 配置排查与接入指南:网关启动、配置文件和模型接入全流程
javascript·人工智能·gpt
做个文艺程序员5 小时前
2026 年开源大模型选型指南:Qwen3.5 / DeepSeek V3.2 / Llama 4 横向对比
人工智能·开源·llama
guslegend5 小时前
系统整体设计方案
人工智能·大模型·知识图谱
guslegend6 小时前
4月5日(大语言模型训练原理)
人工智能·大模型
一 铭6 小时前
Claude Code实现原理分析-架构设计
人工智能·大模型
handsomestWei6 小时前
OneAPI网关使用简介
ai·大模型·llm·oneapi
小超同学你好8 小时前
Transformer 22. Gemma 1 架构详解:Decoder-only、GeGLU、RoPE 与每一步计算
人工智能·深度学习·transformer
行者无疆_ty8 小时前
如何在个人电脑部署大模型实现Token自由
人工智能·大模型·agent