gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
山顶夕景16 小时前
【MLLM】Qwen3.5模型
大模型·llm·多模态·infra
PPIO派欧云18 小时前
Qwen3.5重磅发布 PPIO 模型服务平台同步上线
ai·大模型
AI周红伟19 小时前
周红伟:Agent Skills+OpenClaw+RAG+Agent+SeeDance2.0企业智能体智能体应用实战
人工智能·大模型·智能体·seedance
小草cys21 小时前
opencode/claude code自动写书啦
人工智能·自动化·大模型
2401_8288906421 小时前
正/余弦位置编码 Sinusoidal Encoding
python·自然语言处理·transformer·embedding
Tadas-Gao1 天前
架构逆转向量:AI时代规范驱动开发的范式重构与实践图谱
人工智能·云原生·重构·架构·系统架构·大模型
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2026-02-16)
大模型·llm·github·ai教程
小lo想吃棒棒糖1 天前
思路启发:基于预测编码的Transformer无反向传播训练:局部收敛性与全局最优性分析:
人工智能·深度学习·transformer
来两个炸鸡腿1 天前
【Datawhale组队学习202602】Hello-Agents task04智能体经典范式构建
人工智能·学习·大模型·智能体
AI周红伟1 天前
周红伟:企业大模型微调和部署, DeepSeek-OCR v2技术原理和架构,部署案例实操。RAG+Agent智能体构建
大数据·人工智能·大模型·ocr·智能体·seedance