gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
CoderJia程序员甲8 小时前
GitHub 热榜项目 - 日榜(2026-01-26)
ai·开源·大模型·github·ai教程
胖墩会武术16 小时前
《图像分割简史》
人工智能·神经网络·cnn·transformer
猿小羽17 小时前
深度实战:Spring AI 与 MCP(Model Context Protocol)构建下一代 AI Agent
java·大模型·llm·ai agent·spring ai·开发者工具·mcp
zerone-f17 小时前
百度文心大模型疑似遭RAG投毒
大模型·rag投毒·百度文心一言
勇气要爆发17 小时前
【AI扫盲】大模型(LLM)原理详解:从 DeepSeek 到 GPT-5 全面解析 (2026最新版)
人工智能·gpt·机器学习·llm·微调·多模态·预训练
大海梦想18 小时前
在Trae中使用Pencil MCP
ai·大模型·trae·vibe design·pencil
C蔡博士19 小时前
智能金融客服助手:从大模型API调用到私有化Agent的实战演进
金融·大模型·智能体·垂直ai
kicikng20 小时前
智能体来了(西南总部):AI Agent 指挥官与 AI 调度官如何重塑企业智能体体系
人工智能·大模型·智能调度·智能体体系·应用层架构
应用市场21 小时前
【图像描述生成】GAT:融合几何注意力与位置感知LSTM的Transformer模型详解
人工智能·lstm·transformer