gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
前端摸鱼匠33 分钟前
【AI大模型春招面试题12】Scaling Laws揭示了模型性能、数据量、计算量之间的什么关系?
人工智能·ai·语言模型·面试·大模型
问道飞鱼7 小时前
【大模型学习】LangGraph 深度解析:定义、功能、原理与实践
数据库·学习·大模型·工作流
人工智能知识库8 小时前
阿里云大模型ACA题库(知识点统计)
阿里云·大模型·云计算·阿里云aca·aca
彩旗工作室10 小时前
腾讯云上调用大模型的全部入口整理(2026最新版)
人工智能·大模型·云计算·腾讯云
victory043110 小时前
karpathy 4种GPT仓库在做基础LLM研究情况下应该如何选择
gpt
chaofan98013 小时前
拒绝单体模型依赖:从 GPT-5.4 与 Claude 生产力之争看分布式 AI 网关的必要性
人工智能·分布式·gpt
Leinwin13 小时前
Azure 新上架 | GPT-5.4 mini / GPT-5.4 nano 登陆 Microsoft Foundry(国际版)
gpt·microsoft·azure
COMEGy13 小时前
研一下学AI---(大语言模型篇)
gpt·langchain·llm·tranform
耶夫斯计13 小时前
Agent入门-Agent实战(skills\tools\prompt\subagents)
人工智能·prompt·llama