gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
程序员小嬛10 小时前
(TETCI 2024) 从 U-Net 到 Transformer:即插即用注意力模块解析
人工智能·深度学习·机器学习·transformer
百***787514 小时前
【实操】一步API对接GPT-5.2全流程(多语言示例+高并发优化+避坑指南)
网络·gpt
没学上了15 小时前
Vlm-Swim Transformer迁移学习
深度学习·transformer·迁移学习
CoderOnly16 小时前
SFT后训练32B-LLM的一些观察
人工智能·大模型
喜欢吃豆18 小时前
企业级 AI 系统分层存储架构深度研究报告
人工智能·架构·大模型·2025博客之星
ThinkPet18 小时前
【AI】大模型知识入门扫盲以及SpringAi快速入门
java·人工智能·ai·大模型·rag·springai·mcp
大数据0020 小时前
基于Ollama大模型学习
python·flask·大模型·alibaba·ollama·springai·deepseek
阿尼亚要好好读书呀20 小时前
大模型实践之数据准备
大模型
盼小辉丶20 小时前
数据不再“拖后腿”,EasyLink重塑非结构化数据处理新范式
深度学习·大模型·多模态大模型
墨_浅-20 小时前
BERT与GPT:Transformer的双子星
gpt·bert·transformer