gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
程序员佳佳13 小时前
【万字硬核】从零构建企业级AI中台:基于Vector Engine整合GPT-5.2、Sora2与Veo3的落地实践指南
人工智能·gpt·chatgpt·ai作画·aigc·api·ai编程
星云数灵17 小时前
大模型高级工程师考试练习题6
人工智能·大模型·大模型工程师·阿里云大模型aca·阿里云大模型工程师acp·大模型acp考试题库·acp认证
高洁0119 小时前
CLIP 的双编码器架构是如何优化图文关联的?(3)
深度学习·算法·机器学习·transformer·知识图谱
sinat_286945191 天前
AI Coding LSP
人工智能·算法·prompt·transformer
机器学习之心1 天前
Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型分类预测Matlab实现
cnn·transformer·cnn-bilstm·bilstm
索木木1 天前
强化学习与思维链
大模型·sft·强化学习·思维链
KAI智习1 天前
大模型榜单周报(2026/01/10)
人工智能·大模型
怎么追摩羯座1 天前
使用PyCharm调用Ollama,制作智能问答机器人
ide·python·pycharm·大模型·ollama
果粒蹬i1 天前
当CNN遇见Transformer:混合模型的特征可视化与融合攻略
人工智能·cnn·transformer
悟道心1 天前
8. 自然语言处理NLP -GPT
人工智能·gpt·自然语言处理