gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
Ombré_mi1 小时前
MCP客户端Client开发流程
大模型·uv·deepseek·mcp·mcp客户端
大鹏的NLP博客2 小时前
基于 Transformer robert的情感分类任务实践总结之二——R-Drop
分类·transformer·r-dop
写代码的小阿帆3 小时前
Fractal Generative Models论文阅读笔记与代码分析
论文阅读·stable diffusion·transformer
MYH5165 小时前
豆包和deepseek 元宝 百度ai区别是什么
transformer
春末的南方城市7 小时前
中山大学&美团&港科大提出首个音频驱动多人对话视频生成MultiTalk,输入一个音频和提示,即可生成对应唇部、音频交互视频。
人工智能·python·深度学习·计算机视觉·transformer
liuyunshengsir9 小时前
利用coze工作流制作一个自动生成PPT的智能体
大模型·大模型工作流
mengyoufengyu9 小时前
DeepSeek12-Open WebUI 知识库配置详细步骤
人工智能·大模型·deepseek
山顶夕景9 小时前
【LLM-Agent】智能体的记忆缓存设计
大模型·agent·记忆模块·记忆缓存
海盗儿21 小时前
Attention Is All You Need (Transformer) 以及Transformer pytorch实现
pytorch·深度学习·transformer
春末的南方城市1 天前
港科大&快手提出统一上下文视频编辑 UNIC,各种视频编辑任务一网打尽,还可进行多项任务组合!
人工智能·计算机视觉·stable diffusion·aigc·transformer