gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
GEO索引未来25 分钟前
国内首部GEO可信传播标准立项通过/DeepSeek-V4 正式上线并开源/Open AI、Google继续推进AI广告标准化
大数据·人工智能·gpt·ai·chatgpt·开源
微软技术分享1 小时前
Windows平台下CUDA安装及llama.cpp使用教程
windows·llama
小超同学你好1 小时前
Transformer 31. ALBEF:Align before Fuse,用「先对齐、再融合」解决图文交互难学的问题
深度学习·transformer·交互
开心的AI频道1 小时前
如何看待 OpenAI 近期小范围内测的 GPT-image-2 生图模型?
人工智能·gpt
皆过客,揽星河1 小时前
如何在 Edge 浏览器中使用 Deepsider 插件调用 GPT-Image-2.0
gpt·ai·ai作画·硬件工程·ai提示词·gpt-image-2.0·最新gpt版本体验
GoAI1 小时前
《深入浅出Agent》:项目深度解析Autoresearch
人工智能·深度学习·大模型·llm·agent
码字小学妹2 小时前
GPT-5.5 API 接入教程:1M 上下文 + Agent 能力登顶 Terminal-Bench
gpt
OpenCSG2 小时前
Kimi K2.6:月之暗面发布的原生多模态智能体模型
人工智能·开源·大模型·ai技术·kimi k2.6
AI技术增长2 小时前
Pytorch图像去噪实战(九):SwinIR图像去噪实战,用Transformer解决CNN纹理恢复不足问题
pytorch·cnn·transformer
chaofan9802 小时前
突破大模型落地瓶颈:Claude 4.7 与 GPT-5.5 长上下文工程实测
数据库·人工智能·python·gpt·自动化·php·api