gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
dgaf12 小时前
谢谢 AI (打靶测试用文)
c语言·gpt·ai编程·d3d12
Liiiks13 小时前
GPT-Image-2来了!实测:文字渲染99%,UI截图像素级还原,前端工作流要变天了
人工智能·gpt·chatgpt·大模型·ai生图·gpt-image-2·图片设计
qq_白羊座15 小时前
大模型根据数据媒体类型分类及基于模型的产品特点
大模型
X.AI66616 小时前
小米 MiMo‑V2.5‑Pro 上手体验:一款能硬刚 GPT‑5.4 的国产大模型有多强?
人工智能·gpt·开源
佳xuan17 小时前
LLama_Factory配置及模型微调实践
llama
大龄程序员狗哥17 小时前
第20篇:Transformer架构革命——从“注意力”到ChatGPT的基石(原理解析)
深度学习·chatgpt·transformer
代码AI弗森18 小时前
OpenMUSE 全面详解:非扩散Transformer文生图开源基座(对标GPT Image 2)
gpt·开源·transformer
龙侠九重天19 小时前
Token是什么?深入理解计费与上下文窗口
人工智能·ai·大模型·llm·token
CoderJia程序员甲19 小时前
GitHub 热榜项目 - 日榜(2026-04-23)
人工智能·ai·大模型·github·ai教程