gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
带娃的IT创业者1 天前
Prompt Engineering 进阶:让 AI 写出人类味道(完整指南)
人工智能·大模型·llm·prompt·写作技巧·ai 教学
车骑1 天前
用 EasyBot 搭一个「一人内容工作台」,文图视频全搞定
大模型·github
CHPCWWHSU1 天前
初识llama.cpp - 轻量级推理引擎
llm·llama·cpp·cudatoolkit
l1t1 天前
在ARM64 KyLin计算机上安装llama.cpp
大数据·llama·kylin
l1t1 天前
在华为arm64 kylin计算机上安装docker编译llama.cpp的步骤
华为·docker·llama·kylin
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2026-03-10)
人工智能·ai·大模型·github·ai教程
WWZZ20251 天前
具身智能入门Isaac Sim——机器人设置-初级设计轮式机器人1
机器人·大模型·机械臂·ros2·具身智能·isaac sim
WeeJot嵌入式1 天前
ICLR 2026低秩Transformer解决方案:多变量时间序列异常检测与定位的数学原理
人工智能·深度学习·transformer
予枫的编程笔记1 天前
【YF技术周报 Vol.03】AI全产业链爆发:模型迭代、算力升级与监管博弈
ai·大模型·java后端·ai agent·rag架构·算力基建·政策监管
Volunteer Technology1 天前
一键部署OpenClaw(阿里云和京东云)
人工智能·chatgpt·transformer