gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
blackoon8813 小时前
DeepSeek R1大模型微调实战-llama-factory的模型下载与训练
llama
johnny23313 小时前
大模型微调理论、实战:LLaMA-Factory、Unsloth
llama
闲看云起17 小时前
从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型
gpt·架构·llama
北京地铁1号线17 小时前
GPT(Generative Pre-trained Transformer)模型架构与损失函数介绍
gpt·深度学习·transformer
机器学习之心20 小时前
分解+优化+预测!CEEMDAN-Kmeans-VMD-DOA-Transformer-LSTM多元时序预测
lstm·transformer·kmeans·多元时序预测·双分解
会写代码的饭桶21 小时前
通俗理解 LSTM 的三门机制:从剧情记忆到科学原理
人工智能·rnn·lstm·transformer
闲看云起1 天前
从BERT到T5:为什么说T5是NLP的“大一统者”?
人工智能·语言模型·transformer
kailp1 天前
突破效率与质量边界:深入解析MiniMax-Remover视频物体移除方案
人工智能·ai·大模型·gpu算力·图片渲染
爆改模型1 天前
【ICCV2025】计算机视觉|即插即用|ESC:颠覆Transformer!超强平替,ESC模块性能炸裂!
人工智能·计算机视觉·transformer
*星星之火*1 天前
【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题
gpt