gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
哥本哈士奇(aspnetx)7 小时前
使用Gradio构建AI前端 - RAG召回测试
大模型
tongxianchao8 小时前
UPDP: A Unified Progressive Depth Pruner for CNN and Vision Transformer
人工智能·cnn·transformer
schinber13 小时前
大模型领域常见的核心名词解释
大模型·大模型名词
程序员柒叔14 小时前
Langfuse 项目概览
大模型·llm·prompt·可观测性·llm评估
一代明君Kevin学长17 小时前
Transformer为什么使用多个注意力头?
人工智能·深度学习·transformer
Dragon水魅17 小时前
LLaMA Factory 详解
llama
胡伯来了20 小时前
19. Transformers - 文本领域的任务类
人工智能·transformer·多模态·transformers
禁默20 小时前
在昇腾 NPU上跑通 Llama 3-8B:从环境部署到 100% 算力满载
llama·昇腾npu·atlas 800t
攻城狮7号20 小时前
Anthropic开源Skills项目,打响了智能体标准化的第一枪
人工智能·大模型·skills·anthropic开源·ai技能
胡伯来了21 小时前
22 Transformers - 训练计算机视觉模型
人工智能·计算机视觉·transformer·transformers