gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
凯丨4 小时前
实战 OpenAI 新一代实时语音:用 gpt-realtime-2 跑一个会推理的语音助手
gpt
aicat_cn5 小时前
从预测未来到控制未来:机器人世界模型全景综述
ai·大模型
Jmayday7 小时前
NLP第四章:Transformer架构
人工智能·自然语言处理·transformer
千桐科技7 小时前
qKnow 智能体构建平台开源版 2.1.1 正式发布!优化非结构化抽取、知识库召回,全面升级系统稳定性与交互体验
大模型·llm·工作流·qknow·智能体构建平台
codefan※10 小时前
一键部署私人 LLM:Ollama + Docker 极简指南
运维·docker·容器·大模型·llm·本地部署·ollama
大梦谁先觉i10 小时前
Milvus 向量数据库:原理详解、离线部署、可视化配置与全套实操教程
transformer·guava
龙骑士baby10 小时前
重建 AI 认知第 3 篇:Prompt Engineering——怎么让 AI 听懂你的话
ai·大模型·llm·prompt
心疼你的一切10 小时前
Llama.Cpp 本地大模型极速部署与调用指南
人工智能·ai·aigc·llama
猫先生Mr.Mao11 小时前
一文梳理主流 LLM 架构技术演进
人工智能·架构·大模型·llm·transformer
z小猫不吃鱼12 小时前
08 BERT 论文精读:双向 Transformer 如何学习语言表示?
学习·bert·transformer