gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
机器学习之心3 小时前
GAT-TCN-Transformer 回归模型 + SHAP 可解释性分析:空间、局部与全局的时空建模利器
深度学习·回归·transformer
Mr.朱鹏3 小时前
5.LangChain零基础速通-LCEL链式调用
python·langchain·django·大模型·llm·virtualenv
这张生成的图像能检测吗4 小时前
(论文速读)Shift:通过减少概念漂移解决时间序列预测泛化问题
人工智能·深度学习·transformer·时序模型
GEO索引未来4 小时前
大胆预测:国家会这样对GEO行业进行监管
大数据·人工智能·gpt·ai·chatgpt
嵌入式小企鹅4 小时前
大模型算法工程师面试宝典
人工智能·学习·算法·面试·职场和发展·大模型·面经
Luca_kill5 小时前
深度解构 Hermes Agent:从“中央调度”到“自我进化”的架构哲学
大模型·强化学习·agent框架·ai架构·hermes agent
Komorebi_99996 小时前
RAG-day2
大模型·rag
Fleshy数模7 小时前
基于 Qwen2.5-1.5B-Instruct 实现多轮对话与文本分类实践
人工智能·分类·大模型
Daydream.V7 小时前
本地部署大模型实现相关案例
大模型·本地部署大模型·本地模型案例
数智工坊8 小时前
【DDIM 论文阅读】:扩散模型加速采样的里程碑!10~50 倍快采 + 确定性生成
论文阅读·人工智能·深度学习·cnn·transformer