gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
懂AI的老郑4 小时前
Transformer架构在大语言模型中的优化技术:原理、方法与前沿
语言模型·架构·transformer
生信大表哥7 小时前
GPT-5-Codex VS Gemini 3 VS Claude Sonnet 4.5 新手小白入门学习教程
人工智能·gpt·学习·rstudio·数信院生信服务器
音视频牛哥17 小时前
AI时代底层技术链:GPU、云原生与大模型的协同进化全解析
大数据·云原生·kubernetes·音视频·transformer·gpu算力·云原生cloud native
梯度下降不了班18 小时前
【mmodel/xDit】Cross-Attention 深度解析:文生图/文生视频的核心桥梁
人工智能·深度学习·ai作画·stable diffusion·音视频·transformer
楚国的小隐士1 天前
努比亚M153和DeepSeek-Math-V2发布后,我对AI的思考
ai·大模型·哲学·辩证法·辩证唯物主义·教员思想·历史唯物主义·马列主义·唯物论·政治
卫玠_juncheng1 天前
langchain1.0rag知识库项目分享:从数据清洗到模型微调的全方位教程
大模型·agent·rag·大模型训练
合合技术团队1 天前
论文解读-潜在思维链推理的全面综述
大数据·人工智能·深度学习·大模型
极客BIM工作室1 天前
序列建模:RNN、LSTM 与 Transformer 的技术异同深度解析
rnn·lstm·transformer
高洁011 天前
卷积神经网络(CNN)
人工智能·python·深度学习·神经网络·transformer
lew-yu1 天前
当前开源旗舰LLM主流架构介绍
架构·大模型·llm