gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
aigcapi18 分钟前
GPT API 哪家好?2026 企业级优选,4SAPI(星链引擎)凭四大核心优势领跑
大数据·人工智能·gpt
core51230 分钟前
【深度硬核】大模型白盒蒸馏:原理、架构与实战详解
大模型·白盒蒸馏
I'm Salted Fish2 小时前
基于LLaMA-Factory大语言模型微调实战-训练一个属于自己的大模型
人工智能·语言模型·llama
不爱学英文的码字机器3 小时前
数据不出域!用 Atlas 800T 激活 Llama-3,打造安全可控的 QA 生产工厂
安全·llama
xixixi777773 小时前
AGI-Next前沿峰会——对于唐杰教授提到的AI下一步方向的“两条思路一次取舍”的思考(思路分析+通俗易懂解释)
人工智能·ai·大模型·agi·通用人工智能·asi
七牛云行业应用12 小时前
重构实录:我删了 5 家大模型 SDK,只留了 OpenAI 标准库
python·系统架构·大模型·aigc·deepseek
CoderJia程序员甲14 小时前
GitHub 热榜项目 - 日榜(2026-1-13)
人工智能·ai·大模型·github·ai教程
kebijuelun15 小时前
FlashInfer-Bench:把 AI 生成的 GPU Kernel 放进真实 LLM 系统的“闭环引擎”
人工智能·gpt·深度学习·机器学习·语言模型
laplace012317 小时前
claude code架构猜测总结
架构·大模型·llm·agent·rag
百***787518 小时前
GLM-4.7深度实测:开源编码王者,Claude Opus 4.5平替方案全解析
人工智能·gpt