gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
九年义务漏网鲨鱼9 小时前
【大模型面经】千问系列专题面经
人工智能·深度学习·算法·大模型·强化学习
WWZZ202510 小时前
快速上手大模型:深度学习7(实践:卷积层)
人工智能·深度学习·算法·机器人·大模型·卷积神经网络·具身智能
山顶夕景14 小时前
【RL】ORPO: Monolithic Preference Optimization without Reference Model
大模型·llm·强化学习·rl
彡皮14 小时前
基于Qt,调用千问7B大模型,实现智能对话
开发语言·qt·大模型·千问7b
CoderJia程序员甲19 小时前
GitHub 热榜项目 - 日榜(2025-11-16)
ai·开源·大模型·github·ai教程
一水鉴天20 小时前
整体设计 全面梳理复盘 之38 3+1 工具套件(思维工具为根)设计共识暨 DevOps 融合落地路径
人工智能·架构·transformer
哥本哈士奇21 小时前
实现AI和BI整合的初步思路和探索-Part3
大模型
是Dream呀1 天前
一个账号调用N个AI模型!从LLM到视频生成的丝滑解决方案
人工智能·大模型·aigc·音视频·deepseek
Blossom.1181 天前
移动端部署噩梦终结者:动态稀疏视觉Transformer的量化实战
java·人工智能·python·深度学习·算法·机器学习·transformer
zhangbaolin1 天前
深度智能体-长短期记忆
langchain·大模型·长期记忆·深度智能体·短期记忆