gpt、llama大模型模型结构细节探索

参考:

https://github.com/naklecha/llama3-from-scratch(一定要看看)

https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:

https://www.youtube.com/watch?v=l8pRSuU81PU

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)

可以通过transformers加载模型查看具体结构和权重情况:

cpp 复制代码
from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

可以查看打印每层权重:

cpp 复制代码
sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
相关推荐
AI人工智能+10 分钟前
融合OCR与大模型的智能文本信息抽取技术,推动合同管理从静态文档向智能化商业载体的转型
大模型·ocr·文本信息抽取
Eastmount2 小时前
[论文阅读] (47)LAMD: 基于大模型上下文驱动的Android恶意软件检测与分类
android·论文阅读·大模型·系统安全·恶意代码检测
模型启动机2 小时前
阿里通义开源GUI智能体SOTA:2B到235B端云协同重新定义移动端GUI智能体
人工智能·ai·大模型
菜鸟冲锋号2 小时前
适配AI大模型非结构化数据需求:数据仓库的核心改造方向
大数据·数据仓库·人工智能·大模型
AI 菌2 小时前
Qwen-Image:复杂文本渲染与精准图像编辑的图像生成基础模型
人工智能·算法·计算机视觉·大模型·千问
白云千载尽3 小时前
LLaMA-Factory 入门(二): 深入技术解析
人工智能·llama
无能者狂怒3 小时前
DETR(DEtection TRansformer)——基于Transformer的目标检测范式革命与演进
人工智能·深度学习·yolo·目标检测·计算机视觉·transformer
Coder个人博客16 小时前
Llama.cpp 整体架构分析
人工智能·自动驾驶·llama
PKUMOD18 小时前
论文导读 | 大模型多智能体系统的故障归因
大模型·多智能体系统