学习小型gpt源码(自用)

数据集构建_哔哩哔哩_bilibili

(b站上有一系列课,从数据处理到模型构建和训练使用)

什么是batch?

为什么一个batch内的句子要一样长?

不同batch的长度可以不一样,但是同一个batch内长度一样!

可以使用预训练的embedding矩阵

如果使用相同的预训练embedding矩阵,同样的词在不同的模型中应该对应相同的初始向量。(没有微调embedding矩阵的情况下)使用相同的词汇表即可。

mask的地方换成很大的负数,使其在softmax里面变成0

一般有2类mask

1. 屏蔽后面信息的mask(Look-ahead Mask / Causal Mask)

这种mask用于防止模型在训练过程中看到未来的词汇。通常在自回归模型(如语言模型)中使用,在生成某个词时,只允许模型看到它之前的词。

2. 屏蔽padding的mask(Padding Mask)

这种mask用于在处理不定长序列时屏蔽填充的部分。填充通常是为了将所有序列扩展到相同长度,以便可以批处理。我们不希望模型在处理这些填充值时产生误导。

相关推荐
锅包一切9 小时前
【蓝桥杯JavaScript基础入门】二、JavaScript关键特性
开发语言·前端·javascript·学习·蓝桥杯
前路不黑暗@20 小时前
Java项目:Java脚手架项目的文件服务(八)
java·开发语言·spring boot·学习·spring cloud·docker·maven
崎岖Qiu20 小时前
【计算机网络 | 第十一篇】图解交换机的自学习功能
网络·学习·计算机网络
五月君_20 小时前
除夕夜炸场!Qwen 3.5 正式发布:激活仅 17B,性能硬刚 GPT-5.2?
gpt
科技林总20 小时前
【系统分析师】8.0 项目管理
学习
浅念-21 小时前
C++ string类
开发语言·c++·经验分享·笔记·学习
Purple Coder21 小时前
基于神经网络的家教系统
学习
victory04311 天前
LangChain + LangGraph 学习路径
学习·langchain
专业开发者1 天前
Wi-Fi 技术学习:Wi-Fi 射频设计核心原则 —— 只覆盖你想要的区域
学习
码农葫芦侠1 天前
Rust学习教程2:基本语法
开发语言·学习·rust