学习小型gpt源码(自用)

数据集构建_哔哩哔哩_bilibili

(b站上有一系列课,从数据处理到模型构建和训练使用)

什么是batch?

为什么一个batch内的句子要一样长?

不同batch的长度可以不一样,但是同一个batch内长度一样!

可以使用预训练的embedding矩阵

如果使用相同的预训练embedding矩阵,同样的词在不同的模型中应该对应相同的初始向量。(没有微调embedding矩阵的情况下)使用相同的词汇表即可。

mask的地方换成很大的负数,使其在softmax里面变成0

一般有2类mask

1. 屏蔽后面信息的mask(Look-ahead Mask / Causal Mask)

这种mask用于防止模型在训练过程中看到未来的词汇。通常在自回归模型(如语言模型)中使用,在生成某个词时,只允许模型看到它之前的词。

2. 屏蔽padding的mask(Padding Mask)

这种mask用于在处理不定长序列时屏蔽填充的部分。填充通常是为了将所有序列扩展到相同长度,以便可以批处理。我们不希望模型在处理这些填充值时产生误导。

相关推荐
代码游侠3 分钟前
学习笔记——HTML网页开发基础
运维·服务器·开发语言·笔记·学习·html
盖世灬英雄z13 分钟前
数据结构与算法学习(一)
c++·学习·排序算法
week_泽27 分钟前
OCR学习笔记,调用免费百度api
笔记·学习·ocr
叫我莫言鸭1 小时前
关于word生成报告的POI学习2循环标题内容
java·学习·word
秦明月131 小时前
EPLAN电气设计:图层导入与导出操作指南
数据库·经验分享·学习·学习方法·设计规范
小粉粉hhh2 小时前
记录前端菜鸟的日常——实现类似学习通的答题界面
学习
山土成旧客3 小时前
【Python学习打卡-Day33】你好,PyTorch!从“自动挡”到“手动挡”的深度学习之旅
python·深度学习·学习
强子感冒了3 小时前
Java集合框架深度学习:从Iterable到ArrayList的完整继承体系
java·笔记·学习
来不及辣哎呀3 小时前
学习Java第六十二天——Hot 100-09-438. 找到字符串中所有字母异位词
java·开发语言·学习
鸿途优学-UU教育4 小时前
2025搜狐教育年度盛典|UU教育CEO彭普杰:成人学习不止于知识传递,科技赋能背后更需温度守护
科技·学习