学习小型gpt源码(自用)

数据集构建_哔哩哔哩_bilibili

(b站上有一系列课,从数据处理到模型构建和训练使用)

什么是batch?

为什么一个batch内的句子要一样长?

不同batch的长度可以不一样,但是同一个batch内长度一样!

可以使用预训练的embedding矩阵

如果使用相同的预训练embedding矩阵,同样的词在不同的模型中应该对应相同的初始向量。(没有微调embedding矩阵的情况下)使用相同的词汇表即可。

mask的地方换成很大的负数,使其在softmax里面变成0

一般有2类mask

1. 屏蔽后面信息的mask(Look-ahead Mask / Causal Mask)

这种mask用于防止模型在训练过程中看到未来的词汇。通常在自回归模型(如语言模型)中使用,在生成某个词时,只允许模型看到它之前的词。

2. 屏蔽padding的mask(Padding Mask)

这种mask用于在处理不定长序列时屏蔽填充的部分。填充通常是为了将所有序列扩展到相同长度,以便可以批处理。我们不希望模型在处理这些填充值时产生误导。

相关推荐
lwf0061645 小时前
导数学习日记
学习·算法·机器学习
qeen876 小时前
【编程日记】现阶段总结
学习
-Marks-8 小时前
【C++编程】STL简介 --- (是什么 | 版本发展历程 | 六大组件 | 重要性缺陷以及如何学习)
开发语言·c++·学习·stl·stl版本
Joseph Cooper9 小时前
STM32MP157 Linux驱动学习笔记(四):典型总线与设备模型(SPI/USB)
linux·stm32·学习
2401_8274999910 小时前
数据分析学习05(黑马)-Pandas
学习·数据分析·pandas
jiayong2311 小时前
第 38 课:任务列表里高亮当前正在查看详情的任务
开发语言·前端·javascript·vue.js·学习
lwf00616412 小时前
逻辑回归学习笔记-数学直接解回归方程
笔记·学习·逻辑回归
EQ-雪梨蛋花汤12 小时前
【OpenAI】GPT-5.5发布!从“会说话”走向“会干活”(运算速度更快、逻辑更准,消耗Token更少)
人工智能·gpt
weixin_qq_1639513613 小时前
hypermill五轴后处理制作需要学习哪些知识点
学习·ug
wsjsf13 小时前
智能代码审查助手的搭建
java·学习·ai编程