学习小型gpt源码(自用)

数据集构建_哔哩哔哩_bilibili

(b站上有一系列课,从数据处理到模型构建和训练使用)

什么是batch?

为什么一个batch内的句子要一样长?

不同batch的长度可以不一样,但是同一个batch内长度一样!

可以使用预训练的embedding矩阵

如果使用相同的预训练embedding矩阵,同样的词在不同的模型中应该对应相同的初始向量。(没有微调embedding矩阵的情况下)使用相同的词汇表即可。

mask的地方换成很大的负数,使其在softmax里面变成0

一般有2类mask

1. 屏蔽后面信息的mask(Look-ahead Mask / Causal Mask)

这种mask用于防止模型在训练过程中看到未来的词汇。通常在自回归模型(如语言模型)中使用,在生成某个词时,只允许模型看到它之前的词。

2. 屏蔽padding的mask(Padding Mask)

这种mask用于在处理不定长序列时屏蔽填充的部分。填充通常是为了将所有序列扩展到相同长度,以便可以批处理。我们不希望模型在处理这些填充值时产生误导。

相关推荐
m0_535817556 小时前
从0到1上手Claude Code:Windows安装+88api配置全流程
windows·gpt·node.js·claude·claudecode·88api
小新同学^O^8 小时前
简单学习 --> 模型参数
学习·llm·大模型参数
cdbqss18 小时前
VB2026 菜单生成基类 BqGetMenuStrip
数据库·经验分享·学习·oracle·vb
吃好睡好便好10 小时前
创建魔方矩阵和单位矩阵
开发语言·人工智能·学习·线性代数·matlab·矩阵
星夜夏空9910 小时前
STM32单片机学习(21) —— I2C通信
stm32·单片机·学习
searchforAI12 小时前
B站视频转笔记用哪个工具?2026年四款AI笔记工具对比实测
人工智能·经验分享·笔记·gpt·学习·视频总结·ai笔记
爱上好庆祝13 小时前
学习JS第十一天(JS的进阶)
前端·javascript·学习
yeiweilan13 小时前
AI应用学习
学习
吃好睡好便好13 小时前
矩阵的加减运算
开发语言·人工智能·学习·线性代数·算法·matlab·矩阵
Mister西泽13 小时前
C++ Primer Plus 第六版 编程练习题及详细答案
开发语言·c++·学习·visual studio