学习小型gpt源码(自用)

数据集构建_哔哩哔哩_bilibili

(b站上有一系列课,从数据处理到模型构建和训练使用)

什么是batch?

为什么一个batch内的句子要一样长?

不同batch的长度可以不一样,但是同一个batch内长度一样!

可以使用预训练的embedding矩阵

如果使用相同的预训练embedding矩阵,同样的词在不同的模型中应该对应相同的初始向量。(没有微调embedding矩阵的情况下)使用相同的词汇表即可。

mask的地方换成很大的负数,使其在softmax里面变成0

一般有2类mask

1. 屏蔽后面信息的mask(Look-ahead Mask / Causal Mask)

这种mask用于防止模型在训练过程中看到未来的词汇。通常在自回归模型(如语言模型)中使用,在生成某个词时,只允许模型看到它之前的词。

2. 屏蔽padding的mask(Padding Mask)

这种mask用于在处理不定长序列时屏蔽填充的部分。填充通常是为了将所有序列扩展到相同长度,以便可以批处理。我们不希望模型在处理这些填充值时产生误导。

相关推荐
石去皿3 分钟前
小样本提示学习全指南:从 Zero-shot 到 Few-shot-LtM 的核心策略解析
学习
今天你TLE了吗9 分钟前
JVM学习笔记:第四章——虚拟机栈
java·jvm·笔记·后端·学习
知识分享小能手18 分钟前
SQL Server 2019入门学习教程,从入门到精通,SQL Server 2019 数据库的备份与恢复 — 语法知识点及使用方法详解(19)
数据库·学习·sqlserver
風清掦22 分钟前
【江科大STM32学习笔记-06】TIM 定时器 - 6.2 定时器的输出比较功能
笔记·stm32·单片机·嵌入式硬件·学习
babe小鑫36 分钟前
大专数据可视化技术专业学习数据分析的价值
学习·信息可视化·数据分析
Non importa40 分钟前
二分法:算法新手第三道坎
c语言·c++·笔记·qt·学习·算法·leetcode
一 乐1 小时前
英语学习平台系统|基于springboot + vue英语学习平台系统(源码+数据库+文档)
java·vue.js·spring boot·学习·论文·毕设·英语学习平台系统
宇木灵9 小时前
C语言基础学习-二、运算符
c语言·开发语言·学习
weixin_458872619 小时前
东华复试OJ每日3题打卡·复盘91~93
学习
hqyjzsb9 小时前
企业AI人才库的搭建体系与长效运营管理方案
人工智能·学习·职场和发展·创业创新·学习方法·业界资讯·改行学it