gpt是如何进行训练的?

原理

gpt就是一个类似于成语接龙的游戏,根据之前的n个字符,预测下一个字符,那么gpt的输入和输出是如何构造的呢?比如给一个句子如下:

sentence:如何理解gpt的原理。

构造gpt输入输入:

input:如何理解gpt的原

output:何理解gpt的原理

是的你没有看错,输入输出就是一个字符的错位。

那么输入时如何经过self-mask-attention来得到输出的呢?

python 复制代码
    def forward(self, x):
        B, T, C = x.size() # batch size, sequence length, embedding dimensionality (n_embd)

        # calculate query, key, values for all heads in batch and move head forward to be the batch dim
        xx = self.c_attn(x)
        q, k, v  = xx.split(self.n_embd, dim=2)
        k = k.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)
        q = q.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)
        v = v.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)

        # causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        if self.flash:
            # efficient attention using Flash Attention CUDA kernels
            y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=True)
        else:
            # manual implementation of attention
            kt = k.transpose(-2, -1)
            att = (q @ kt) * (1.0 / math.sqrt(k.size(-1)))
            bais = self.bias
            bais = bais[:,:,:T,:T]
            att = att.masked_fill(bais == 0, float('-inf'))
            att = F.softmax(att, dim=-1)
            att = self.attn_dropout(att)
            y = att @ v # (B, nh, T, T) x (B, nh, T, hs) -> (B, nh, T, hs)
        y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side

        # output projection
        y = self.resid_dropout(self.c_proj(y))
        return y

input经过矩阵计算得到权重att后,经过masked_fill掩码处理,得到了掩码的att权重,然后经过softmax归一化处理,最后的v乘积得到了每个output字符用前面input字符权重加权的表示,最后经过矩阵变换成voc_size大小的输出,就是我们要求的output输出,最后把我们计算得到output和target进行交叉熵损失函数计算,得到最终的loss,从而进行梯度下降优化整个模型。

相关推荐
电子科技圈1 小时前
SmartDV展示完整的边缘与连接IP解决方案,以高速和低功耗特性赋能移动、物联网和媒体处理设备创新
人工智能·嵌入式硬件·mcu·物联网·智能家居·智能硬件·iot
Rubin智造社1 小时前
04月17日AI每日参考:Claude Opus 4.7正式发布,智元机器人大会今日开幕
大数据·人工智能·机器学习·claude code·智元机器人·deepseek v4·claude opus 4.7
Raink老师8 小时前
【AI面试临阵磨枪】详细解释 Transformer 架构的核心组件与工作流程。
人工智能·深度学习·transformer·ai 面试·ai 应用开发
qcx239 小时前
【AI Agent实战】OpenClaw 安全加固完全指南:安全攻击手段与五步防护实践(2026最新)
人工智能·安全
AnnyYoung9 小时前
单细胞转录组+空间转录组+深度学习的意义
深度学习·数据分析
码农小白AI9 小时前
AI报告审核进入技术驱动时代:IACheck如何从规则引擎走向深度学习,构建检测报告审核“技术矩阵”
人工智能·深度学习
song150265372989 小时前
视觉检测设备:自动识别缺陷、尺寸、瑕疵、装配错误,一键全检
人工智能·计算机视觉·视觉检测
智能化咨询9 小时前
(163页PPT)某著名企业K3生产制造售前营销指导方案P164(附下载方式)
大数据·人工智能
Zzj_tju9 小时前
大语言模型技术指南:SFT、RLHF、DPO 怎么串起来?对齐训练与关键参数详解
人工智能·深度学习·语言模型
金智维科技官方9 小时前
RPA技术赋能电信运营商话单稽核:金智维如何驱动高精度自动化转型
人工智能·自动化·数字化·rpa·智能体·电信