技术栈

decoderblock

风筝超冷
2 个月前
gpt·深度学习·decoderblock
GPT - TransformerDecoderBlock本节代码定义了一个 TransformerDecoderBlock 类,它是 Transformer 架构中解码器的一个基本模块。这个模块包含了多头自注意力(Multi-Head Attention)、前馈网络(Feed-Forward Network, FFN)和层归一化(Layer Normalization)。