causal decoder - causal decoder技术,学习,经验文章

TFATS

2 年前

LLM主流框架：Causal Decoder、Prefix Decoder和Encoder-Decoder本文将介绍如下内容：在Transformer模型中，mask机制是一种用于在self-attention中的技术，用以控制不同token之间的注意力交互。具体来说，Transformer中使用两种类型的mask：padding mask 和sequence mask**。**