
Transformer:理论架构创新
自注意力机制:支持并行计算/全局上下文的理解能力
• 多头注意力:从多个角度捕捉复杂的语义关系
• 前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性
在理解语言任务时,Attention 机制本质上是捕捉单词间的关系

Transformer:理论架构创新
自注意力机制:支持并行计算/全局上下文的理解能力
• 多头注意力:从多个角度捕捉复杂的语义关系
• 前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性
在理解语言任务时,Attention 机制本质上是捕捉单词间的关系