技术栈

大模型八股

Chaos_Wang_
2 个月前
人工智能·自然语言处理·面经·大模型八股
NLP/大模型八股专栏结构解析(1)transformer的基本结构有哪些,分别的作用是什么,代码实现。 NLP高频面试题(一)——Transformer的基本结构、作用和代码实现 (2)LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么? NLP高频面试题(二)——LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么? NLP高频面试题(三)——普通RNN的梯度消失和梯度爆炸问题 (3)为什么要多头注意力机制?