我精选20个大模型高频面试题,分享给大家
- 简述GPT和BERT的区别
- 讲一下GPT系列模型是如何演进的?
- 为什么现在的大模型大多是decoder-only的架构?
- 讲一下生成式语言模型的工作机理
- 哪些因素会导致LLM的偏见?
- LLM中的因果语言建模与掩码语言建模有什么区别?
- 如何减轻LLM中的幻觉现象?
- 解释ChatGPT的零样本和少样本学习的概念
- 你了解大型语言模型中的哪些分词技术?
- 如何评估大语言模型(LLMs)的性能?
- 如何缓解LLMs重复读问题?
- 请简述Transformer基本原理
- 为什么Transformer的架构需要多头注意力机制?
- transformers需要位置编码吗?
- transformer中,同一个词可以有不同的注意力权重吗?
- Wordpiece与BPE之间的区别是什么?
- 有哪些常见的优化LLMs输出的技术?
- GPT-3拥有的1750亿参数,是怎么算出来的?
- 温度系数和top-p,top-k参数有什么区别?
- 为什么transformer块使用LayerNorm而不是BatchNorm?