大模型LLM面试常见算法题-包括Attention和Transformer常见面试题

大模型:

  1. 位置编码有哪些?

  2. 介绍LoRA与QLoRA

  3. RAG和微调的区别是什么?

  4. 哪些因素会导致LLM的偏见?

  5. 什么是思维链(CoT)提示?

  6. Tokenizer的实现方法及原理

  7. 解释一下大模型的涌现能力?

  8. 解释langchainAgent的概念

  9. langchain有哪些替代方案?

  10. RLHF完整训练过程是什么?为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?

  11. RAG和微调的区别是什么?

  12. 有了解过什么是稀疏微调吗?

  13. 简述一下FlashAttention的原理

  14. 画图说明 Transformer 基本流程

  15. LLM预训练阶段有哪几个关键步骤?

  16. RLHF模型为什么会表现比SFT更好?

  17. LLaMA 模型为什么要用旋转位置编码?

  18. DeepSpeed推理对算子融合做了哪些优化?

  19. MHA,GQA,MQA三种注意力机制的区别是什么?

  20. 为什么现在的大模型大多是 decoder-only 的架构?

  21. 训练后量化(PTQ)和量化感知训练(QAT)与什么区别?

Attention:

1.什么是Attention? 为什么要用Attention?它有什么作用?
2.Attention的流程是什么样的?
3.普通的Attention和Transformer的Self-attention之间有什么关系:
4.什么是Self-attention?

Transformer:

  1. transformer是什么,它的基本原理是什么?
  2. 自注意力(Self-Attention)的作用是什么?它有什么优势?
  3. Multi-Head Attention是什么?它的作用是什么?
  4. 介绍Transformer的Encoder模块
  5. 介绍Transformer的Decoder模块
  6. Transformer中的Positional Encoding是做什么的?
  7. Transformer与传统的RNN和CNN模型有何区别?
  8. 解释Transformer的注意力权重?
  9. 介绍Transformer和ViT
  10. 介绍Transformer的QKV
  11. 介绍Layer Normalization
  12. Transformer训练和部署技巧
  13. 介绍Transformer的位置编码
  14. 介绍自注意力机制和数学公式
  15. Transformer和Mamba(SSM)的区别
  16. Transformer中的残差结构以及意义
  17. 为什么Transformer适合多模态任务?
  18. Transformer的并行化体现在哪个地方?
  19. 为什么Transformer一般使用LayerNorm?
  20. Transformer为什么使用多头注意力机制?
  21. Transformer训练的Dropout是如何设定的?

BERT:

1.BERT是什么?全称是什么?

2.BERT是如何进行预训练的?

3.BERT的优点是什么?

4.BERT的输入是什么?

5.BERT的预训练过程中是否使用了位置编码和注意力机制?

6.BERT的预训练模型有多大?

7.BERT和传统的Word2Vec、GloVe有什么区别?

8.BERT的训练策略有哪些?

9.如何微调BERT?

10.BERT的应用场景有哪些?

11.BERT的改进和扩展有哪些?

Stable Diffusion:

1.你了解Stable Diffusion吗?它是怎么训练出来的?

2.Stable Diffusion的预测过程是什么样的?

  1. Stable Diffusion的diffusion是什么原理?

4.Stable Diffusion的各个模块的作用是?

你了解stable Diffusion吗?它是怎么训练出来的?

相关推荐
昨日之日20061 小时前
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
人工智能·whisper·语音识别
浮生如梦_1 小时前
Halcon基于laws纹理特征的SVM分类
图像处理·人工智能·算法·支持向量机·计算机视觉·分类·视觉检测
深度学习lover1 小时前
<项目代码>YOLOv8 苹果腐烂识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·苹果腐烂识别
热爱跑步的恒川2 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
励志成为嵌入式工程师3 小时前
c语言简单编程练习9
c语言·开发语言·算法·vim
捕鲸叉3 小时前
创建线程时传递参数给线程
开发语言·c++·算法
A charmer3 小时前
【C++】vector 类深度解析:探索动态数组的奥秘
开发语言·c++·算法
wheeldown4 小时前
【数据结构】选择排序
数据结构·算法·排序算法
阡之尘埃4 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
观音山保我别报错5 小时前
C语言扫雷小游戏
c语言·开发语言·算法