大模型LLM面试常见算法题-包括Attention和Transformer常见面试题

大模型:

  1. 位置编码有哪些?

  2. 介绍LoRA与QLoRA

  3. RAG和微调的区别是什么?

  4. 哪些因素会导致LLM的偏见?

  5. 什么是思维链(CoT)提示?

  6. Tokenizer的实现方法及原理

  7. 解释一下大模型的涌现能力?

  8. 解释langchainAgent的概念

  9. langchain有哪些替代方案?

  10. RLHF完整训练过程是什么?为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?

  11. RAG和微调的区别是什么?

  12. 有了解过什么是稀疏微调吗?

  13. 简述一下FlashAttention的原理

  14. 画图说明 Transformer 基本流程

  15. LLM预训练阶段有哪几个关键步骤?

  16. RLHF模型为什么会表现比SFT更好?

  17. LLaMA 模型为什么要用旋转位置编码?

  18. DeepSpeed推理对算子融合做了哪些优化?

  19. MHA,GQA,MQA三种注意力机制的区别是什么?

  20. 为什么现在的大模型大多是 decoder-only 的架构?

  21. 训练后量化(PTQ)和量化感知训练(QAT)与什么区别?

Attention:

复制代码
1.什么是Attention? 为什么要用Attention?它有什么作用?
2.Attention的流程是什么样的?
3.普通的Attention和Transformer的Self-attention之间有什么关系:
4.什么是Self-attention?

Transformer:

  1. transformer是什么,它的基本原理是什么?
  2. 自注意力(Self-Attention)的作用是什么?它有什么优势?
  3. Multi-Head Attention是什么?它的作用是什么?
  4. 介绍Transformer的Encoder模块
  5. 介绍Transformer的Decoder模块
  6. Transformer中的Positional Encoding是做什么的?
  7. Transformer与传统的RNN和CNN模型有何区别?
  8. 解释Transformer的注意力权重?
  9. 介绍Transformer和ViT
  10. 介绍Transformer的QKV
  11. 介绍Layer Normalization
  12. Transformer训练和部署技巧
  13. 介绍Transformer的位置编码
  14. 介绍自注意力机制和数学公式
  15. Transformer和Mamba(SSM)的区别
  16. Transformer中的残差结构以及意义
  17. 为什么Transformer适合多模态任务?
  18. Transformer的并行化体现在哪个地方?
  19. 为什么Transformer一般使用LayerNorm?
  20. Transformer为什么使用多头注意力机制?
  21. Transformer训练的Dropout是如何设定的?

BERT:

1.BERT是什么?全称是什么?

2.BERT是如何进行预训练的?

3.BERT的优点是什么?

4.BERT的输入是什么?

5.BERT的预训练过程中是否使用了位置编码和注意力机制?

6.BERT的预训练模型有多大?

7.BERT和传统的Word2Vec、GloVe有什么区别?

8.BERT的训练策略有哪些?

9.如何微调BERT?

10.BERT的应用场景有哪些?

11.BERT的改进和扩展有哪些?

Stable Diffusion:

1.你了解Stable Diffusion吗?它是怎么训练出来的?

2.Stable Diffusion的预测过程是什么样的?

  1. Stable Diffusion的diffusion是什么原理?

4.Stable Diffusion的各个模块的作用是?

你了解stable Diffusion吗?它是怎么训练出来的?

相关推荐
葫三生1 小时前
如何评价《论三生原理》在科技界的地位?
人工智能·算法·机器学习·数学建模·量子计算
m0_751336392 小时前
突破性进展:超短等离子体脉冲实现单电子量子干涉,为飞行量子比特奠定基础
人工智能·深度学习·量子计算·材料科学·光子器件·光子学·无线电电子
拓端研究室3 小时前
视频讲解:门槛效应模型Threshold Effect分析数字金融指数与消费结构数据
前端·算法
随缘而动,随遇而安5 小时前
第八十八篇 大数据中的递归算法:从俄罗斯套娃到分布式计算的奇妙之旅
大数据·数据结构·算法
美狐美颜sdk5 小时前
跨平台直播美颜SDK集成实录:Android/iOS如何适配贴纸功能
android·人工智能·ios·架构·音视频·美颜sdk·第三方美颜sdk
DeepSeek-大模型系统教程5 小时前
推荐 7 个本周 yyds 的 GitHub 项目。
人工智能·ai·语言模型·大模型·github·ai大模型·大模型学习
有Li5 小时前
通过具有一致性嵌入的大语言模型实现端到端乳腺癌放射治疗计划制定|文献速递-最新论文分享
论文阅读·深度学习·分类·医学生
郭庆汝5 小时前
pytorch、torchvision与python版本对应关系
人工智能·pytorch·python
IT古董5 小时前
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器
神经网络·算法·机器学习
小雷FansUnion7 小时前
深入理解MCP架构:智能服务编排、上下文管理与动态路由实战
人工智能·架构·大模型·mcp