NLP/大模型八股专栏结构解析

1.transformer 结构相关

(1)transformer的基本结构有哪些,分别的作用是什么,代码实现。
NLP高频面试题(一)------Transformer的基本结构、作用和代码实现

(2)LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么?
NLP高频面试题(二)------LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么?
NLP高频面试题(三)------普通RNN的梯度消失和梯度爆炸问题

(3)为什么要多头注意力机制?

(4)为什么要有QKV三个不同的向量,目前对这块有哪些优化?

(5)self-attention和cross-attention的区别与联系

(6)BN和LN的区别与联系,为什么attention要用LN

NLP高频面试题(四)------BN和LN的区别与联系,为什么attention要用LN

NLP高频面试题(三十四)------深度解析Layer Normalization与Batch Normalization:区别、联系及Transformer为何偏爱LN

2. bert及其变体相关

(1)BERT的基本结构介绍、预训练任务、下游任务
NLP高频面试题(五)------BERT的基本结构介绍、预训练任务、下游任务

(2)BERT和传统的文本表示模型的区别与联系

(3)Bert和transformer论文中有哪些不一样的地方

(4)GPT的基本结构介绍

(5)decoder-only、encoder-only和encoder-decoder的区别与联系
NLP高频面试题(六)------decoder-only、encoder-only和encoder-decoder的区别与联系

(6)GPT和Bert的mask有什么区别?
NLP高频面试题(七)------GPT和Bert的mask有什么区别?

(7)GPT1,2,3分别有哪些改进

NLP高频面试题(八)------GPT三个版本的区别

(8)

3. NLP任务相关

4. 大模型相关

(1)目前常见的几种大模型架构是啥样的
NLP高频面试题(十)------目前常见的几种大模型架构是啥样的

(2)RLHF的流程有哪些
NLP高频面试题(十一)------RLHF的流程有哪些

(3)Lora微调的原理、什么是Qlora
NLP高频面试题(十二)------Lora微调的原理、什么是Qlora

(4)什么是大模型幻觉,如何解决大模型幻觉
NLP高频面试题(十三)------什么是大模型幻觉,如何解决大模型幻觉

(5)DPO、PPO等强化学习训练方法介绍
NLP高频面试题(十四)------DPO、PPO等强化学习训练方法介绍

(6)大模型解码常见参数解析
NLP高频面试题(九)------大模型常见的几种解码方案

NLP高频面试题(二十九)------大模型解码常见参数解析

(7)RAG相关内容简介
NLP高频面试题(二十四)------RAG相关内容简介

(8)RAG的reranker模块结果,原理和目前存在的挑战
NLP高频面试题(二十五)------RAG的reranker模块结果,原理和目前存在的挑战

(9)RAG的retriever模块作用,原理和目前存在的挑战
NLP高频面试题(二十六)------RAG的retriever模块作用,原理和目前存在的挑战

(10)SFT有哪几种参数微调方法?有什么优缺点?
NLP高频面试题(二十七)------SFT有哪几种参数微调方法?有什么优缺点?

(11)Reward model是如何训练的,怎么训练一个比较好的Reward model
NLP高频面试题(二十八)------Reward model是如何训练的,怎么训练一个比较好的Reward model

(12)LLama系列模型介绍,包括LLama LLama2和LLama3
NLP高频面试题(三十)------LLama系列模型介绍,包括LLama LLama2和LLama3
NLP高频面试题(三十五)------LLaMA / ChatGLM / BLOOM的区别

(13)多模态预训练模型的主要结构、特征对齐与融合方法及对比损失函数详解
NLP高频面试题(三十一)------多模态预训练模型的主要结构、特征对齐与融合方法及对比损失函数详解

(14)介绍一下CLIP和CLIP2
NLP高频面试题(三十二)------介绍一下CLIP和CLIP2

(15)Vision Transformer(ViT)模型架构介绍
NLP高频面试题(三十三)------Vision Transformer(ViT)模型架构介绍

(16)深入理解思维链(Chain-of-Thought)提示方法
NLP高频面试题(三十六)------深入理解思维链(Chain-of-Thought)提示方法

5. AI Infra相关

(1)有哪几种分布式训练方式
NLP高频面试题(十五)------有哪几种分布式训练方式

(2)deepspeed原理
NLP高频面试题(十六)------deepspeed原理

(3)什么是KV Cache
NLP高频面试题(十七)------什么是KV Cache

(4)什么是prefill和decoder分离架构
NLP高频面试题(十八)------什么是prefill和decoder分离架构

(5)VLLM推理加速原理
NLP高频面试题(十九)------VLLM推理加速原理

(6)flash attention原理
NLP高频面试题(二十)------flash attention原理

6. DeepSeek相关

(1)deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的
NLP高频面试题(二十一)------deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的

(2)deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变,这些改进有什么作用
NLP高频面试题(二十二)------deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变,这些改进有什么作用

7. 其他

(1)对抗训练的发展脉络,原理,演化路径
NLP高频面试题(二十三)对抗训练的发展脉络,原理,演化路径

相关推荐
小鸡吃米…6 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫6 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)6 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan6 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维6 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS6 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd7 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟7 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能
Carl_奕然7 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析
旅途中的宽~7 小时前
《European Radiology》:2024血管瘤分割—基于MRI T1序列的分割算法
人工智能·计算机视觉·mri·sci一区top·血管瘤·t1