NLP/大模型八股专栏结构解析

Chaos_Wang_2025-04-06 16:30

1.transformer 结构相关

（1）transformer的基本结构有哪些，分别的作用是什么，代码实现。
NLP高频面试题（一）------Transformer的基本结构、作用和代码实现

（2）LSTM、GRU和Transformer结构的区别与联系，优缺点分别是什么？
NLP高频面试题（二）------LSTM、GRU和Transformer结构的区别与联系，优缺点分别是什么？
NLP高频面试题（三）------普通RNN的梯度消失和梯度爆炸问题

（3）为什么要多头注意力机制？

（4）为什么要有QKV三个不同的向量，目前对这块有哪些优化？

（5）self-attention和cross-attention的区别与联系

（6）BN和LN的区别与联系，为什么attention要用LN

NLP高频面试题（四）------BN和LN的区别与联系，为什么attention要用LN

NLP高频面试题（三十四）------深度解析Layer Normalization与Batch Normalization：区别、联系及Transformer为何偏爱LN

2. bert及其变体相关

（1）BERT的基本结构介绍、预训练任务、下游任务
NLP高频面试题（五）------BERT的基本结构介绍、预训练任务、下游任务

（2）BERT和传统的文本表示模型的区别与联系

（3）Bert和transformer论文中有哪些不一样的地方

（4）GPT的基本结构介绍

（5）decoder-only、encoder-only和encoder-decoder的区别与联系
NLP高频面试题（六）------decoder-only、encoder-only和encoder-decoder的区别与联系

（6）GPT和Bert的mask有什么区别？
NLP高频面试题（七）------GPT和Bert的mask有什么区别？

（7）GPT1，2，3分别有哪些改进

NLP高频面试题（八）------GPT三个版本的区别

（8）

3. NLP任务相关

4. 大模型相关

（1）目前常见的几种大模型架构是啥样的
NLP高频面试题（十）------目前常见的几种大模型架构是啥样的

（2）RLHF的流程有哪些
NLP高频面试题（十一）------RLHF的流程有哪些

（3）Lora微调的原理、什么是Qlora
NLP高频面试题（十二）------Lora微调的原理、什么是Qlora

（4）什么是大模型幻觉，如何解决大模型幻觉
NLP高频面试题（十三）------什么是大模型幻觉，如何解决大模型幻觉

（5）DPO、PPO等强化学习训练方法介绍
NLP高频面试题（十四）------DPO、PPO等强化学习训练方法介绍

（6）大模型解码常见参数解析
NLP高频面试题（九）------大模型常见的几种解码方案

NLP高频面试题（二十九）------大模型解码常见参数解析

（7）RAG相关内容简介
NLP高频面试题（二十四）------RAG相关内容简介

（8）RAG的reranker模块结果，原理和目前存在的挑战
NLP高频面试题（二十五）------RAG的reranker模块结果，原理和目前存在的挑战

（9）RAG的retriever模块作用，原理和目前存在的挑战
NLP高频面试题（二十六）------RAG的retriever模块作用，原理和目前存在的挑战

（10）SFT有哪几种参数微调方法？有什么优缺点？
NLP高频面试题（二十七）------SFT有哪几种参数微调方法？有什么优缺点？

（11）Reward model是如何训练的，怎么训练一个比较好的Reward model
NLP高频面试题（二十八）------Reward model是如何训练的，怎么训练一个比较好的Reward model

（12）LLama系列模型介绍，包括LLama LLama2和LLama3
NLP高频面试题（三十）------LLama系列模型介绍，包括LLama LLama2和LLama3
NLP高频面试题（三十五）------LLaMA / ChatGLM / BLOOM的区别

（13）多模态预训练模型的主要结构、特征对齐与融合方法及对比损失函数详解
NLP高频面试题（三十一）------多模态预训练模型的主要结构、特征对齐与融合方法及对比损失函数详解

（14）介绍一下CLIP和CLIP2
NLP高频面试题（三十二）------介绍一下CLIP和CLIP2

（15）Vision Transformer（ViT）模型架构介绍
NLP高频面试题（三十三）------Vision Transformer（ViT）模型架构介绍

（16）深入理解思维链（Chain-of-Thought）提示方法
NLP高频面试题（三十六）------深入理解思维链（Chain-of-Thought）提示方法

5. AI Infra相关

（1）有哪几种分布式训练方式
NLP高频面试题（十五）------有哪几种分布式训练方式

（2）deepspeed原理
NLP高频面试题（十六）------deepspeed原理

（3）什么是KV Cache
NLP高频面试题（十七）------什么是KV Cache

（4）什么是prefill和decoder分离架构
NLP高频面试题（十八）------什么是prefill和decoder分离架构

（5）VLLM推理加速原理
NLP高频面试题（十九）------VLLM推理加速原理

（6）flash attention原理
NLP高频面试题（二十）------flash attention原理

6. DeepSeek相关

（1）deepseek V1-V3 分别有哪些改进，这些改进是如何对模型产生影响的
NLP高频面试题（二十一）------deepseek V1-V3 分别有哪些改进，这些改进是如何对模型产生影响的

（2）deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变，这些改进有什么作用
NLP高频面试题（二十二）------deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变，这些改进有什么作用

7. 其他

（1）对抗训练的发展脉络，原理，演化路径
NLP高频面试题（二十三）对抗训练的发展脉络，原理，演化路径

上一篇：大模型-爬虫prompt

下一篇：【面试篇】Dubbo

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03【踩坑笔记】50系显卡适配的 PyTorch 安装 04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 0620个国内外主流AI绘画工具大汇总（最新免费可用~）07Claude Code VSCode集成开发指南：AI编程助手完整配置 08【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）092025最新国内服务器可用docker源仓库地址大全（2025年8月更新）10DeepSeek更新！速览DeepSeek V3.1新特性