AI大模型面试精选
本文从大模型面试题库中精选20道高频面试题,涵盖基础理论、微调、RAG、推理优化等核心知识点,适合准备大模型相关岗位面试的同学。
一、大模型基础篇(5题)
01|什么是 Transformer?它的核心组件有哪些?
参考答案:
Transformer 是一种基于注意力机制的神经网络架构,由 Google 在 2017 年提出,是大模型的基础架构。
核心组件:
-
- Self-Attention(自注意力机制)
- • 允许模型在处理序列时关注所有位置的信息
- • 计算 Query、Key、Value 三个矩阵
- • 公式:
Attention(Q, K, V) = softmax(QK^T / √d_k) V
-
- Multi-Head Attention(多头注意力)
- • 将注意力机制并行执行多次
- • 每个头学习不同的表示子空间
- • 最后拼接所有头的输出
-
- Position Encoding(位置编码)
- • 为序列添加位置信息
- • 可以是固定的正弦位置编码,也可以是可学习的位置嵌入
-
- Feed-Forward Network(前馈网络)
- • 两层全连接网络
- • 通常包含激活函数(如 ReLU 或 GELU)
-
- Layer Normalization(层归一化)
- • 对每层的输入进行归一化
- • 提高训练稳定性
-
- 残差连接
- • 解决深层网络的梯度消失问题
应用场景: GPT、BERT、T5 等大模型都基于 Transformer 架构。
02|Self-Attention 和 Cross-Attention 的区别是什么?
参考答案:
Self-Attention(自注意力):
- • Query、Key、Value 都来自同一个输入序列
- • 用于编码器(Encoder)中,让序列中的每个位置都能关注到整个序列的信息
- • 例如:BERT 中的 Self-Attention 让每个词都能关注到句子中的所有词
Cross-Attention(交叉注意力):
- • Query 来自一个序列,Key 和 Value 来自另一个序列
- • 用于解码器(Decoder)中,让解码器关注编码器的输出
- • 例如:在机器翻译中,解码器的 Query 关注编码器输出的 Key 和 Value
关键区别:
- • Self-Attention:同一序列内部的信息交互
- • Cross-Attention:不同序列之间的信息交互
03|Layer Normalization 和 Batch Normalization 的区别?
参考答案:
Batch Normalization(批归一化):
- • 在 batch 维度上归一化
- • 对每个特征通道,计算整个 batch 的均值和方差
- • 公式:
BN(x) = γ * (x - μ_B) / √(σ²_B + ε) + β - • 优点:训练稳定,允许更大的学习率
- • 缺点:batch size 小时效果差,不适合 RNN/Transformer
Layer Normalization(层归一化):
- • 在特征维度上归一化
- • 对每个样本,计算该层所有特征的均值和方差
- • 公式:
LN(x) = γ * (x - μ_L) / √(σ²_L + ε) + β - • 优点:不依赖 batch size,适合序列模型
- • 缺点:在 CNN 中效果不如 BN
为什么 Transformer 用 Layer Normalization?
- • Transformer 处理的是变长序列,batch 中序列长度不同
- • Layer Normalization 对每个样本独立归一化,不受 batch 影响
- • 训练更稳定,适合序列到序列的任务
04|Transformer 中的位置编码是如何工作的?
参考答案:
问题: Transformer 没有循环结构,无法感知序列顺序,需要位置编码来注入位置信息。
两种位置编码方式:
-
- 正弦位置编码(Sinusoidal Position Encoding)
-
• 固定的、不可学习的位置编码
-
• 公式:```plaintext
PE(pos, 2i) = sin(pos / 10000^(2i/d_model))PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model)) -
• 优点:可以处理比训练时更长的序列
-
• 缺点:固定的,无法学习任务特定的位置模式
-
- 可学习的位置嵌入(Learned Position Embedding)
- • 将位置编码作为可学习的参数
- • 每个位置有一个可学习的向量
- • 优点:可以学习任务特定的位置模式
- • 缺点:只能处理训练时见过的最大长度
应用:
- • GPT 使用可学习的位置嵌入
- • BERT 使用可学习的位置嵌入
- • 一些新模型(如 RoPE)使用旋转位置编码
05|什么是 Tokenizer?常见的 Tokenizer 有哪些?
参考答案:
Tokenizer(分词器) 是将文本转换为模型可以处理的 Token 序列的工具。
常见 Tokenizer 类型:
-
- Word-level(词级)
- • 按空格分词,每个词一个 token
- • 缺点:词汇表大,OOV(未登录词)问题严重
-
- Character-level(字符级)
- • 每个字符一个 token
- • 优点:词汇表小,无 OOV 问题
- • 缺点:序列长,语义信息丢失
-
- Subword-level(子词级) ⭐ 最常用
- • BPE(Byte Pair Encoding):GPT、GPT-2 使用
- • WordPiece:BERT 使用
- • SentencePiece:T5、mT5 使用
- • 优点:平衡词汇表大小和语义信息
BPE 工作原理:
-
- 初始化:将文本拆分为字符
-
- 迭代:找到出现频率最高的字符对,合并为一个新 token
-
- 重复:直到达到预设的词汇表大小
为什么需要 Tokenizer?
- • 模型只能处理数字,需要将文本转换为 token ID
- • 不同语言的分词方式不同
- • 合理的分词可以提升模型性能
二、大模型微调篇(5题)
06|什么是 LoRA?它的原理是什么?
参考答案:
LoRA(Low-Rank Adaptation) 是一种参数高效微调方法,通过低秩矩阵分解来减少可训练参数。
核心思想:
- • 冻结预训练模型的参数
- • 在原始权重旁添加低秩矩阵进行微调
- • 前向传播:
W' = W + BA,其中 B 和 A 是低秩矩阵
数学原理:
- • 原始权重矩阵 W:
d × d - • 低秩分解:
W' = W + B × A
- • B:
d × r(r 是秩,通常 r << d) - • A:
r × d
- • 参数量:从
d²减少到2rd
优点:
- • 参数量大幅减少(通常减少 99%+)
- • 显存占用低,训练速度快
- • 可以保存多个 LoRA 适配器,切换方便
- • 效果接近全量微调
应用场景:
- • 多任务学习:为不同任务训练不同的 LoRA 适配器
- • 个性化模型:为不同用户训练不同的 LoRA
- • 资源受限环境:GPU 显存不足时使用
07|全量微调、LoRA、QLoRA 的区别?
参考答案:
| 方法 | 参数量 | 显存占用 | 训练速度 | 效果 |
|---|---|---|---|---|
| 全量微调 | 100% | 高 | 慢 | 最好 |
| LoRA | 0.1-1% | 低 | 快 | 接近全量 |
| QLoRA | 0.1-1% | 极低 | 中等 | 接近全量 |
全量微调(Full Fine-tuning):
- • 更新所有模型参数
- • 需要大量显存(7B 模型需要 40GB+)
- • 训练时间长
- • 效果最好,但容易过拟合
LoRA:
- • 只训练低秩矩阵
- • 显存占用低(7B 模型需要 16GB)
- • 训练速度快
- • 效果接近全量微调
QLoRA(Quantized LoRA):
- • LoRA + 量化(4-bit)
- • 显存占用极低(7B 模型只需要 6GB)
- • 可以在消费级 GPU 上训练
- • 效果几乎不损失
选择建议:
- • 显存充足:全量微调
- • 显存中等:LoRA
- • 显存不足:QLoRA
08|什么是 SFT(Supervised Fine-Tuning)?它的作用是什么?
参考答案:
SFT(Supervised Fine-Tuning,监督微调) 是在预训练模型基础上,使用标注数据进行有监督学习的微调方法。
作用:
-
- 任务适配:让模型适应特定任务(如对话、问答、代码生成)
-
- 行为对齐:让模型输出符合人类期望的格式和风格
-
- 能力增强:在特定领域提升模型性能
训练数据格式:
-
• 输入-输出对:
(prompt, response) -
• 例如:```plaintext
输入:什么是机器学习?输出:机器学习是人工智能的一个分支...
训练过程:
-
- 使用预训练模型作为初始化
-
- 在标注数据上计算损失(通常是交叉熵)
-
- 反向传播更新参数
与预训练的区别:
- • 预训练:无监督学习,学习语言知识
- • SFT:有监督学习,学习任务特定的行为
应用场景:
- • 对话模型:ChatGPT、Claude 等
- • 代码生成:Codex、GitHub Copilot
- • 特定领域:医疗、法律等垂直领域
09|什么是 RLHF?它的三个步骤是什么?
参考答案:
RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习) 是一种通过人类反馈来优化模型输出的方法。
三个步骤:
步骤 1:监督微调(SFT)
- • 使用高质量的标注数据微调预训练模型
- • 让模型学会基本的任务格式和行为
- • 例如:让模型学会如何回答问题
步骤 2:奖励模型训练(Reward Model)
- • 收集人类对模型输出的偏好数据
- • 训练一个奖励模型来预测人类偏好
- • 输入:模型输出,输出:奖励分数
- • 例如:回答 A 比回答 B 更好 → 给 A 更高分数
步骤 3:强化学习优化(PPO)
- • 使用奖励模型作为奖励信号
- • 使用 PPO(Proximal Policy Optimization)算法优化模型
- • 目标:最大化奖励模型的分数
- • 约束:避免模型偏离 SFT 模型太远(KL 散度约束)
为什么需要 RLHF?
- • 很多任务难以用损失函数定义(如创意写作、对话)
- • 人类偏好比简单的准确率更能反映任务目标
- • 可以让模型输出更符合人类期望
应用:
- • ChatGPT、Claude 等对话模型
- • 创意写作、代码生成等开放性任务
10|PEFT 有哪些方法?各有什么特点?
参考答案:
PEFT(Parameter-Efficient Fine-Tuning,参数高效微调) 是一类只更新少量参数就能达到良好微调效果的方法。
主要方法:
-
- Adapter(适配器)
- • 在 Transformer 层之间插入小的全连接层
- • 只训练 Adapter 参数,冻结原始模型
- • 优点:简单直接
- • 缺点:增加推理延迟
-
- LoRA(Low-Rank Adaptation) ⭐ 最流行
- • 使用低秩矩阵分解
- • 优点:不增加推理延迟,效果好
- • 缺点:需要选择合适的 rank
-
- Prefix Tuning
- • 在输入前添加可学习的 prefix tokens
- • 优点:不修改模型结构
- • 缺点:需要较长的 prefix
-
- Prompt Tuning
- • 类似 Prefix Tuning,但只优化 soft prompts
- • 优点:最简单
- • 缺点:效果相对较差
-
- P-Tuning v2
- • 在每一层都添加可学习的 prompts
- • 优点:效果比 Prompt Tuning 好
- • 缺点:需要更多参数
对比:
| 方法 | 参数量 | 推理延迟 | 效果 | 使用难度 |
|---|---|---|---|---|
| Adapter | 中等 | 增加 | 好 | 中等 |
| LoRA | 少 | 不增加 | 最好 | 简单 |
| Prefix Tuning | 少 | 不增加 | 好 | 中等 |
| Prompt Tuning | 最少 | 不增加 | 中等 | 简单 |
| P-Tuning v2 | 少 | 不增加 | 好 | 中等 |
推荐: 大多数场景推荐使用 LoRA,效果和效率的平衡最好。
三、RAG 检索增强生成篇(5题)
11|什么是 RAG?它的工作原理是什么?
参考答案:
RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合检索和生成的方法,通过检索外部知识库来增强大模型的生成能力。
工作原理:
-
- 文档处理
- • 将知识库文档切分成 chunks(文本块)
- • 使用 Embedding 模型将 chunks 转换为向量
- • 存储到向量数据库中
-
- 检索阶段
- • 用户提问时,将问题转换为向量
- • 在向量数据库中检索最相关的 chunks(Top-K)
- • 使用相似度计算(如余弦相似度)
-
- 生成阶段
- • 将检索到的 chunks 作为上下文
- • 将"问题 + 上下文"一起输入大模型
- • 大模型基于上下文生成答案
优点:
- • 解决大模型知识更新慢的问题
- • 减少幻觉(Hallucination)
- • 可以引用具体文档来源
- • 不需要重新训练模型
缺点:
- • 检索质量影响最终效果
- • 需要维护向量数据库
- • 可能检索到不相关信息
应用场景:
- • 企业知识库问答
- • 法律、医疗等专业领域问答
- • 文档智能助手
12|RAG 的文本分块(Chunking)策略有哪些?
参考答案:
文本分块 是 RAG 的关键步骤,直接影响检索质量。
常见策略:
-
- 固定长度分块(Fixed-size Chunking)
- • 按固定字符数或 token 数切分
- • 优点:简单、快速
- • 缺点:可能切断语义完整的句子
- • 适用:结构化文档
-
- 句子分块(Sentence Chunking)
- • 按句子边界切分
- • 优点:保持语义完整性
- • 缺点:句子长度差异大
- • 适用:自然语言文档
-
- 段落分块(Paragraph Chunking)
- • 按段落切分
- • 优点:语义最完整
- • 缺点:可能过长,超出模型上下文
- • 适用:结构化文档
-
- 滑动窗口分块(Sliding Window)
- • 固定大小 + 重叠区域
- • 优点:避免边界信息丢失
- • 缺点:存储空间增加
- • 适用:长文档
-
- 语义分块(Semantic Chunking)
- • 使用 Embedding 模型,按语义相似度切分
- • 优点:最符合语义边界
- • 缺点:计算成本高
- • 适用:复杂文档
最佳实践:
- • 块大小:通常 200-500 tokens
- • 重叠:10-20% 的重叠区域
- • 根据文档类型选择策略
- • 可以组合多种策略
13|RAG 中如何优化检索质量?
参考答案:
检索质量 是 RAG 效果的关键,可以从多个维度优化:
1. Embedding 模型优化
- • 使用领域相关的 Embedding 模型
- • 微调 Embedding 模型适配任务
- • 使用多向量 Embedding(如 ColBERT)
2. 检索策略优化
- • 混合检索:结合向量检索和关键词检索(BM25)
- • 重排序(Rerank):使用 Cross-Encoder 对检索结果重排
- • 多路召回:使用多个检索策略,然后融合结果
3. 查询优化
- • 查询扩展:使用大模型扩展用户查询
- • 查询改写:将问题改写为更适合检索的形式
- • 多轮查询:根据上下文生成多个查询
4. 负样本挖掘
- • 使用 Hard Negative Mining
- • 选择相似但不相关的文档作为负样本
- • 提升模型的区分能力
5. 检索数量优化
- • 动态调整 Top-K 数量
- • 根据查询复杂度选择不同的 K
- • 使用自适应检索
6. 元数据过滤
- • 使用文档的元数据(时间、作者、类别等)过滤
- • 提升检索的精确度
评估指标:
- • Recall@K:前 K 个结果中包含正确答案的比例
- • MRR(Mean Reciprocal Rank):平均倒数排名
- • NDCG:归一化折损累积增益
14|什么是 RAG-Fusion?它如何提升 RAG 效果?
参考答案:
RAG-Fusion 是一种改进的 RAG 方法,通过生成多个查询并融合检索结果来提升效果。
工作原理:
-
- 查询生成
- • 使用大模型根据原始查询生成多个相关查询
- • 例如:原始查询"如何优化 Python 性能?"
- • 生成:"Python 性能优化方法"、"提升 Python 运行速度"、"Python 代码优化技巧"
-
- 多路检索
- • 对每个生成的查询分别进行向量检索
- • 每个查询得到 Top-K 个结果
-
- 结果融合
- • 使用 Reciprocal Rank Fusion(RRF)算法融合结果
- • RRF 公式:
score(d) = Σ 1/(k + rank_i(d)) - • 其中 k 是常数(通常为 60),rank_i 是文档在第 i 个查询中的排名
-
- 重排序
- • 对融合后的结果进行重排序
- • 使用 Cross-Encoder 或大模型重排
优点:
- • 解决查询表达不准确的问题
- • 从多个角度检索相关信息
- • 提升检索的召回率(Recall)
缺点:
- • 计算成本增加(多次检索)
- • 需要更多时间
适用场景:
- • 复杂查询
- • 需要多角度信息的任务
- • 对召回率要求高的场景
15|Graph RAG 是什么?它相比传统 RAG 有什么优势?
参考答案:
Graph RAG 是基于知识图谱的 RAG 方法,将文档转换为知识图谱,利用图结构进行检索和推理。
工作原理:
-
- 知识图谱构建
- • 从文档中提取实体、关系、属性
- • 构建知识图谱(节点=实体,边=关系)
- • 例如:"Python" -[是]-> "编程语言"
-
- 图检索
- • 在知识图谱中检索相关实体和关系
- • 使用图遍历算法(如随机游走、PageRank)
- • 可以找到多跳关系
-
- 上下文构建
- • 将检索到的子图转换为文本
- • 包含实体、关系、属性信息
-
- 生成答案
- • 将图结构化的上下文输入大模型
- • 生成基于知识图谱的答案
优势:
-
- 结构化知识
- • 知识图谱是结构化的,比纯文本更易理解
- • 可以表示复杂的实体关系
-
- 多跳推理
- • 可以沿着图结构进行多跳推理
- • 例如:A 认识 B,B 认识 C → A 可能认识 C
-
- 关系理解
- • 明确表示实体之间的关系
- • 比向量相似度更能理解语义关系
-
- 可解释性
- • 可以展示推理路径
- • 更容易解释答案来源
缺点:
- • 构建知识图谱成本高
- • 需要实体识别和关系抽取模型
- • 对非结构化文档效果有限
适用场景:
- • 结构化知识库
- • 需要关系推理的任务
- • 企业知识图谱
四、推理优化篇(3题)
16|什么是 KV Cache?它如何加速推理?
参考答案:
KV Cache(Key-Value Cache) 是一种推理优化技术,通过缓存已计算的 Key 和 Value 矩阵来避免重复计算。
问题背景:
- • Transformer 的自注意力机制需要计算 Q、K、V
- • 在自回归生成中,每次生成新 token 时,之前的所有 token 都需要重新计算
- • 导致大量重复计算
工作原理:
-
- 首次计算
- • 计算所有 token 的 K 和 V 矩阵
- • 将 K 和 V 缓存起来
-
- 后续生成
- • 只计算新 token 的 K 和 V
- • 从缓存中读取之前 token 的 K 和 V
- • 拼接后计算注意力
加速效果:
- • 计算量:从 O(n²) 降低到 O(n)
- • 速度提升:2-10 倍(取决于序列长度)
- • 显存占用:增加约 50%(需要存储 K、V)
实现细节:
plaintext
# 伪代码if first_token: k_cache = compute_k(input) v_cache = compute_v(input)else: k_new = compute_k(new_token) v_new = compute_v(new_token) k_cache = concat([k_cache, k_new]) v_cache = concat([v_cache, v_new])
优化技巧:
- • 使用 Flash Attention 减少显存占用
- • 动态调整 cache 大小
- • 使用量化减少 cache 显存
17|大模型推理加速的方法有哪些?
参考答案:
推理加速 是大模型应用的关键,可以从多个维度优化:
1. 模型量化(Quantization)
- • INT8 量化:将 FP16 转为 INT8,显存减半
- • INT4 量化:进一步压缩,显存减少 75%
- • GPTQ、AWQ:后训练量化方法
- • 优点:显存占用大幅降低
- • 缺点:可能损失精度
2. 模型剪枝(Pruning)
- • 移除不重要的权重或神经元
- • 结构化剪枝:移除整个通道
- • 非结构化剪枝:移除单个权重
- • 优点:模型更小,推理更快
- • 缺点:需要重新训练
3. 知识蒸馏(Knowledge Distillation)
- • 用大模型(教师)训练小模型(学生)
- • 学生模型学习教师模型的输出分布
- • 优点:小模型速度快,效果接近大模型
- • 缺点:需要训练过程
4. 推理框架优化
- • vLLM:PagedAttention,高效管理 KV Cache
- • TensorRT:NVIDIA 的推理优化框架
- • ONNX Runtime:跨平台推理优化
- • 优点:无需修改模型,直接加速
- • 缺点:需要适配不同硬件
5. 批处理优化
- • 动态批处理:将多个请求合并处理
- • 连续批处理:新请求加入正在处理的批次
- • 优点:提升 GPU 利用率
- • 缺点:增加延迟
6. 硬件加速
- • 使用专用 AI 芯片(如 TPU、NPU)
- • 使用多 GPU 并行推理
- • 使用 CPU 推理(量化模型)
综合建议:
- • 显存充足:使用 FP16 + KV Cache
- • 显存不足:使用 INT8/INT4 量化
- • 追求极致速度:使用 vLLM + 量化
- • 边缘设备:使用知识蒸馏 + 量化
18|什么是 Flash Attention?它解决了什么问题?
参考答案:
Flash Attention 是一种高效的自注意力算法,通过分块计算和在线 softmax 来减少显存占用和加速计算。
问题背景:
- • 标准注意力需要存储完整的注意力矩阵(O(n²))
- • 对于长序列(如 32K tokens),显存占用巨大
- • 例如:32K 序列需要 32GB 显存存储注意力矩阵
Flash Attention 的核心思想:
-
- 分块计算(Tiling)
- • 将 Q、K、V 分成多个块
- • 逐块计算注意力,避免存储完整矩阵
-
- 在线 Softmax
- • 使用在线算法计算 softmax
- • 不需要存储完整的注意力分数
-
- 重计算(Recomputation)
- • 在反向传播时重新计算注意力
- • 用时间换空间
优势:
- • 显存减少:从 O(n²) 降低到 O(n)
- • 速度提升:减少内存访问,提升计算效率
- • 支持长序列:可以处理 32K+ tokens 的序列
数学原理:
- • 标准注意力:
O = softmax(QK^T / √d) V - • Flash Attention:分块计算,在线 softmax
应用:
- • 长文本处理
- • 大模型训练和推理
- • 多模态模型(图像+文本)
限制:
- • 需要特定的硬件支持(如 A100)
- • 实现复杂度较高
五、其他重要知识点(2题)
19|什么是大模型幻觉(Hallucination)?如何缓解?
参考答案:
大模型幻觉(Hallucination) 是指模型生成与输入无关、不符合事实或逻辑错误的内容。
类型:
-
- 事实性幻觉:生成错误的事实信息
-
- 逻辑幻觉:生成逻辑矛盾的内容
-
- 无关幻觉:生成与输入无关的内容
原因:
- • 训练数据中的错误信息
- • 模型过度泛化
- • 缺乏事实核查机制
- • 上下文理解不足
缓解方法:
-
- RAG(检索增强生成)
- • 从外部知识库检索相关信息
- • 基于检索内容生成答案
- • 最有效的方法
-
- 提示工程
- • 明确要求模型基于事实回答
- • 要求模型标注不确定的内容
- • 使用 Chain-of-Thought 让模型展示推理过程
-
- 后处理验证
- • 使用事实核查模型验证答案
- • 检查答案与检索内容的一致性
- • 过滤明显错误的内容
-
- 训练数据优化
- • 使用高质量、准确的数据训练
- • 减少训练数据中的错误信息
- • 使用人类反馈优化(RLHF)
-
- 模型架构改进
- • 使用检索机制(如 RAG)
- • 增强模型的推理能力
- • 使用多模态信息验证
评估指标:
- • Faithfulness:答案与源文档的一致性
- • Answer Relevance:答案与问题的相关性
- • Context Precision:检索上下文的质量
20|大模型训练中的显存优化策略有哪些?
参考答案:
显存优化 是大模型训练的关键,可以从多个维度优化:
1. 混合精度训练(Mixed Precision)
- • 使用 FP16/BF16 进行前向传播
- • 使用 FP32 进行梯度累积和优化器状态
- • 显存减少:约 50%
- • 速度提升:1.5-2 倍
2. 梯度检查点(Gradient Checkpointing)
- • 不保存中间激活值,反向传播时重新计算
- • 显存减少:约 50%
- • 时间增加:约 20%
3. 参数高效微调(PEFT)
- • 使用 LoRA、Adapter 等方法
- • 只训练少量参数
- • 显存减少:70-90%
4. 数据并行(Data Parallelism)
- • 将 batch 分配到多个 GPU
- • 每个 GPU 处理部分数据
- • 显存:每个 GPU 存储完整模型
5. 模型并行(Model Parallelism)
- • 将模型层分配到多个 GPU
- • 每个 GPU 只存储部分模型
- • 显存:每个 GPU 存储部分模型
6. 流水线并行(Pipeline Parallelism)
- • 将模型分成多个阶段
- • 不同 GPU 处理不同阶段
- • 显存:每个 GPU 存储一个阶段
7. ZeRO(Zero Redundancy Optimizer)
- • ZeRO-1:优化器状态分片
- • ZeRO-2:梯度分片
- • ZeRO-3:参数分片
- • 显存减少:最多 8 倍(ZeRO-3)
8. 卸载(Offloading)
- • 将部分参数卸载到 CPU 内存
- • 需要时再加载到 GPU
- • 显存减少:取决于卸载比例
- • 时间增加:取决于通信速度
9. 量化训练(Quantized Training)
- • 使用 INT8 或更低精度训练
- • 显存减少:50-75%
- • 可能损失精度
综合策略:
- • 小模型(<7B):混合精度 + LoRA
- • 中等模型(7B-13B):混合精度 + ZeRO-2 + LoRA
- • 大模型(>13B):混合精度 + ZeRO-3 + 模型并行 + LoRA
最后
为了助力朋友们跳槽面试、升职加薪、职业困境,提高自己的技术,本文给大家整了一套涵盖AI大模型所有技术栈的快速学习方法和笔记。目前已经收到了七八个网友的反馈,说是面试问到了很多这里面的知识点。
由于文章篇幅有限,不能将全部的面试题+答案解析展示出来,有需要完整面试题资料的朋友,可以扫描下方二维码免费领取哦!!! 👇👇👇👇


面试题展示
1、请解释一下BERT模型的原理和应用场景。
答案:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,通过双向Transformer编码器来学习文本的表示。它在自然语言处理任务中取得了很好的效果,如文本分类、命名实体识别等。
2、什么是序列到序列模型(Seq2Seq),并举例说明其在自然语言处理中的应用。
答案:Seq2Seq模型是一种将一个序列映射到另一个序列的模型,常用于机器翻译、对话生成等任务。例如,将英文句子翻译成法文句子。
3、请解释一下Transformer模型的原理和优势。
答案:Transformer是一种基于自注意力机制的模型,用于处理序列数据。它的优势在于能够并行计算,减少了训练时间,并且在很多自然语言处理任务中表现出色。
4、什么是注意力机制(Attention Mechanism),并举例说明其在深度学习中的应用。
答案:注意力机制是一种机制,用于给予模型对不同部分输入的不同权重。在深度学习中,注意力机制常用于提升模型在处理长序列数据时的性能,如机器翻译、文本摘要等任务。
5、请解释一下卷积神经网络(CNN)在计算机视觉中的应用,并说明其优势。
答案:CNN是一种专门用于处理图像数据的神经网络结构,通过卷积层和池化层提取图像特征。它在计算机视觉任务中广泛应用,如图像分类、目标检测等,并且具有参数共享和平移不变性等优势。
6、请解释一下生成对抗网络(GAN)的原理和应用。
答案:GAN是一种由生成器和判别器组成的对抗性网络结构,用于生成逼真的数据样本。它在图像生成、图像修复等任务中取得了很好的效果。
7、请解释一下强化学习(Reinforcement Learning)的原理和应用。
答案:强化学习是一种通过与环境交互学习最优策略的机器学习方法。它在游戏领域、机器人控制等领域有广泛的应用。
8、请解释一下自监督学习(Self-Supervised Learning)的原理和优势。
答案:自监督学习是一种无需人工标注标签的学习方法,通过模型自动生成标签进行训练。它在数据标注困难的情况下有很大的优势。
9、解释一下迁移学习(Transfer Learning)的原理和应用。
答案:迁移学习是一种将在一个任务上学到的知识迁移到另一个任务上的学习方法。它在数据稀缺或新任务数据量较小时有很好的效果。
10、请解释一下模型蒸馏(Model Distillation)的原理和应用。
答案:模型蒸馏是一种通过训练一个小模型来近似一个大模型的方法。它可以减少模型的计算和存储开销,并在移动端部署时有很大的优势。
11、请解释一下LSTM(Long Short-Term Memory)模型的原理和应用场景。
答案:LSTM是一种特殊的循环神经网络结构,用于处理序列数据。它通过门控单元来学习长期依赖关系,常用于语言建模、时间序列预测等任务。
12、请解释一下BERT模型的原理和应用场景。
答案:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,通过双向Transformer编码器来学习文本的表示。它在自然语言处理任务中取得了很好的效果,如文本分类、命名实体识别等。
13、什么是注意力机制(Attention Mechanism),并举例说明其在深度学习中的应用。
答案:注意力机制是一种机制,用于给予模型对不同部分输入的不同权重。在深度学习中,注意力机制常用于提升模型在处理长序列数据时的性能,如机器翻译、文本摘要等任务。
14、请解释一下生成对抗网络(GAN)的原理和应用。
答案:GAN是一种由生成器和判别器组成的对抗性网络结构,用于生成逼真的数据样本。它在图像生成、图像修复等任务中取得了很好的效果。
15、请解释一下卷积神经网络(CNN)在计算机视觉中的应用,并说明其优势。
答案:CNN是一种专门用于处理图像数据的神经网络结构,通过卷积层和池化层提取图像特征。它在计算机视觉任务中广泛应用,如图像分类、目标检测等,并且具有参数共享和平移不变性等优势。
16、请解释一下强化学习(Reinforcement Learning)的原理和应用。
答案:强化学习是一种通过与环境交互学习最优策略的机器学习方法。它在游戏领域、机器人控制等领域有广泛的应用。
17、请解释一下自监督学习(Self-Supervised Learning)的原理和优势。
答案:自监督学习是一种无需人工标注标签的学习方法,通过模型自动生成标签进行训练。它在数据标注困难的情况下有很大的优势。
18、请解释一下迁移学习(Transfer Learning)的原理和应用。
答案:迁移学习是一种将在一个任务上学到的知识迁移到另一个任务上的学习方法。它在数据稀缺或新任务数据量较小时有很好的效果。
19、请解释一下模型蒸馏(Model Distillation)的原理和应用。
答案:模型蒸馏是一种通过训练一个小模型来近似一个大模型的方法。它可以减少模型的计算和存储开销,并在移动端部署时有很大的优势。
20、请解释一下BERT中的Masked Language Model(MLM)任务及其作用。
答案:MLM是BERT预训练任务之一,通过在输入文本中随机mask掉一部分词汇,让模型预测这些被mask掉的词汇。
由于文章篇幅有限,不能将全部的面试题+答案解析展示出来,有需要完整面试题资料的朋友,可以扫描下方二维码免费领取哦!!! 👇👇👇👇


