主包近期爆肝整理了字节大模型算法岗、应用岗面试中涉及到的真题,来源覆盖xhs、b乎、CSDN、🐮客、脉脉等各大平台真实网友的经验贴,力求做到不重复不遗漏,希望给27/28届备战实习或秋招的uu们一个复习的抓手。如有遗漏,欢迎在评论区留言补充~
一、部分真题展示
- Attention 与 Transformer 架构
Attention 计算公式:Attention为什么要 scaled(为什么除以根号d_k)?不做会怎样?除了除以根号d_k还有什么办法?
自注意力公式:Self-Attention 中 softmax 函数的作用、公式、为什么有减去最值的处理?换个函数还能这样处理吗?
多头注意力 (MHA):讲 MHA 原理;MHA 问了时间复杂度,多头相较单头的好处;MHA、MQA、GQA、MLA 的区别。
Transformer 结构:
请详细介绍 Transformer 架构(Encoder-Decoder 结构、位置编码、FFN 等)。
在 Transformer 的 Decoder 里,为什么需要用 Mask 把未来的信息"遮住"?从代码实现上讲,这个 Mask 具体是怎么作用在 Self-Attention 分数上的?
Transformer 有几个残差连接,分别在哪?
Pre-norm 和 Post-norm 的区别。
Encoder 与 Decoder 中 Attention 的区别。
Decoder-only 和 Encoder-only 有什么区别?为什么现在的生成大模型都使用 Decoder-only?
Transformer 和传统 Seq2Seq 模型有什么区别? - 强化学习 (RL) 训练流程
PPO 训练细节:
PPO 如何做的详细介绍,包括数据,怎么训练奖励模型,每个模型的损失什么样子的?
PPO 的奖励函数设计对最终模型表现有什么影响?
PPO 训练需要多少张卡做训练?
PPO 的 Advantages 具体是怎么计算的?
PPO 的 Critic 模型怎么训练的? V_target 怎么来的?
为什么要用 referencemodel?为了解决什么问题?
DPO/GRPO 训练细节:
为什么要 SFT 后还要使用 DPO 进行训练?
DPO 训练流程,为什么 PPO 和 DPO 你都用了,有什么区别,有没有做对比试验?
DPO 的数据怎么构造的?为什么要用 DPO?
为什么要用 DPO?用 GRPO 不行吗?强行用 GRPO 的话,奖励函数怎么设计?(注:原文语境涉及 RAG 数据质量)
GRPO 训练需要什么样的数据格式?(不能只有 Query 和 Answer,还需要 Reasoning Process / Thought)。
GRPO 相比 PPO 的改进,好处是?
为什么要做正负样本不对称设计?具体是正样本权重大还是负样本权重大?不对称体现在哪?
用 GRPO 做后训练的过程中,遇到的典型或较难的问题是什么?怎么调优 GRPO 的超参数来改善训练效果?
GRPO 训练不收敛怎么排查? - 推理加速与显存优化
KV Cache 与推理原理:
KV Cache 是什么?为什么能提升推理速度?KV Cache 的空间复杂度是多少?
为什么现在的大模型在推理阶段都是左 padding?
Transformer 的效率优化的地方,介绍以下 KV Cache。
vLLM 的 PagedAttention 原理?vLLM 为什么可以加速推理,原理、收益、代价是什么?
SGLang 相比 vLLM 的 PagedAttention 在推理延迟上有哪些优势?
了解 vLLM 吗?vLLM 自带的 KV Cache 是否会成为推理过程中的负担?
模型压缩与量化:
模型剪枝/量化(GPTQ、AWQ)、服务化框架(FastAPI+vLLM)。
AWQ 和 GPTQ。
QLoRA 怎么优化显存?结合实操经验,说明 QLoRA 降低训练资源成本的核心逻辑;列举常见的模型量化方式,并解释 QLoRA 选择 NF4 与 FP16 组合而非其他方案的原因。
在推理阶段,为了减少 LoRA 带来的延迟,你会不会做权重合并?这样做有什么利弊?
显存与资源估算:
lora 是怎么节省显存的,然后当场给了个场景,让我分别计算了一下全参和 lora 分别占多少显存。
14B 模型,FP16 权重大概多大?训练时还要加哪些开销?如果用 INT8 大概能省多少显存?
如何优化大模型在长文本生成中的显存占用?
KV Cache 的原理,vLLM 两个优化。
oom 怎么办,activation checkpointing 原理。
torch.contiguous() 干嘛的?推理为啥在意连续性? - 多智能体系统 (Multi-Agent)
系统设计:
是否使用过多智能体(Multi-Agent)?如何搭建多智能体系统?
如果让你现在设计一个 agent,你是怎么设计?你用 multi agent 的话,你的结构是什么?
常见的多智能体架构有哪些?例如 GraphRAG 等。
如何让多个 agent 协同工作的?举个具体的协同机制例子。
了解目前主流的 MultiAgent 框架吗?
LLM-as-a-Judge 的上限和风险?它适合做什么,不适合做什么?
通信与冲突:
你不同 agent 之间如何沟通?
如果一个 agent 误判导致策略冲突,如何处理?
假设一个子 agent 出了错,比如检索召回错了内容,那整个流程会失败吗,你怎么来处理这一块的?
谈谈对 A2A 通信的理解。在 A2A 场景下,如何防止两个 Agent 陷入递归对话? - 多模态大模型训练与微调
Qwen-VL 系列:
Qwen3-VL 分了几个阶段训?第一阶段训哪些,第二阶段训哪些,第三阶段训哪些?每阶段用什么数据?
Qwen2-VL 问了多分辨率输入是怎么实现的。
Qwen2.5-VL 里面,主要介绍了动态帧率采样。
Qwen3-VL 改进,目前多模态大模型一般架构。
Qwen-vl 下采样比例(模型细节),用了几层 mlp。
你了解 Qwen3 吗?Qwen3 的技术原理?Qwen3 相比前代有什么改进?
训练流程与数据:
它们(多模态模型)是怎么进行微调怎么去训练的?
多模态的用户信息怎么存储和使用?
如何结合多模态数据做增量预训练?
具体技术细节:
Qwen3 中的 interleaved RoPE。
DeepSeek-V3 这篇论文的主要创新点有哪些,为什么会引起这么大关注?
DeepSeek 不同版本之间的区别?
DeepSeek 跟 transformer 的区别?为什么? - 开发工具与编程习惯
平时是否使用 vibe coding?对此有什么看法?
针对大规模PDF解析这种任务,你选择多线程还是多进程?(考察实际工程中的工具选型思维)
Python的multiprocessing和threading你会如何结合使用来提高整体吞吐量?(考察对语言特性的实际应用策略) - 行业认知与个人看法
你怎么看 LLM Agent的"对齐税"(Alignment Tax)问题?
觉得当前的 agent 达到预期了吗?对 agent 的预期是什么?
你认为 GRPO 的局限性有哪些?怎么克服?
你认为 VERL框架如果用DAPO该改哪些地方?(考察对框架的深度思考)
除了基础的向量检索,你还知道哪些可以提升 RAG 检索质量的技术?(考察技术视野广度) - 论文阅读与学术视野
最近读了什么论文?论文的核心亮点是什么?
还有了解哪些RL算法比如gspo之类的?(考察对领域最新进展的跟踪)
了解 DeepSeek-R1 吗? 介绍一下?(考察对热点模型的关注度) - 工程实践与项目复盘
SFT阶段用的什么模型,数据来源,如何做数据处理,用的什么框架?(考察项目全流程的清晰度)
PPO如何做的详细介绍,包括数据,怎么训练奖励模型,每个模型的损失什么样子的,在几张卡上做的训练?(考察对项目细节的掌控)
DPO训练流程,为什么ppo和dpo你都用了,有什么区别,有没有做对比试验?(考察实验设计能力)
如何评估你微调之后模型有提升?(考察结果验证思维)
目前的项目主要存在哪些 Bad Case?怎么解决?(考察问题解决与复盘能力)
针对这种需要强推理的 Bad Case,如果想用 GRPO 来解决,完整的训练流程应该怎么走?(考察系统设计能力)
如果用户的 Prompt 特别长,导致上下文窗口溢出,除了截断,你有哪些简化上下文的策略?(考察具体场景的应对策略)
在高并发查询的 Agent 系统中,你会如何优化召回和生成阶段的延迟?(考察性能优化思维)
二、 面试风格分析
字节跳动的大模型算法/应用岗面试呈现出非常鲜明且极具挑战性的风格,主要体现在以下三个方面:
- "深挖式"连环追问:这是最核心的特征。面试官绝不满足于候选人给出的标准答案或公式。他们会围绕一个知识点(如Attention、PPO、LoRA)不断追问"为什么",直至触及数学原理、工程实现细节和设计权衡。例如,问完RoPE是什么,会立刻要求手写实现;问完DPO公式,会追问比值如何具体计算。
- "理论-实践-前沿"三位一体:理论基础------对Transformer、优化器、损失函数等经典知识的掌握必须扎实且深刻。工程实践------极其看重候选人将理论落地的能力,问题大量涉及显存估算、分布式训练(3D并行)、推理加速(KV Cache, vLLM)、系统部署等。技术前沿------对PPO、DPO、GRPO、MLA、MoE、DeepSeek、Qwen-VL等最新算法和模型架构有明确要求,考察候选人对领域动态的跟踪和理解深度。
- 强系统思维与场景化考察:面试题常常以具体的业务场景(如RAG冲突处理、Agent工具调用失败、长文本截断)为背景,要求候选人不仅知道技术点,更要能综合运用知识,设计端到端的解决方案,并考虑性能、成本、鲁棒性等现实约束。
三、 重难点分析
从面经来看,复习的重点和难点高度集中在以下几个模块:
1.大模型核心架构与优化(重中之重):
Transformer及其变体:必须透彻理解每一个组件(Attention, FFN, Norm, Positional Encoding)的设计动机、数学原理和代码实现。特别是RoPE、GQA、MLA等现代改进。
Attention机制:Scaled Dot-Product Attention的数值稳定性、复杂度、FlashAttention等优化手段是高频考点。
2.强化学习对齐算法(核心难点):
PPO:其完整流程(四个模型的角色)、优势函数(Advantage/GAE)计算、Clip机制、KL散度的作用等是基础。
DPO/GRPO:这是当前的热点和难点。必须清晰掌握DPO的推导逻辑(从RLHF到解析解)、数据构造方式,并能与PPO进行对比。GRPO作为更前沿的算法,对其目标函数、KL项的作用、与PPO/DPO的区别要有深入理解。
3.高效训练与推理(工程重点):
PEFT技术:LoRA的原理、秩的选择、与全参微调的对比、QLoRA的量化细节(NF4)等。
分布式训练:DeepSpeed (ZeRO)、Megatron (TP/PP) 的原理、通信开销、适用场景。
推理加速:KV Cache的原理与空间复杂度、vLLM的PagedAttention、SGLang等框架的优势。
4.RAG与Agent系统(应用热点):
RAG:从文档切片、向量检索(IVF_FLAT vs HNSW)、重排(Rerank)到幻觉抑制、冲突解决的全流程都可能被考察。
Agent:对Agent的核心范式(ReAct, Function Call)、记忆机制(长短记忆)、多智能体协同、规划(Planning)等概念要有清晰的认识。
四、 针对性复习备战策略
基于以上分析,建议采取以下策略进行高效备战:
1.构建"Why-How-What"知识体系:
对每个核心概念(如为什么Attention要除以根号d_k?),不仅要记住"What"(公式),更要能解释"Why"(方差过大导致梯度消失),并能说明"How"(代码中如何实现,不做的后果是什么)。尝试自己推导关键公式(如DPO)。
2.精读经典论文与技术报告:
必读:原始Transformer、PPO、DPO论文。
精读:主流开源模型(Llama, Qwen, DeepSeek)的技术报告,重点关注其架构选择(如GQA, RoPE, SwiGLU)和训练流程(SFT, RLHF阶段)。
了解:前沿工作如GRPO、MLA、FlashAttention等的核心思想。
3.动手实践,强化工程直觉:
显存计算:熟练掌握模型参数量、精度(FP16/BF16/INT8)、batch size、序列长度与显存占用的关系,能快速估算。
代码实现:尝试手写核心模块,如Self-Attention(带Mask)、RoPE、LoRA层、简单的PPO/DPO loss计算。
框架熟悉:了解DeepSpeed、Megatron-LM、vLLM等主流框架的基本用法和设计理念。
4.模拟面试,预演追问:
在复习每个知识点时,主动给自己设置追问。例如,在回答完"介绍Transformer"后,立刻自问:"Decoder为什么需要Mask?"、"Pre-norm和Post-norm有什么区别?"、"FFN的作用是什么?"。
针对项目经历,准备好应对深度挖掘,确保能清晰阐述技术选型的理由、遇到的挑战和最终的量化效果。
5.关注系统性与权衡:
在回答问题时,养成思考trade-off的习惯。例如,在讨论RAG时,不仅要讲技术,还要提及其带来的延迟增加;在讨论LoRA时,要能说出其节省显存但可能损失部分性能的特点。这能充分展现你的系统思维能力。