网易大模型算法岗面经80道

code：统计岛屿数量、最大岛屿面积
自我介绍+项目介绍+论文拷打
bert和gpt的区别？（从模型架构、训练方式、使用场景方面回答的）
训练/微调一个LLM的流程？
实习时用的 megatron 框架吗，对分布式训练框架了解多少？（回答了deepspeed和megatron区别，以及几种并行方式，以及deepspeed的三种zero）
了解强化学习吗，跟SFT有什么区别？
反问：业务，对岗位的期望
项目中指令微调数据集构建细节
RAG是怎么做的，召回结果如何评估，RAG如何改进？
Lora原理，矩阵如何初始化，是否可以初始化为0？
bert如何改进？bert和LLM有什么区别？
transformer计算过程，softmax为什么要进行缩放？
llm的解码参数解释(top-k,top-p,Temperature,Beam Search)
clip的对比学习原理
对比学习中的Temperature和llm解码器的Temperature是一个东西吗？
了解多模态模型吗：blip、blip2、GME？
强化学习概念，ppo和dpo的区别
reward模型的损失函数（rank loss）？
算法题：钥匙和房间
介绍一下 RoPE
介绍一下非线性长度外推
你觉得 Transformer-XL 与 RoPE 的异同是什么
说一下 BERT 结构模型的后续改进工作
手撕 30 分钟，不带 mask 的多头注意力层，为 mha 添加 RoPE
实习项目，基本llm从数据处理，微调，部署，sql，推理加速全部涉及。
vllm框架介绍一下？了解什么其他框架？
page attention原理
投机采样是什么，什么情况下用投机采样才能效果好？
lora介绍，为什么可以低秩微调，rank和阿尔法调参经验，跟数据量有什么关系？
大模型流式输出相比完整输出遇到的问题？遇到badcase怎么办
ppo原理，还有什么推理加速的方法？moe了解吗？moe具体怎么实现
写一下 attention 公式（代码实现了下）
训练时为什么要mask，推理时也需要吗？两处有什么区别？推理时的sequence length和训练时一样吗
transformer和传统seq2seq模型有什么区别？
计算attention时为什么要除以d_k，这个d_k的含义是？
attention计算时还有哪些scale处理？
attention中softmax函数作用、公式、为什么有减去最大值的处理？换个函数还能这样处理吗？
解释数值上溢、下溢问题
讲一下prompt书写的经验，如何判断prompt是否达标，如何改进prompt
讲一下SFT，会对哪部分计算loss？为什么？
讲一下deepspeed
训练用一个7b模型要占用多少显存？不同zero阶段能够节省多少显存？
训练模型时用了几张卡，有遇到什么异常中断问题吗？
联邦学习是啥，如何和llm结合
lora是什么做的秩怎么设置的
介绍deepspeed zero2（顺便也说说通讯量分析）
sft的loss和预训练的有什么区别
r1复现和蒸馏中的数据长度是什么样的
在您的项目中，如何设计并实现检索增强生成（RAG）的完整流程？请结合具体案例说明其对生成质量的提升效果。
您是否了解GRAG（若为已知技术，请解释其与RAG的差异；若为候选人口误，可追问技术细节）？
您在微调大模型时使用过哪些轻量化框架（如LoRA、QLoRA、P-Tuning）？请结合硬件条件与任务需求说明选型依据。
列举您熟悉的多模态模型（如CLIP、Flamingo、KOSMOS），并分析其核心架构设计（如跨模态对齐策略）。
若需全参数微调一个7B参数的模型，请估算显存占用量（需说明优化策略，如梯度检查点），并解释需保存哪些关键参数（如权重、优化器状态）。
代码实战：实现三数之和算法，要求返回所有不重复的三元组。需关注时间复杂度优化与边界条件处理。
了解DeepSeek-R1吗？介绍一下
R1的MLA是如何实现KV-Cache的节约？
R1在SFT时冷启动的目的？
位置编码是什么？解释R0PE
一个14B的模型，推理和训练要多少显存？
显存的占用和哪些因素相关？
大模型灾难性遗忘是什么？如何解决？
BF16、FP16、FP32对比
Adam,AdamW原理
.deepspeed的三个阶段
在指令微调中，如何设置、选择和优化不同的超参数，以及其对模型效果的影响？
在指令微调中，如何选择最佳的指令策略，以及其对模型效果的影响？
lama,glm,bloom等现有大模型的数据处理，训练细节，以及不足之处模型架构的优化点，包括但不限于attention,norm,embedding
解决显存不够的方法有哪些？
请解释p-tuning的工作原理，并说明它与传统的fine-tuning,方法的不同之处。
介绍一下Prefix-.tuning的思想和应用场景，以及它如何解决一些NLP任务中的挑战
Lora的原理和存在的问题讲一下？
bf16,fp16半精度训练的优缺点
如何增加context length模型训练中节约显存的技巧。
.RLHF完整训练过程是什么？RL过程中涉及到几个模型？显存占用关系和SFT有什么区别？
RLHF过程中RM随着训练过程得分越来越高，效果就一定好吗？有没有极端情况？
encoder only,decoder only,encoder-decoder划分的具体标注是什么？典型代表模型有哪些？
vllm推理，混合精度训练，ppo相关的问题
一道mha实现
问了gqa，mla，mha
手撕mla，一道模拟算法。