网易大模型算法岗面经80道

  1. code:统计岛屿数量、最大岛屿面积
  2. 自我介绍+项目介绍+论文拷打
  3. bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)
  4. 训练/微调一个LLM的流程?
  5. 实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)
  6. 了解强化学习吗,跟SFT有什么区别?
  7. 反问:业务,对岗位的期望
  8. 项目中指令微调数据集构建细节
  9. RAG是怎么做的,召回结果如何评估,RAG如何改进?
  10. Lora原理,矩阵如何初始化,是否可以初始化为0?
  11. bert如何改进?bert和LLM有什么区别?
  12. transformer计算过程,softmax为什么要进行缩放?
  13. llm的解码参数解释(top-k,top-p,Temperature,Beam Search)
  14. clip的对比学习原理
  15. 对比学习中的Temperature和llm解码器的Temperature是一个东西吗?
  16. 了解多模态模型吗:blip、blip2、GME?
  17. 强化学习概念,ppo和dpo的区别
  18. reward模型的损失函数(rank loss)?
  19. 算法题:钥匙和房间
  20. 介绍一下 RoPE
  21. 介绍一下非线性长度外推
  22. 你觉得 Transformer-XL 与 RoPE 的异同是什么
  23. 说一下 BERT 结构模型的后续改进工作
  24. 手撕 30 分钟,不带 mask 的多头注意力层,为 mha 添加 RoPE
  25. 实习项目,基本llm从数据处理,微调,部署,sql,推理加速全部涉及。
  26. vllm框架介绍一下?了解什么其他框架?
  27. page attention原理
  28. 投机采样是什么,什么情况下用投机采样才能效果好?
  29. lora介绍,为什么可以低秩微调,rank和阿尔法调参经验,跟数据量有什么关系?
  30. 大模型流式输出相比完整输出遇到的问题?遇到badcase怎么办
  31. ppo原理,还有什么推理加速的方法?moe了解吗?moe具体怎么实现
  32. 写一下 attention 公式(代码实现了下)
  33. 训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗
  34. transformer和传统seq2seq模型有什么区别?
  35. 计算attention时为什么要除以d_k,这个d_k的含义是?
  36. attention计算时还有哪些scale处理?
  37. attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?
  38. 解释数值上溢、下溢问题
  39. 讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt
  40. 讲一下SFT,会对哪部分计算loss?为什么?
  41. 讲一下deepspeed
  42. 训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?
  43. 训练模型时用了几张卡,有遇到什么异常中断问题吗?
  44. 联邦学习是啥,如何和llm结合
  45. lora是什么做的秩怎么设置的
  46. 介绍deepspeed zero2(顺便也说说通讯量分析)
  47. sft的loss和预训练的有什么区别
  48. r1复现和蒸馏中的数据长度是什么样的
  49. 在您的项目中,如何设计并实现检索增强生成(RAG)的完整流程?请结合具体案例说明其对生成质量的提升效果。
  50. 您是否了解GRAG(若为已知技术,请解释其与RAG的差异;若为候选人口误,可追问技术细节)?
  51. 您在微调大模型时使用过哪些轻量化框架(如LoRA、QLoRA、P-Tuning)?请结合硬件条件与任务需求说明选型依据。
  52. 列举您熟悉的多模态模型(如CLIP、Flamingo、KOSMOS),并分析其核心架构设计(如跨模态对齐策略)。
  53. 若需全参数微调一个7B参数的模型,请估算显存占用量(需说明优化策略,如梯度检查点),并解释需保存哪些关键参数(如权重、优化器状态)。
  54. 代码实战:实现三数之和算法,要求返回所有不重复的三元组。需关注 时间复杂度优化 与 边界条件处理。
  55. 了解DeepSeek-R1吗?介绍一下
  56. R1的MLA是如何实现KV-Cache的节约?
  57. R1在SFT时冷启动的目的?
  58. 位置编码是什么?解释R0PE
  59. 一个14B的模型,推理和训练要多少显存?
  60. 显存的占用和哪些因素相关?
  61. 大模型灾难性遗忘是什么?如何解决?
  62. BF16、FP16、FP32对比
  63. Adam,AdamW原理
  64. .deepspeed的三个阶段
  65. 在指令微调中,如何设置、选择和优化不同的超参数,以及其对模型效果的影响?
  66. 在指令微调中,如何选择最佳的指令策略,以及其对模型效果的影响?
  67. lama,glm,bloom等现有大模型的数据处理,训练细节,以及不足之处模型架构的优化点,包括但不限于attention,norm,embedding
  68. 解决显存不够的方法有哪些?
  69. 请解释p-tuning的工作原理,并说明它与传统的fine-tuning,方法的不同之处。
  70. 介绍一下Prefix-.tuning的思想和应用场景,以及它如何解决一些NLP任务中的挑战
  71. Lora的原理和存在的问题讲一下?
  72. bf16,fp16半精度训练的优缺点
  73. 如何增加context length模型训练中节约显存的技巧。
  74. .RLHF完整训练过程是什么?RL过程中涉及到几个模型?显存占用关系和SFT有什么区别?
  75. RLHF过程中RM随着训练过程得分越来越高,效果就一定好吗?有没有极端情况?
  76. encoder only,decoder only,encoder-decoder划分的具体标注是什么?典型代表模型有哪些?
  77. vllm推理,混合精度训练,ppo相关的问题
  78. 一道mha实现
  79. 问了gqa,mla,mha
  80. 手撕mla,一道模拟算法。
相关推荐
郝学胜-神的一滴12 分钟前
OpenGL中的glDrawArrays函数详解:从基础到实践
开发语言·c++·程序人生·算法·游戏程序·图形渲染
_OP_CHEN13 分钟前
【算法基础篇】(三十四)图论基础深度解析:从概念到代码,玩转图的存储与遍历
算法·蓝桥杯·图论·dfs·bfs·算法竞赛·acm/icpc
王璐WL21 分钟前
【数据结构】栈和队列及相关算法题
数据结构·算法
麒qiqi21 分钟前
Linux 线程(POSIX)核心教程
linux·算法
Zhi.C.Yue22 分钟前
React 的桶算法详解
前端·算法·react.js
小热茶25 分钟前
浮点数计算专题【五、 IEEE 754 浮点乘法算法详解---基于RISCV的FP32乘法指令在五级流水线的运行分析与SystemC实现】
人工智能·嵌入式硬件·算法·systemc
Giser探索家26 分钟前
卫星遥感数据核心参数解析:空间分辨率与时间分辨率
大数据·图像处理·人工智能·深度学习·算法·计算机视觉
q_302381955634 分钟前
破局路侧感知困境:毫米波雷达+相机融合算法如何重塑智能交通
数码相机·算法
Robert--cao34 分钟前
人机交互(如 VR 手柄追踪、光标移动、手势识别)的滤波算法
人工智能·算法·人机交互·vr·滤波器
云青山水林36 分钟前
算法竞赛从入门到跳楼(ACM-XCPC、蓝桥杯软件赛等)
c++·算法·蓝桥杯