阿里云多模态大模型岗三面面经

阿里云智能多模态大模型岗三面面经（详细问题+感受）

最近面试了 阿里云智能集团 - 多模态大模型岗位，三轮技术面，整体体验还不错。问题整体偏常规，但对项目的追问比较细致。这里整理一下完整面经，供准备类似岗位的同学参考。

更多AI大模型开发 学习视频/籽料/面试题 都在这>>Github<< >>Gitee<<

时长：约 1 小时

主要流程：自我介绍 + 项目经历（问得很细） + 多模态大模型基础问题 + 代码。

核心问题：

模型原理
- CLIP 的原理与损失函数设计，对比学习的核心思想
- Qwen-VL 的数据处理与训练流程
- BLIP 借鉴了 ALBEF 的哪些思想？在此基础上有哪些改进？
- BLIP2、BLIP3 的进一步优化点
- LLaVA 的结构设计，与 BLIP 系列和 Qwen-VL 的区别
对齐训练
- RLHF 的基本思路
- 在多模态大模型中的对齐是如何实现的
代码题
- 实现 InfoNCE Loss（基于 CLIP 的对比损失）
- LeetCode 518. 零钱兑换 II

感受：这一面偏基础八股 ，主要考察对常见多模态大模型的理解，包括数据---模型---训练三方面。难度不大，读过相关论文会很有帮助。

时长：约 1 小时

相比一面，这一轮更注重大模型的宏观理解和发展脉络。

核心问题：

大模型基础
- 如何构建数据、进行预训练和对齐
- Encoder-only（BERT、ViT） vs Decoder-only（GPT）的结构区别及应用场景
多模态发展
- 多模态大模型的发展过程
- 常见多模态大模型有哪些
- Vision 与 Language 的融合方式（常见几类方法）
数据与规律
- 多模态数据清洗的思路
- LLM 有 scaling law，在 VLM 是否也存在 scaling law？
问题与挑战
- 多模态大模型中的幻觉问题及解决思路
代码题
- 实现多头自注意力

感受：二面更强调整体把握，并不深挖某个模型细节，而是考察你是否对大模型和多模态方向有系统性理解。

时长：约 40 分钟

这一面明显更轻松，面试官也说明前两面已经覆盖了知识点，这一轮主要看思考深度与沟通。

核心内容：

感受： 氛围比较轻松，没有太多技术八股，更像是一场开放式讨论。整体时长也比前两面短。

整体来看，阿里云智能多模态大模型岗的面试：

面试过程中，项目相关的问题会问得比较细，体现出团队更在意候选人对自己工作是否有深刻理解，而不是只停留在会用层面。

👉 给准备这类岗位的同学几点建议：