【开题答辩全过程】以基于Hadoop的视频推荐系统为例，包含答辩的问题和答案

个人简介：

一名14年经验的资深毕设内行人，语言擅长Java、php、微信小程序、Python、Golang、安卓Android等

开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。

朋友圈喜欢分享一些毕设开发中遇到的问题的解决办法、工具和毕设开发避坑指南，有空喜欢交流技术，作为资深内行人深知同学对毕业设计的焦虑，帮学生定做毕设成千上万套源码，特精选了300套毕业设计和1000份开题报告供大家学习、参考和使用，文末可找我们免费获取资料。

感谢大家的关注与支持！

评委老师 1：

请用 1 分钟时间再简要概括一下本课题的研究目标和核心创新点。

答辩学生：

研究目标：在 Hadoop 生态之上构建一套能处理海量日志、支持实时更新、兼顾冷启动场景的视频推荐系统，实现精准推荐、提升用户体验与平台商业价值。

核心创新点：

冷启动三段式策略（迁移学习+标签扩展+社交补全），解决新用户/新视频无历史行为的问题；
双层实时架构：离线层用 Spark 训练深度模型，在线层用 Flink 做增量更新，推荐延迟控制在 2 s 内；
多样性-新颖性联合优化目标函数，避免同质化推荐；
全链路 GDPR 合规设计，引入联邦学习思想，实现"数据不动模型动"。

评委老师 2：

开题报告中提到"利用 Hadoop 的容错机制保障系统稳定运行"，请具体说明 Hadoop 哪些组件、什么机制来实现容错？如果某个 DataNode 宕机，推荐链路会受到怎样的影响？

答辩学生：

HDFS 层：NameNode 监控 DataNode 心跳，发现宕机后将缺失的块副本在健康节点重新复制，保证副本因子。

YARN 层：ResourceManager 监听 NodeManager 心跳，任务失败自动重试，最多重试 4 次（默认）。

MapReduce/Spark：任务级容错，Stage 失败自动重算丢失分区。

如果某 DataNode 宕机：

HDFS 仍能读取其他副本，用户行为日志不会丢失；
正在该节点执行的 Spark Task 会失败，但 YARN 会重新调度到别的节点，整体推荐训练批次延迟增加 5--10 %，不会中断在线服务。

评委老师 3：

你计划采用协同过滤、矩阵分解、深度学习三类算法。请回答：

（1）在海量稀疏数据场景下，矩阵分解如何分布式实现？

（2）如果用深度学习，输入维度极高且稀疏，如何做特征工程？

答辩学生：

（1）矩阵分解采用 Spark MLlib 的 ALS，数据按用户或物品分区，交替最小二乘并行求解，利用 Spark 的惰性求值和内存缓存加速迭代；对 1 亿级评分可在 30 min 内收敛。

（2）深度学习采用双塔模型：

• 离散特征（用户 ID、视频 ID、标签等）→ Embedding（64 维），通过哈希分桶降低维度；

• 连续特征（观看时长、评分）→ 归一化后直接输入；

• 稀疏特征采用 FTRL 正则化防止过拟合；

• 训练使用 Parameter Server 架构，梯度异步更新，支持千亿级参数。

评委老师 4：

开题报告把"冷启动"列为关键问题。请给出针对"新用户"与"新视频"各自的技术细节：用什么数据、什么算法、效果如何评估？

答辩学生：

新用户：

• 数据：注册时填写的兴趣标签、社交好友 ID、设备信息、前 5 次点击序列。

• 算法：先用标签向量做内容召回，再用迁移学习把相似老用户的 Embedding 加权平均作为初始向量；上线后 10 次行为以内完成个性化切换。

• 评估：前 3 天 CTR 提升 ≥ 25 %、首周留存提升 ≥ 8 %。

新视频：

• 数据：标题、描述、标签、上传者 ID、封面图 OCR 文本。

• 算法：双塔模型中物品塔用多模态 Transformer 融合文本+视觉特征，生成初始 Embedding；上线后 30 min 内用实时点击反馈做增量微调。

• 评估：冷启 24 h 内曝光-播放比 ≥ 15 %，高于基线 5 pp。

评委老师 5：

系统最终要落地到真实业务，请给出部署拓扑：云还是自建机房？节点规模、存储容量、网络带宽如何估算？成本控制策略？

答辩学生：

• 采用阿里云 EMR 按量+抢占式混合模式，离线集群 20 台 ecs.r6.4xlarge（16 vCPU, 128 GB），在线 Flink 集群 10 台 ecs.c7.2xlarge，合计日成本约 800 元。

• 存储：用户行为日志日增量 2 TB，保留 90 天，采用 OSS 低频+本地 HDFS 热数据分层，总容量 200 TB。

• 网络：峰值 5 Gbps，利用 CDN 回源带宽节省 70 %。

• 成本控制：

-- 离线任务集中在夜间运行，抢占式实例降价 50 %；

-- 使用 Alluxio 缓存热数据，减少重复计算；

-- 每月评估 ROI，当 CTR 提升带来的新增收入 > 集群成本 3 倍时，全量上线。

评委老师 6：

请给出整个研究的时间表（以 2025 年为准），并指出哪一周是风险最大的节点，你准备如何降低风险？

答辩学生：

2025.01.06--03.14：完成需求分析、数据探查、开题。

2025.03.15--04.25：系统架构设计 + 离线基线模型（Spark ALS）。

2025.04.26--05.23：深度学习模型开发、实时链路联调。

2025.05.24--05.30：A/B 测试、指标评估、论文撰写。

2025.06.01--06.15：查重、定稿、答辩。

风险最大节点：第 8--9 周（04.26--05.09），需完成实时链路并上线。

降低风险：

在第 4 周就搭好基础 Flink 环境，并行开发；
使用 Canva 数据回放压测，提前暴露性能瓶颈；
每周例会同步进度，若延迟 > 2 天立即缩减模型复杂度先保上线。

评委老师 7：

伦理和法律合规方面，你如何保证用户隐私？GDPR 第 17 条"被遗忘权"在系统里怎么实现？

答辩学生：

• 数据采集阶段：脱敏用户 ID（加盐哈希），加密存储敏感字段；

• 权限控制：基于 Ranger 的细粒度访问策略，研发人员无法直接接触原始日志；

• 被遗忘权：

-- 建立"删除队列"，用户发起删除请求后 7 天内，先从业务库逻辑删除，再触发 GDPR Cleaner Job，在 HDFS、OSS、模型 Embedding 表中物理擦除对应特征；

-- 使用差分隐私训练，防止模型反推个人信息；

-- 定期请第三方做渗透测试，出具合规报告。

【答辩结束·评委总结】

评委组长：

X 同学思路清晰，对 Hadoop 生态、推荐算法、冷启动、实时链路及合规细节均给出了具体可落地的技术方案。风险评估与成本控制意识较强。建议后续：

在 A/B 测试阶段补充多样性指标（如 Intra-list Distance）的实验数据；
论文中增加与工业界最新论文（2024--2025 RecSys、KDD）的对比。

综上，本次开题答辩通过。请按计划推进，预祝顺利完成毕业设计！

以上是某同学的毕业设计答辩的过程，为了方便大家选好题目更好开题有参考，下列提供1000份开题报告内容给大家参考，大家直接文本找我们就可以领取开题资料
如果你现在还没有参加答辩，还是开题阶段，已经选好了题目不知道怎么写开题报告，可以来我们这边找找，我们从事毕设定做14年，帮助大量同学写过开题报告，积累大量的开题报告，文末或底部来联系我们，来找找有没有你的题目参考的开题报告供你参考，联系后记得发暗号的你的题目+开题，如果没有选好题，我们也可以帮你选题。

最后：

有时间和有基础的同学，建议自己多花时间找一下资料（开题报告、源码）自己独立完成毕设，需要开题报告内容、源码参考的，可以联系博主，没有选题的也可以联系我们进行帮你选题，定基础功能。下方点击可以直接联xi博主

【开题答辩全过程】以 基于Hadoop的视频推荐系统为例，包含答辩的问题和答案

【开题答辩全过程】以基于Hadoop的视频推荐系统为例，包含答辩的问题和答案