【开题答辩全过程】以基于Hadoop电商数据的可视化分析为例，包含答辩的问题和答案

个人简介

一名14年经验的资深毕设内行人，语言擅长Java、php、微信小程序、Python、Golang、安卓Android等

开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。

感谢大家的关注与支持！

各位老师好，我是计算机科学与技术专业的××同学，我的题目是《基于Hadoop的电商数据可视化分析系统》。系统分前端和管理端：前端给买家看商品、订单和8张可视化图表（价格、好评率、地区/销量/品牌排行等）；管理端给管理员做用户、商品、订单、资讯的增删改查。技术栈用Hadoop+Hive做离线数仓，MySQL存业务数据，后端Django+Python，前端Vue+Echarts，爬虫用Scrapy抓京东商品数据，PS做界面美化。陈述完毕，请各位老师提问。

评委老师：为什么选Hadoop，不直接用MySQL算数？

答辩学生：MySQL在十几万行以内还行，我爬了40多万条商品和订单数据，做分组汇总时电脑直接卡死；用Hadoop+Hive把计算分布到两台旧笔记本，10分钟就跑完，所以选Hadoop。

评委老师：系统里到底有哪些图表？

答辩学生：一共8张------销售价格柱状图、商品好评率/差评率饼图、订单金额折线、地区销量地图、销量排行Top10、品牌排行Top10、销售额日趋势、商品库存雷达图。

评委老师：数据从哪来？怎么保证爬得合法？

答辩学生：只在京东商品公开列表页爬"价格、标题、评论数、店铺名"四个字段，不碰登录和隐私；加3秒延时、User-Agent池，每天只爬2万条，不碰robots.txt禁止的路径，数据脱敏后入库。

评委老师：前后端分离怎么联调？

答辩学生：Django开8000端口，Vue开8080，在Django里配corsheaders允许跨域；后端统一返回带code、msg、data的JSON，前端用axios拦截器判断code=200才进then，否则弹错误提示。

评委老师：如果明年数据涨到1000万行，系统怎么扩展？

答辩学生：Hive已经分区存储，日增量20万行时只加分区就行；后端把MySQL按"年_月"做水平分表，Django用数据库路由；前端图表加Echarts的dataZoom，只加载最近30天，保证浏览器不崩。

评委老师：做完后准备怎么测试？

答辩学生：功能用黑盒：模拟管理员增删商品、买家下单，看页面是否刷新；性能用JMeter：100个并发查销量排行，平均响应<1.5秒；数据正确性用SQL对数：Hive算出的月销售额与MySQL订单表手工求和误差<0.5%。

评委老师评价：

××同学选题贴近电商实际，技术路线清晰，对Hadoop、Vue、Django的选型理由说得直白；能意识到数据合规和性能扩展，计划可落地。建议下一步把"数据更新到前一天"做成定时脚本，并补做一份5分钟以内的系统演示视频。总体同意开题，按计划推进。

以上是某同学的毕业设计答辩的过程，如果你现在还没有参加答辩，还是开题阶段，已经选好了题目不知道怎么写开题报告，可以下面找找有没有自己符合自己题目的开题报告内容，列表中的开题报告都是往届真实的开题报告，可发送使用或参考。文末或底部来联xi可免费获取

最后

有时间和有基础的同学，建议自己多花时间找一下资料（开题报告、源码）自己独立完成毕设，需要开题报告内容、源码参考的，可以联xi博主，没有选题的也可以联系我们进行帮你选题、定功能和建议。

【开题答辩全过程】以 基于Hadoop电商数据的可视化分析为例，包含答辩的问题和答案

最后

【开题答辩全过程】以基于Hadoop电商数据的可视化分析为例，包含答辩的问题和答案