【开题答辩全过程】以 华为产品销售的数据爬虫与可视化分析为例,包含答辩的问题和答案

个人简介

一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等

开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。

感谢大家的关注与支持!

各位老师好,我是xx同学,我的毕业设计题目是《苏宁易购华为产品销售的数据爬虫与可视化分析》。本系统主要实现从苏宁易购平台爬取华为产品的销售数据,经过数据清洗和预处理后,存储到Hadoop分布式文件系统中,最后利用Python的可视化工具进行数据展示和分析。系统主要包括四个功能模块:数据采集模块(使用Python+BeautifulSoup爬虫)、数据预处理模块(清洗转换保存为CSV)、分布式存储与查询模块(HDFS+Hive)、以及数据可视化模块(Jupyter Notebook+Pyecharts)。技术栈主要涉及Python爬虫技术、Hadoop大数据生态、Hive数据仓库以及Pyecharts可视化库。下面请各位老师批评指正。


评委老师: 你的题目是"苏宁易购华为产品销售的数据爬虫与可视化分析",请简单说明一下,为什么选择苏宁易购作为数据源,而不是选择京东或者淘宝?

答辩学生: 选择苏宁易购主要是因为苏宁作为传统家电零售商转型电商的代表,其华为产品品类相对齐全,包括手机、平板、穿戴设备等多种品类,数据结构化程度较高,适合爬虫抓取。同时苏宁的反爬机制相对友好,对于本科毕业设计来说技术难度适中,能够较好地完成数据采集任务。


评委老师: 你提到要使用BeautifulSoup进行爬虫,如果苏宁易购网站采用了动态加载(比如Ajax技术),页面数据是通过JavaScript渲染的,BeautifulSoup还能直接抓取到数据吗?你打算怎么解决这个问题?

答辩学生: 老师,BeautifulSoup只能解析静态HTML,如果页面是动态加载的,我考虑两种方案:一是分析网页的网络请求,找到数据接口直接请求JSON数据;二是使用Selenium模拟浏览器行为,等待页面完全加载后再获取源码。如果反爬比较严重,我可能会适当降低爬取频率,或者使用代理IP池。不过根据前期观察,苏宁的商品列表页基本是静态的,详情页可能需要动态处理,我会根据实际情况选择合适的方法。


评委老师: 你的技术方案里提到了Hadoop和Hive,对于一个电商销售数据的爬取项目,数据量可能只有几万到几十万条,使用Hadoop分布式存储是不是有点"大材小用"?你怎么看待这个问题?

答辩学生: 老师您说得对,单从数据量来看,确实用单机处理就够了。但是我想通过这个项目学习和实践大数据技术栈,Hadoop和Hive是目前企业主流的大数据解决方案,掌握这些技术对我未来就业有帮助。另外,如果后续要扩展爬取多品类、多平台的数据,或者进行历史数据积累,数据量可能会增长,分布式架构也有扩展性优势。所以在毕业设计中,我希望能完整走一遍大数据流程,这也是我的学习目的。


评委老师: 你计划用Pyecharts做可视化,能说说你打算做哪些具体的图表来展示华为产品的销售情况吗?

答辩学生: 我计划做以下几类图表:一是饼图,展示不同产品类别(如手机、平板、穿戴设备)的销售占比;二是柱状图,对比不同型号产品的销量排名;三是折线图,展示价格趋势或销量随时间的变化;四是词云图,分析用户评论中的高频关键词,了解用户关注点。这些图表可以从不同维度直观展示华为产品的销售特征和用户反馈。


评委老师: 你的实施计划里第4周是"编写爬虫代码,爬取数据",如果到时候你发现苏宁的反爬机制比预期严格,导致爬取失败,你有备选方案吗?

答辩学生: 有的老师。如果苏宁的反爬机制过于严格,我准备了两个备选方案:第一,转向爬取其他电商平台,比如国美在线或者华为官方商城,这些平台结构类似;第二,使用公开的电商数据集进行模拟分析,重点放在后续的数据处理和可视化环节,保证项目能够完成。我会优先尝试解决反爬问题,但不会在一个环节卡太久,确保整体进度不受影响。


评委老师: 你提到要把数据存到HDFS,然后用Hive查询,最后再用Jupyter Notebook连接Hive做分析。这个过程中,数据格式转换可能会遇到什么问题?比如CSV导入Hive时需要注意什么?

答辩学生: 主要可能遇到编码问题和字段类型问题。CSV文件默认可能是GBK编码,而Hive通常使用UTF-8,导入前需要统一编码格式。另外CSV的表头字段名要规范,不能有特殊字符或空格,否则Hive建表会报错。还有数据类型需要提前定义好,比如价格字段要设为decimal类型,销量设为int类型,时间字段设为string或timestamp类型。我会在导入前先用Pandas预处理,确保格式符合Hive的要求。


【答辩评价与总结】

评委老师:

xx同学的开题报告整体结构完整,选题具有一定的实际意义,技术路线清晰,实施计划安排合理。从答辩表现来看,该同学对项目有基本了解,能够认识到技术选型的优缺点(如Hadoop在小数据量下的适用性问题),也考虑了风险预案(反爬失败的备选方案),说明前期做了一定准备工作。

需要改进的地方:

  1. 技术细节还需深化,比如动态页面抓取的解决方案描述较为笼统,建议提前验证苏宁页面的实际加载方式;

  2. 可视化部分应明确分析维度,不仅要"画图",更要说明想通过图表得出什么结论;

  3. Hadoop环境的搭建对基础较弱的同学可能有难度,建议第5-6周多预留一些缓冲时间。

总体评价: 同意开题。希望xx同学在后续实施过程中,注重代码的规范性和文档的完整性,遇到技术难点及时与导师沟通,按时完成各阶段任务。祝顺利完成毕业设计!


以上是某同学的毕业设计答辩的过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考。文末或底部来联xi可免费获取

最后

有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi博主,没有选题的也可以联系我们进行帮你选题、定功能和建议。

相关推荐
Lancker2 小时前
参与华为天工计划 冲刺75w激励
华为
木斯佳9 小时前
HarmonyOS 6实战:从爆款vlog探究鸿蒙智能体提取关键帧算法
算法·华为·harmonyos
天意__9 小时前
鸿蒙(ArkTS)与Flutter(Dart)开发语法全面对比
flutter·华为·harmonyos·arkts·dart·arkui
vistaup9 小时前
DevEco Studio 鸿蒙 HAR本地引入相互依赖问题解决
android·华为·harmonyos
fei_sun10 小时前
【鸿蒙智能硬件】(二)Windows开发环境
华为·harmonyos
HMS Core11 小时前
【FAQ】HarmonyOS SDK 闭源开放能力 —Push Kit
华为·harmonyos
sbjdhjd11 小时前
RHCE | Linux 例行性工作(定时任务)从入门到精通
linux·运维·服务器·华为·云计算
m0_6855350812 小时前
‌汽车灯具光学设计规范详解
华为·光学·光学设计·光学工程·镜头设计
小雨青年12 小时前
鸿蒙 HarmonyOS 6 | 多媒体 (03) 图像处理 Image Kit 与 PixelMap 实战
图像处理·华为·harmonyos