【开题答辩过程】以《基于Hadoop的医生相关数据分析与可视化及医生推荐系统》为例,不知道这个选题怎么做的,不知道这个选题怎么开题答辩的可以进来看看

个人简介

慕婉学姐精通Java、PHP、微信小程序、Python、Golang和安卓开发等语言,擅长开发大数据、深度学习、网站、小程序、安卓应用和算法项目。平时从事项目定制开发、代码讲解、答辩教学和文档编写,也掌握一些降重技巧。感谢大家的持续关注!

近期,由于许多同学在选题阶段既想创新又担心内容量,学姐将分享更多新颖的选题和开题答辩案例,希望能为学弟学妹们提供更多的灵感和选择,帮助大家设计出更具有创新性的作品



开题陈述

各位老师好,我是数据科学与计算机学院的慕婉同学。我的毕业设计题目是《基于Hadoop的医生相关数据分析与可视化及医生推荐系统》。该系统主要对好大夫网站的医生数据进行采集、分析和可视化展示,帮助患者更直观地了解医生分布、问诊费用等信息,同时基于协同过滤算法为患者推荐合适的医生。

核心功能模块包括:Python爬虫数据采集模块、Hadoop+Hive大数据分析模块、Flask+ECharts可视化模块(展示科室分布、地区费用对比、医生推荐度关联等图表)以及协同过滤医生推荐模块。

技术栈采用Python爬虫获取数据,MySQL存储原始数据,通过Sqoop导入Hadoop分布式文件系统,利用Hive进行SQL风格的数据分析,最后结合Flask框架和ECharts图表库实现Web可视化界面。下面请各位老师提问。


问答环节

评委老师: 慕婉同学,我看你的设计里数据要倒腾好几趟:先存MySQL,再用Sqoop导到Hadoop,分析完又导回MySQL,最后Flask才能用。既然Flask和ECharts直接连MySQL就能可视化,为什么还要费这么大事用Hadoop?医生数据量真有那么大吗?

答辩学生: 老师这个问题问到了关键。好大夫网站广东省的医生数据其实确实不算特别海量,可能几万条左右。我用Hadoop主要是毕业设计要体现大数据技术的综合应用,而且如果扩展到北京、上海全国数据量就会大很多。数据导来导去确实麻烦,我的考虑是:MySQL存原始数据安全,Hadoop+Hive分析效率高,最后给Flask用的还是熟悉的MySQL接口。不过老师提醒得对,如果实际数据量不够大,这个架构有点"杀鸡用牛刀",我可以在论文里说明这是技术验证性设计。


评委老师: 你说要用协同过滤算法给患者推荐医生,但协同过滤通常需要大量用户行为数据(比如评分、问诊记录),你爬取的医生信息主要是医生的静态资料(职称、科室、费用等),没有患者行为数据怎么办?怎么实现"协同"?

答辩学生: 好大夫网站爬到的公开数据主要是医生的基本信息和患者评价,没有详细的用户问诊记录。我目前的想法是用"病友推荐度"和"总患者数"这两个指标模拟评分数据,比如推荐度90%就当4.5分。但这样确实不是真正的协同过滤,更偏向基于内容的推荐。如果爬不到行为数据,我可能会改用"基于医生相似度"的推荐------比如找同一科室、同等级别、费用相近的医生作为相似医生来推荐,也算一种简化版的Item-CF。


评委老师: 你的可视化方案里有个"各地区在线问诊费地图",这个地图你打算用什么技术实现?ECharts虽然支持地图,但需要精确的地理坐标数据,你爬到的医生数据只有文字地址(如"广州市越秀区"),怎么在地图上定位?

答辩学生: 我原计划用ECharts的地图组件,但确实没考虑到地址转换问题。我爬到的医生数据只有医院名称和文字地址。实现上我需要两步:第一步是地址解析,用Python的geopy库或百度地图API把"广州市越秀区"转换成经纬度坐标;第二步是把坐标和问诊费数据关联后传给ECharts地图。不过老师提醒了我,这个地址解析可能比较耗时,而且免费API有调用限制,我可能先做广州、深圳几个重点城市的简化版地图,保证功能实现。


评委老师: Hive的优势是可以写SQL代替MapReduce编程,但你后面又说分析结果要导回MySQL才能给Flask用。为什么不直接用Python的pandas库分析MySQL里的数据?这样对基础较弱的你来说不是更简单吗?

答辩学生: 老师说得对,用pandas直接分析MySQL里的数据对我来说确实更简单,代码也更熟悉。选择Hive主要是想体现分布式计算的思想,比如统计全省各科室医生分布,如果用pandas可能单机会内存溢出(虽然这次数据量不一定)。不过老师提醒了我,我可以做两手准备:主要分析用Hive实现,同时用pandas做对比实验,在论文里分析两者性能差异。这样既能完成大数据技术要求,又有个保底方案,万一Hive调不通还能用pandas完成系统。


评委老师: 你计划爬取好大夫网站的数据,这类医疗网站通常有反爬机制,而且数据涉及医生隐私信息。你有没有考虑过爬取频率控制和数据脱敏问题?如果网站封了你的IP或者数据里有医生手机号怎么办?

答辩学生: 反爬方面,我计划设置爬取间隔,比如每爬5个医生页面休息2-3秒,避免请求过快被封;如果IP被封就换用代理IP(虽然免费代理不太稳定)。隐私脱敏方面,我只需要医生的公开信息(姓名、职称、科室、推荐度等),绝对不会爬取手机号、身份证号这些敏感信息。在存储和分析时,医生姓名我也会考虑用ID编号代替,只在最后展示时显示部分信息(如"张**"),确保符合隐私保护要求。如果网站有robots协议限制,我会遵守,只爬取允许访问的公开页面。


评委老师: 最后一个问题,你的进度计划排得挺满,2025年1-2月要完成分析和可视化。但Hadoop集群搭建、Hive调试这些对环境要求很高,经常会出现各种兼容性问题。如果你在自己的电脑上装虚拟机搭集群卡住了,有什么备选方案能保证进度?

答辩学生: 我的备选方案有三个:第一,先用单机版Hadoop(伪分布式)跑通流程,虽然性能不是真正分布式,但能验证功能;第二,如果单机也装不上,我可以用Docker快速拉一个Hadoop镜像,避免自己配置环境变量;第三,如果都不行,我就用云平台(比如阿里云、腾讯云)的学生优惠套餐,直接租一个短期的Hadoop服务。总之先保证把Hive SQL分析和可视化做出来,环境配置问题不会成为瓶颈。


评委老师评价与总结

慕婉同学的开题陈述内容完整,对项目整体流程有清晰认知,能明确说出数据流转的各个环节和功能模块。答辩过程中态度诚恳,能正视自身基础较弱的现状,对评委提出的问题有思考,回答也比较务实,能提出"两手准备""备选方案"等应对策略,这一点值得肯定。

存在的主要问题:第一,技术选型与数据规模匹配度论证不足,Hadoop架构的必要性缺乏有力支撑,有"为了用技术而用技术"的倾向;第二,核心算法理解不够深入,协同过滤在缺乏行为数据的情况下难以实现,方案可行性需要重新评估;第三,对实现细节考虑不够周全,如地图可视化、地址解析、隐私脱敏等具体问题需要提前调研。

建议后续工作:一是尽快验证数据源可爬取性和数据规模,明确是否真需要Hadoop;二是调整推荐算法方案,考虑基于内容的推荐作为主体;三是优先完成环境搭建和技术预研,确保核心路径可行;四是加强论文写作规划,避免开发延期影响论文质量。总体选题有价值,方案框架基本可行,同意开题,但需尽快完善技术细节。


以上便是慕婉同学《基于Hadoop的医生相关数据分析与可视化及医生推荐系统》的毕业设计答辩过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考


最后

有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi慕婉,没有选题的也可以联系我们进行帮你选题、定功能和建议

相关推荐
张人玉1 小时前
大数据hadoop系列——在ubuntu上安装hadoop完分布式
大数据·hadoop·分布式
张人玉1 小时前
大数据Hadoop系列——在ubuntu上安装Hive 嵌入式
大数据·hadoop·ubuntu
云闲不收1 小时前
hive和hadoop如何部署
数据仓库·hive·hadoop
武子康1 小时前
大数据-177 Elasticsearch 聚合实战:指标聚合 + 桶聚合完整用法与 DSL 解析
大数据·后端·elasticsearch
沃达德软件1 小时前
警务大数据可视化展示
大数据·人工智能·信息可视化
Hello.Reader2 小时前
在 Flink SQL 里做向量检索 VECTOR_SEARCH
大数据·sql·flink
玉离骚2 小时前
ElasticSearch 安装教程
大数据·elasticsearch
李慕婉学姐2 小时前
【开题答辩过程】以《基于Hadoop架构的体育类短视频推荐系统设计与实现》为例,不知道这个选题怎么做的,不知道这个选题怎么开题答辩的可以进来看看
大数据·hadoop·架构
铭毅天下2 小时前
Elasticsearch 9.X 官方文档大变样了!
大数据·elasticsearch·搜索引擎·全文检索