个人简介
一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等
开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。
感谢大家的关注与支持!

答辩学生:各位老师好,我叫 xx 同学,做的是"基于 Python 爬虫的二手房信息爬取与分析系统"。整个系统分三大块:先用 Scrapy 多线程爬取链家网真实房源,再把爬下来的数据做清洗、填充空值、格式转换;接着用 GBDT 算法找出热门房源,用余弦相似度给用户推荐同类型房子;最后用 Flask 搭成网站,把结果用柱状图、热力图、时间折线图等可视化方式展现出来,方便购房者快速了解市场行情。技术栈就是 Python+Scrapy+pandas+sklearn+Flask+Echarts,电脑配置要求不高,普通笔记本就能跑。
评委老师:为什么选二手房这个题目?
答辩学生:因为我马上也要面临买房,二手房价格多元,又是现房,适合年轻人,所以想先拿数据看看行情,顺便把学到的爬虫和可视化都用上。
评委老师:数据从哪来?合法吗?
答辩学生:只爬链家网公开页面,不登录、不破解接口,每秒一次限速, robots 协议允许,本地保存,不商用,仅供研究。
评委老师:爬下来的数据最脏的地方是什么?
答辩学生:单价和地铁两列空值最多,还有面积、单价带"㎡""元/平"单位,无法直接计算,得先清单位再转 float。
评委老师:空值你怎么填?
答辩学生:数字列用整列均值 fillna,文本列地铁填"无",保证后面分析不报错。
评委老师:热门房源怎么算出来?
答辩学生:把价格、面积、楼层、朝向、地铁距离等做成特征,用 GBDT 回归预测"成交周期",周期越短越热门,取前 5% 做推荐。
评委老师:推荐相似房源为什么用余弦相似度而不用欧式距离?
答辩学生:因为特征里有分类变量(朝向、装修)也有数值,先做 one-hot 再标准化,余弦对量纲不敏感,效果更稳。
评委老师:可视化网站你自己能访问就行?
答辩学生:用 Flask 搭在本地 5000 端口,同宿舍局域网都能看,图表用 Echarts 直接嵌在网页里,手机也能打开。
评委老师:如果链家网页改版了你的爬虫怎么办?
答辩学生:我把 XPath 和 CSS 选择器单独写进 config 文件,一改只动配置,不用动主代码,半天就能修好。
评委老师:系统最大瓶颈在哪?
答辩学生:爬 2 万条数据大概 30 分钟,主要是网速,后面清洗加训练 5 分钟搞定,内存只占 400 M,还能接受。
评委老师:下一步准备做什么?
答辩学生:先把 Flask 部署到云服务器,让外网也能访问;再加用户登录,把收藏和搜索记录存起来,方便老师检查。
【答辩结束评价】
评委老师:xx 同学选题贴近生活,技术路线清晰,爬虫、清洗、建模、可视化一环扣一环,能说出每一步为什么这么做,说明确实自己动手了。下一步注意写好论文格式、把截图和代码附录补齐,继续保持,预祝你顺利通过。
以上是某同学的毕业设计答辩的过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考。文末或底部来联xi可免费获取




最后
有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi博主,没有选题的也可以联系我们进行帮你选题、定功能和建议。