【开题答辩全过程】以 基于Python爬虫的二手房信息爬取及分析为例,包含答辩的问题和答案

个人简介

一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等

开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。

感谢大家的关注与支持!

答辩学生:各位老师好,我叫 xx 同学,做的是"基于 Python 爬虫的二手房信息爬取与分析系统"。整个系统分三大块:先用 Scrapy 多线程爬取链家网真实房源,再把爬下来的数据做清洗、填充空值、格式转换;接着用 GBDT 算法找出热门房源,用余弦相似度给用户推荐同类型房子;最后用 Flask 搭成网站,把结果用柱状图、热力图、时间折线图等可视化方式展现出来,方便购房者快速了解市场行情。技术栈就是 Python+Scrapy+pandas+sklearn+Flask+Echarts,电脑配置要求不高,普通笔记本就能跑。


评委老师:为什么选二手房这个题目?

答辩学生:因为我马上也要面临买房,二手房价格多元,又是现房,适合年轻人,所以想先拿数据看看行情,顺便把学到的爬虫和可视化都用上。


评委老师:数据从哪来?合法吗?

答辩学生:只爬链家网公开页面,不登录、不破解接口,每秒一次限速, robots 协议允许,本地保存,不商用,仅供研究。


评委老师:爬下来的数据最脏的地方是什么?

答辩学生:单价和地铁两列空值最多,还有面积、单价带"㎡""元/平"单位,无法直接计算,得先清单位再转 float。


评委老师:空值你怎么填?

答辩学生:数字列用整列均值 fillna,文本列地铁填"无",保证后面分析不报错。


评委老师:热门房源怎么算出来?

答辩学生:把价格、面积、楼层、朝向、地铁距离等做成特征,用 GBDT 回归预测"成交周期",周期越短越热门,取前 5% 做推荐。


评委老师:推荐相似房源为什么用余弦相似度而不用欧式距离?

答辩学生:因为特征里有分类变量(朝向、装修)也有数值,先做 one-hot 再标准化,余弦对量纲不敏感,效果更稳。


评委老师:可视化网站你自己能访问就行?

答辩学生:用 Flask 搭在本地 5000 端口,同宿舍局域网都能看,图表用 Echarts 直接嵌在网页里,手机也能打开。


评委老师:如果链家网页改版了你的爬虫怎么办?

答辩学生:我把 XPath 和 CSS 选择器单独写进 config 文件,一改只动配置,不用动主代码,半天就能修好。


评委老师:系统最大瓶颈在哪?

答辩学生:爬 2 万条数据大概 30 分钟,主要是网速,后面清洗加训练 5 分钟搞定,内存只占 400 M,还能接受。


评委老师:下一步准备做什么?

答辩学生:先把 Flask 部署到云服务器,让外网也能访问;再加用户登录,把收藏和搜索记录存起来,方便老师检查。


【答辩结束评价】

评委老师:xx 同学选题贴近生活,技术路线清晰,爬虫、清洗、建模、可视化一环扣一环,能说出每一步为什么这么做,说明确实自己动手了。下一步注意写好论文格式、把截图和代码附录补齐,继续保持,预祝你顺利通过。


以上是某同学的毕业设计答辩的过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考。文末或底部来联xi可免费获取

最后

有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi博主,没有选题的也可以联系我们进行帮你选题、定功能和建议。

相关推荐
devnullcoffee10 分钟前
亚马逊Browse Node类目树数据采集实战:从PA-API到分布式爬虫
分布式·爬虫·亚马逊数据采集 api·亚马逊类目树数据·亚马逊 browse node·amazon 数据 api
liuyunshengsir10 分钟前
PyTorch 动态量化(Dynamic Quantization)
人工智能·pytorch·python
电子云与长程纠缠19 分钟前
UE5制作六边形包裹球体效果
开发语言·python·ue5
砍材农夫25 分钟前
物联网 基于netty构建mqtt协议规范(遗嘱与保留消息)
java·开发语言·物联网·netty
DFT计算杂谈28 分钟前
KPROJ编译教程
java·前端·python·算法·conda
froginwe1142 分钟前
Python3 迭代器与生成器
开发语言
xiaoshuaishuai81 小时前
C# 签名异常与Gas预估失败调试方案
开发语言·网络·tcp/ip·c#
xiaoshuaishuai81 小时前
C# Gemini 辅助网络安全漏洞分析
开发语言·web安全·c#
念恒123061 小时前
Python(循环中断)
开发语言·python
社交怪人1 小时前
【数字对调】信息学奥赛一本通C语言解法(题号2070)
c语言·开发语言