【开题答辩全过程】以 基于Python爬虫的二手房信息爬取及分析为例,包含答辩的问题和答案

个人简介

一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等

开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。

感谢大家的关注与支持!

答辩学生:各位老师好,我叫 xx 同学,做的是"基于 Python 爬虫的二手房信息爬取与分析系统"。整个系统分三大块:先用 Scrapy 多线程爬取链家网真实房源,再把爬下来的数据做清洗、填充空值、格式转换;接着用 GBDT 算法找出热门房源,用余弦相似度给用户推荐同类型房子;最后用 Flask 搭成网站,把结果用柱状图、热力图、时间折线图等可视化方式展现出来,方便购房者快速了解市场行情。技术栈就是 Python+Scrapy+pandas+sklearn+Flask+Echarts,电脑配置要求不高,普通笔记本就能跑。


评委老师:为什么选二手房这个题目?

答辩学生:因为我马上也要面临买房,二手房价格多元,又是现房,适合年轻人,所以想先拿数据看看行情,顺便把学到的爬虫和可视化都用上。


评委老师:数据从哪来?合法吗?

答辩学生:只爬链家网公开页面,不登录、不破解接口,每秒一次限速, robots 协议允许,本地保存,不商用,仅供研究。


评委老师:爬下来的数据最脏的地方是什么?

答辩学生:单价和地铁两列空值最多,还有面积、单价带"㎡""元/平"单位,无法直接计算,得先清单位再转 float。


评委老师:空值你怎么填?

答辩学生:数字列用整列均值 fillna,文本列地铁填"无",保证后面分析不报错。


评委老师:热门房源怎么算出来?

答辩学生:把价格、面积、楼层、朝向、地铁距离等做成特征,用 GBDT 回归预测"成交周期",周期越短越热门,取前 5% 做推荐。


评委老师:推荐相似房源为什么用余弦相似度而不用欧式距离?

答辩学生:因为特征里有分类变量(朝向、装修)也有数值,先做 one-hot 再标准化,余弦对量纲不敏感,效果更稳。


评委老师:可视化网站你自己能访问就行?

答辩学生:用 Flask 搭在本地 5000 端口,同宿舍局域网都能看,图表用 Echarts 直接嵌在网页里,手机也能打开。


评委老师:如果链家网页改版了你的爬虫怎么办?

答辩学生:我把 XPath 和 CSS 选择器单独写进 config 文件,一改只动配置,不用动主代码,半天就能修好。


评委老师:系统最大瓶颈在哪?

答辩学生:爬 2 万条数据大概 30 分钟,主要是网速,后面清洗加训练 5 分钟搞定,内存只占 400 M,还能接受。


评委老师:下一步准备做什么?

答辩学生:先把 Flask 部署到云服务器,让外网也能访问;再加用户登录,把收藏和搜索记录存起来,方便老师检查。


【答辩结束评价】

评委老师:xx 同学选题贴近生活,技术路线清晰,爬虫、清洗、建模、可视化一环扣一环,能说出每一步为什么这么做,说明确实自己动手了。下一步注意写好论文格式、把截图和代码附录补齐,继续保持,预祝你顺利通过。


以上是某同学的毕业设计答辩的过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考。文末或底部来联xi可免费获取

最后

有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi博主,没有选题的也可以联系我们进行帮你选题、定功能和建议。

相关推荐
Swizard1 小时前
告别 NDK 噩梦!用 Python + Chaquopy 在 Android 上 5 分钟跑通 Paddle AI 模型
python·ai·移动开发
深蓝海拓1 小时前
用于优化和改进YOLO11的一些方法
人工智能·python·yolo·机器学习
啦哈拉哈1 小时前
【Python】知识点零碎学习1
数据结构·python·算法
layman05281 小时前
在python中受限于GIL,进程中只允许一个线程处于允许状态,多线程无法充分利用CPU多核
开发语言·python
捧 花1 小时前
Go Web 开发流程
开发语言·后端·golang·restful·web·分层设计
多恩Stone1 小时前
【3DV 进阶-10】Trellis 中的表示 SLat 理解(1)
人工智能·python·算法·3d·aigc
南猿北者1 小时前
go语言基础语法
开发语言·后端·golang
CHANG_THE_WORLD1 小时前
Python容器转换与共有函数详解
网络·python·rpc
高洁011 小时前
循环神经网络讲解
人工智能·python·神经网络·机器学习·transformer