爬取链家二手房房价数据存入mongodb并进行分析

感谢您的关注!需要完整源码评论区获取~
【实验目的】

  1. 使用 python 将爬虫数据存入 mongodb;
  2. 使用 python 读取 mongodb 数据并进行可视化分析。
    【实验原理】
    MongoDB 是文档数据库,采用 BSON 的结构来存储数据。在文档中可嵌套其他文档
    类型,使得 MongoDB 具有很强的数据描述能力。本节案例使用的数据为链家的租房信
    息,源数据来自于链家网站,所以首先要获取网页数据并解析出本案例所需要的房源信
    息,然后将解析后的数据存储到 MongoDB 中,最后基于这些数据进行城市租房信息的
    查询和聚合分析等。
    【实验环境】
    OS:Ubuntu16.04
    Python3
    MongoDB:v3.6
    【实验步骤】
    一:使用 python 将爬虫数据存入 mongodb
    分析租房信息首先要获取原始的房源数据,本例使用 python 爬虫技术获取链家网页
    的新房楼盘信息。如图所示,对房源信息进行分析需要获取房源所在区域、小区名、房
    型、面积、具体位置、价格等信息。




分析数据:

执行loupanAnaly.py文件:

mongo shell终端 数据分析:

(1)求每个区域的平均房价和最高房价:

(2)查找所有住宅区域的平均房价:

(3)查看某个特定区域的所有房价信息

(4)查找某个区域的最大房价:

(5)按区域统计房源数量

(6)找出最贵的房源信息

(7)区域房价的分布(价格区间统计)


(8)按楼盘开发商统计房源均价

(9)统计每个区域的房价标准差

相关推荐
忘却的旋律dw35 分钟前
使用LLM模型的tokenizer报错AttributeError: ‘dict‘ object has no attribute ‘model_type‘
人工智能·pytorch·python
Wang's Blog38 分钟前
MongoDB小课堂: 游标操作与文档投影技术深度解析
数据库·mongodb
学术小白人40 分钟前
会议第一轮投稿!2026年物联网、数据科学与先进计算国际学术会议(IDSAC2026)
人工智能·物联网·数据分析·能源·制造·教育·rdlink研发家
20岁30年经验的码农44 分钟前
Java RabbitMQ 实战指南
java·开发语言·python
非著名架构师1 小时前
极端天气下的供应链韧性:制造企业如何构建气象风险防御体系
大数据·人工智能·算法·制造·疾风气象大模型·风光功率预测
虚伪的空想家1 小时前
华为昇腾Atlas 800 A2物理服务器开启VT-d模式
运维·服务器·ubuntu·kvm·vt-d·直通
studytosky2 小时前
深度学习理论与实战:MNIST 手写数字分类实战
人工智能·pytorch·python·深度学习·机器学习·分类·matplotlib
做萤石二次开发的哈哈2 小时前
11月27日直播预告 | 萤石智慧台球厅创新场景化方案分享
大数据·人工智能
Hello.Reader3 小时前
使用 Flink CDC 搭建跨库 Streaming ETLMySQL + Postgres → Elasticsearch 实战
大数据·elasticsearch·flink
上不如老下不如小3 小时前
2025年第七届全国高校计算机能力挑战赛初赛 Python组 编程题汇总
开发语言·python·算法