基于Python的Q房网二手房数据爬虫实现

在房地产数据分析场景中，获取公开的二手房交易数据是分析市场趋势的基础步骤。本文将详细介绍如何使用Python实现一个针对Q房网深圳二手房板块的数据爬虫，涵盖请求发送、页面解析、数据清洗与持久化等核心环节。

技术栈选择

本次爬虫开发选用以下核心库：

requests：轻量且高效的HTTP请求库，用于向目标网站发送请求并获取响应内容；
lxml：基于libxml2的XML/HTML解析库，结合XPath语法可快速定位页面中目标数据；
csv：Python内置的CSV文件操作库，用于将爬取的数据持久化到本地文件；
time：用于设置请求间隔，避免高频请求给目标服务器带来压力。

爬虫核心实现步骤

1. 环境与编码配置

首先需处理Python标准输出的编码问题，避免中文打印时出现乱码；同时导入所需依赖库：

python 复制代码

from lxml import etree
import requests
import csv
import time
import sys
import io

# 设置标准输出的编码为GB18030（兼容中文）
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')

2. 定义HTTP请求头

模拟浏览器的请求头信息，降低被目标网站反爬机制识别的概率：

python 复制代码

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36'
}

3. 核心爬虫逻辑实现

爬虫主函数负责遍历目标页面、发送请求、解析页面数据、清洗数据并调用写入函数：

python 复制代码

def spider():
    url_prefix = "https://shenzhen.qfang.com/sale/f"  # 基础URL前缀
    for page in range(1, 11):  # 遍历第1-10页
        url = url_prefix + str(page)  # 构建完整分页URL
        try:
            # 发送GET请求并检查响应状态
            html = requests.get(url, headers=headers)
            html.raise_for_status()  # 若响应状态码非200则抛出异常
            time.sleep(2)  # 间隔2秒，避免请求过于频繁
            
            # 解析HTML页面
            selector = etree.HTML(html.text)
            # 通过XPath定位所有房屋信息节点
            house_list = selector.xpath('//*[@id="cycleListings"]/ul/li')
            
            # 遍历每个房屋节点提取数据
            for house in house_list:
                try:
                    # 提取核心字段：公寓名称、户型、面积、地区
                    apartment = house.xpath('div[2]/div[1]/a/text()')[0]
                    house_layout = house.xpath('div[2]/div[2]/p[1]/text()')[0]
                    area = house.xpath('div[2]/div[2]/p[2]/text()')[0]
                    region = house.xpath('div[2]/div[4]/text()')[0]
                    
                    # 数据清洗：移除换行符、回车符、多余空格
                    item = [apartment, house_layout, area, region]
                    cleaned_item = [i.replace('\r', '').replace('\n', '').replace(' ', '') for i in item]
                    
                    # 写入CSV文件并打印抓取状态
                    data_writer(cleaned_item)
                    print('正在抓取......', cleaned_item)
                except Exception as e:
                    print(f"解析房屋信息时出错: {e}")
        except requests.RequestException as e:
            print(f"请求页面 {url} 时出错: {e}")

4. 数据持久化实现

定义data_writer函数，将清洗后的数据追加写入CSV文件，确保中文编码正常且无空行：

python 复制代码

def data_writer(item):
    # 以追加模式打开文件，编码为UTF-8，newline=''避免空行
    with open('Q房-二手房.csv', 'a', encoding='utf-8', newline='') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(item)  # 写入单行数据

5. 程序入口

通过if __name__ == '__main__':确保爬虫函数仅在脚本直接运行时执行：

python 复制代码

if __name__ == '__main__':
    spider()

关键技术点解析

1. XPath定位

XPath是XML路径语言，可通过节点层级、属性等精准定位HTML元素。本次爬虫中：

//*[@id="cycleListings"]/ul/li：定位id为cycleListings的元素下所有ul > li节点（即单条房源信息）；
div[2]/div[1]/a/text()：提取房源名称文本，通过索引定位层级节点。

2. 异常处理

捕获requests.RequestException：处理请求超时、状态码异常等网络问题；
捕获解析环节的通用异常：避免单条房源解析失败导致整个页面爬取中断。

3. 反爬友好设计

设置User-Agent模拟浏览器；
加入time.sleep(2)控制请求频率，降低服务器负载。

4. 数据清洗

通过字符串替换方法replace('\r', '').replace('\n', '').replace(' ', '')移除冗余的空白字符，保证数据整洁。

运行与验证

安装依赖库：pip install requests lxml；
运行脚本：python test.py；
验证结果：脚本运行过程中会打印抓取的房源数据，运行完成后本地生成Q房-二手房.csv文件，可通过Excel/文本编辑器打开查看。

扩展与优化方向

增量爬取：记录已爬取的页面/房源ID，避免重复抓取；
多线程/异步请求：使用threading或aiohttp提升爬取效率；
数据去重：基于房源名称/户型/面积等维度做去重处理；
反爬应对：增加IP代理池、Cookie池，应对可能的IP封禁；
数据可视化：将爬取的数据导入Pandas/Matplotlib，生成房价分布、区域均价等图表。

注意事项

遵守网站Robots协议：爬取前查看目标网站的robots.txt，确认允许爬取的范围；
控制爬取频率：避免高频请求影响目标网站正常服务；
数据用途合规：仅用于学习和分析，不得用于商业用途。

总结

本文实现的Q房网二手房爬虫，完整覆盖了从HTTP请求、页面解析到数据持久化的全流程，核心思路可迁移至其他房产类网站的爬虫开发。在实际应用中，需结合目标网站的反爬策略灵活调整方案，同时始终遵守网络爬虫的伦理与法律规范。