可狱可囚的爬虫系列课程 18:成都在售新房数据爬虫(lxml 模块)实战

上一篇文章中带大家学习了 lxml 模块以及 XPath 语法,本文针对某网新房数据编写爬虫进行实战。

一、网页信息的获取

抓取地址:https://cd.fang.lianjia.com/loupan/

python 复制代码
import requests

Link = 'https://cd.fang.lianjia.com/loupan/'
Headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36'
}
response = requests.get(url=Link, headers=Headers)
if response.status_code == 200:
    html_source = response.text
    print(html_source)
else:
    print(f'状态码:{response.status_code}, 请检查')

二、新房数据的抓取

(1)当前页面所有在售新房获取

python 复制代码
root = etree.HTML(html_source)
# 找到所有房屋信息对应的 li 标签,构建 li 列表
li_list = root.xpath('/html/body/div[3]/ul[@class="resblock-list-wrapper"]/li')

(2)部分房屋信息抓取

python 复制代码
for li in li_list:
    # 经过分析,房屋名称信息较好获取,而要获得房屋面积单价则需要借助分支语法
    house_name = li.xpath('./div/div[1]/h2/a/text()')  # 房屋名称
    house_unit_price = li.xpath('./div/div[6]/div[1]/span[1]/text()|./div/div[6]/div[1]/span[2]/text()')  # 房屋面积单价
    print(house_name[0], ''.join(house_unit_price))

三、完整代码

爬虫代码的编写,除了要有扎实的基础知识外,还要善于分析网页内容。

python 复制代码
import requests
from lxml import etree

Link = 'https://cd.fang.lianjia.com/loupan/'
Headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36'
}
response = requests.get(url=Link, headers=Headers)
if response.status_code == 200:
    html_source = response.text
    root = etree.HTML(html_source)
    # 找到所有房屋信息对应的 li 标签,构建 li 列表
    li_list = root.xpath('/html/body/div[3]/ul[@class="resblock-list-wrapper"]/li')
    for li in li_list:
        # 经过分析,房屋名称信息较好获取,而要获得房屋面积单价则需要借助分支语法
        house_name = li.xpath('./div/div[1]/h2/a/text()')  # 房屋名称
        house_unit_price = li.xpath('./div/div[6]/div[1]/span[1]/text()|./div/div[6]/div[1]/span[2]/text()')  # 房屋面积单价
        house_price = li.xpath('./div/div[6]/div[@class="second"]/text()')  # 价格区间
        house_address = li.xpath(
            './div/div[2]/span[1]/text()|./div/div[2]/span[2]/text()|./div/div[2]/a/text()')  # 地理位置
        print(house_name[0], ''.join(house_unit_price), house_price[0], '/'.join(house_address))
else:
    print(f'状态码:{response.status_code}, 请检查')
相关推荐
红队it9 分钟前
【数据分析大屏】基于Django+Vue汽车销售数据分析可视化大屏(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅
python·数据分析·spark·汽车·大屏端
蹦蹦跳跳真可爱58917 分钟前
Python----计算机视觉处理(opencv:图片灰度化)
人工智能·python·opencv·计算机视觉
小白学大数据42 分钟前
Fuel 爬虫:Scala 中的图片数据采集与分析
开发语言·爬虫·scala
HelloGitHub1 小时前
经过 10 亿级性能验证的隐私计算开源利器
python·开源·github
一号言安1 小时前
牛客python蓝桥杯11-32(自用)
开发语言·python
梦丶晓羽1 小时前
自然语言处理:主题模型
人工智能·python·自然语言处理·lda·主题模型
weixin_525936332 小时前
Python数据分析之机器学习基础
python·机器学习·数据分析
apcipot_rain2 小时前
【密码学——基础理论与应用】李子臣编著 第三章 分组密码 课后习题
python·算法·密码学
慕丹2 小时前
项目工坊 | Python驱动淘宝信息爬虫
爬虫·python·selenium
萌小丹Fighting6 小时前
【Python爬虫】使用python脚本拉取网页指定小说章节
爬虫·python