浅学爬虫-处理复杂网页

在处理实际项目时,网页通常比示例页面复杂得多。我们需要应对分页、动态加载和模拟用户行为等问题。以下是一些常见的场景及其解决方案。

处理分页

许多网站将内容分成多个页面,称为分页。要抓取这些数据,需要编写一个能够遍历所有分页的爬虫。

示例:抓取一个分页网站

假设我们要抓取一个分页网站,每页包含10条数据,分页链接的URL格式如下:

  • 第一页: http://example.com/page/1
  • 第二页: http://example.com/page/2
  • 第三页: http://example.com/page/3

步骤1:编写分页爬虫代码

python 复制代码
import requests
from bs4 import BeautifulSoup

# 基础URL
base_url = "http://example.com/page/"

# 最大页码
max_page = 5

for page in range(1, max_page + 1):
    url = f"{base_url}{page}"
    response = requests.get(url)
    
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        
        # 假设每条数据在class为'item'的div中
        items = soup.find_all('div', class_='item')
        
        for item in items:
            title = item.find('h2').text
            description = item.find('p').text
            print(f"标题: {title}")
            print(f"描述: {description}")
    else:
        print(f"请求失败,状态码: {response.status_code}")

代码解释:

  1. 基础URL: 设置分页网站的基础URL。
  2. 遍历页面 : 使用for循环遍历所有分页,生成每个分页的URL。
  3. 发送请求并解析页面 : 使用requests发送请求,使用BeautifulSoup解析页面。
  4. 提取数据: 假设每条数据在class为'item'的div中,提取数据并打印。
处理AJAX请求

一些网站通过AJAX(异步JavaScript和XML)加载数据,导致页面初始加载时看不到所有内容。要抓取这些数据,我们需要分析AJAX请求并直接请求相应的API。

示例:处理AJAX请求

假设我们要抓取一个通过AJAX请求加载的数据,AJAX请求的URL如下:

  • http://example.com/api/data?page=1
  • http://example.com/api/data?page=2

步骤1:编写处理AJAX请求的爬虫代码

python 复制代码
import requests
import json

# 基础URL
api_url = "http://example.com/api/data"

# 最大页码
max_page = 5

for page in range(1, max_page + 1):
    params = {'page': page}
    response = requests.get(api_url, params=params)
    
    if response.status_code == 200:
        data = response.json()
        
        for item in data['items']:
            title = item['title']
            description = item['description']
            print(f"标题: {title}")
            print(f"描述: {description}")
    else:
        print(f"请求失败,状态码: {response.status_code}")

代码解释:

  1. API URL: 设置AJAX请求的基础URL。
  2. 遍历页面 : 使用for循环遍历所有分页,生成每个分页的请求参数。
  3. 发送请求并解析响应 : 使用requests发送请求,解析JSON响应。
  4. 提取数据: 从响应数据中提取所需的信息并打印。
模拟用户行为

有些网站通过JavaScript动态生成内容,无法通过直接请求获取数据。这时我们可以使用Selenium模拟用户行为,抓取动态内容。

示例:使用Selenium模拟用户行为

步骤1:安装Selenium和浏览器驱动

复制代码
pip install selenium

步骤2:编写Selenium爬虫代码

python 复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

# 设置浏览器驱动
driver = webdriver.Chrome()

# 目标URL
url = "http://example.com"

# 打开网页
driver.get(url)

# 等待页面加载
time.sleep(5)

# 查找元素并提取数据
items = driver.find_elements(By.CLASS_NAME, 'item')

for item in items:
    title = item.find_element(By.TAG_NAME, 'h2').text
    description = item.find_element(By.TAG_NAME, 'p').text
    print(f"标题: {title}")
    print(f"描述: {description}")

# 关闭浏览器
driver.quit()

代码解释:

  1. 设置浏览器驱动: 使用Selenium的Chrome驱动打开浏览器。
  2. 打开网页 : 使用driver.get方法打开目标URL。
  3. 等待页面加载 : 使用time.sleep等待页面加载完成。
  4. 查找元素并提取数据 : 使用driver.find_elements方法查找页面中的元素并提取数据。
  5. 关闭浏览器 : 使用driver.quit方法关闭浏览器。
结论

本文介绍了处理复杂网页的几种方法,包括处理分页、处理AJAX请求和模拟用户行为。这些技巧将帮助我们应对实际项目中的各种复杂场景。在下一篇文章中,我们将探讨更多高级的爬虫技术和优化方法。

相关推荐
Y学院2 小时前
Python 数据分析:从新手到高手的“摸鱼”指南
python·数据分析
深耕AI2 小时前
【PyTorch训练】准确率计算(代码片段拆解)
人工智能·pytorch·python
eqwaak02 小时前
科技信息差(9.12)
开发语言·python·科技·量子计算
Blossom.1183 小时前
从“能写”到“能干活”:大模型工具调用(Function-Calling)的工程化落地指南
数据库·人工智能·python·深度学习·机器学习·计算机视觉·oracle
蒋星熠3 小时前
破壁者指南:内网穿透技术的深度解构与实战方法
网络·数据库·redis·python·websocket·网络协议·udp
shizidushu3 小时前
使用 Pyinstaller 打包 PPOCRLabel
python·pyinstaller
Q_Q19632884754 小时前
python+springboot+uniapp微信小程序题库系统 在线答题 题目分类 错题本管理 学习记录查询系统
spring boot·python·django·uni-app·node.js·php
Rhys..4 小时前
.gitignore文件的作用及用法
python·github
IT学长编程4 小时前
计算机毕业设计 基于深度学习的酒店评论文本情感分析研究 Python毕业设计项目 Hadoop毕业设计选题 机器学习选题【附源码+文档报告+安装调试】
hadoop·python·深度学习·机器学习·数据分析·毕业设计·酒店评论文本情感分析