15分钟学 Python 第31天：Web Scraping

Day 31：Web Scraping

1. Web Scraping 概述

Web Scraping（网页抓取）是一种自动提取网站数据的技术。它常用于从网页中收集信息，对数据进行分析和处理。无论是获取产品价格、市场调研，还是收集新闻信息，Web Scraping都有着广泛的应用。

1.1 Web Scraping 的应用场景

应用场景	说明
数据采集	定期从网站提取最新数据
媒体内容抓取	收集新闻文章、博客文章
价格监控	追踪产品价格，竞争对手的动态
市场研究	收集消费者评论、产品信息
研究数据收集	集合用于科学研究或分析的数据

2. Web Scraping 的工具

进行Web Scraping需要一些工具和库，以下是Python中常用的几个库：

库名	作用
Requests	处理HTTP请求，获取网站HTML内容
Beautiful Soup	解析HTML和XML，提取数据
lxml	更高效的HTML/XML解析库
Scrapy	完整的Web Scraping框架
Selenium	自动化浏览器操作，抓取动态网页内容

3. 使用 Requests 和 Beautiful Soup 进行Web Scraping

3.1 安装所需库

首先，确保您已安装requests和beautifulsoup4库。可以使用以下命令安装：

bash 复制代码

pip install requests beautifulsoup4

3.2 基本流程

进行Web Scraping的一般步骤如下：

使用Requests库获取网页内容。
使用Beautiful Soup解析网页。
提取所需的数据。
保存数据（例如，存入CSV文件、数据库等）。

4. 示例代码

以下是一个简单的Web Scraping示例，抓取一个示例网站的标题和链接。

4.1 示例网站

假设我们要抓取以下网站的数据：

示例网站 ：http://quotes.toscrape.com/

4.2 示例代码

python 复制代码

import requests
from bs4 import BeautifulSoup

# 1. 发送HTTP请求并获取网页内容
url = 'http://quotes.toscrape.com/'
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    # 2. 解析网页内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 3. 提取所需数据
    quotes = soup.find_all('div', class_='quote')
    
    # 存储结果
    result = []
    
    for quote in quotes:
        text = quote.find('span', class_='text').get_text()
        author = quote.find('small', class_='author').get_text()
        result.append({'text': text, 'author': author})

    # 4. 打印提取的数据
    for item in result:
        print(f"Quote: {item['text']} - Author: {item['author']}")
else:
    print(f"Failed to retrieve the page. Status code: {response.status_code}")

4.3 代码运行流程图

以下是该示例代码的运行流程图：

复制代码

+-------------------+
| 发送HTTP请求      |
| 获取网页内容     |
+---------+---------+
          |
          v
+---------+---------+
| 解析网页内容     |
+---------+---------+
          |
          v
+---------+---------+
| 提取所需的数据   |
+---------+---------+
          |
          v
+---------+---------+
| 打印或保存数据   |
+-------------------+

5. 处理复杂情况

5.1 动态网页

对于JavaScript生成的动态网页，使用Selenium库更为合适，因为它可以操控浏览器以模拟用户操作。

5.1.1 安装 Selenium