整体思路

网络资源爬取通常分为以下几个步骤：

发送 HTTP 请求 ：使用requests库向目标网站发送请求，获取网页的 HTML 内容。
解析 HTML 内容 ：使用BeautifulSoup库解析 HTML 内容，从中提取所需的数据。
处理数据：对提取的数据进行清洗、存储等操作。

代码实现

import requests

from bs4 import BeautifulSoup

def scrape_website(url):

try:

发送 HTTP 请求获取网页内容

requests.get 方法会向指定的 URL 发送一个 GET 请求

response = requests.get(url)

检查响应状态码，如果状态码不是 200，会抛出 HTTPError 异常

response.raise_for_status()

使用 BeautifulSoup 解析 HTML

'html.parser' 是 Python 内置的 HTML 解析器

soup = BeautifulSoup(response.text, 'html.parser')

这里可以根据网页结构提取你需要的信息

例如，提取所有的标题标签

titles = soup.find_all('title')

for title in titles:

print(title.text)

示例：提取所有的链接

links = soup.find_all('a')

for link in links:

href = link.get('href')

if href:

print(href)

except requests.RequestException as e:

print(f"请求发生错误: {e}")

except Exception as e:

print(f"发生未知错误: {e}")

if name == "main":

要爬取的网页 URL

url = 'https://www.example.com'

scrape_website(url)

代码说明

导入必要的库 ：
- requests：用于发送 HTTP 请求，获取网页内容。
- BeautifulSoup：用于解析 HTML 内容，方便提取所需的数据。
定义爬取函数 ：
- scrape_website函数接收一个 URL 作为参数，向该 URL 发送 HTTP 请求并解析响应内容。
发送请求并检查状态 ：
- requests.get(url)：向指定的 URL 发送一个 GET 请求，并返回一个响应对象。
- response.raise_for_status()：检查响应状态码，如果状态码不是 200，会抛出HTTPError异常。
解析 HTML ：
- BeautifulSoup(response.text, 'html.parser')：使用BeautifulSoup解析 HTML 内容，response.text是响应的文本内容，'html.parser'是 Python 内置的 HTML 解析器。
提取数据 ：
- soup.find_all('title')：查找所有的<title>标签，并返回一个列表。
- soup.find_all('a')：查找所有的<a>标签，并返回一个列表。
- link.get('href')：获取<a>标签的href属性值。
处理异常 ：
- requests.RequestException：捕获请求过程中可能出现的异常，如网络连接错误、请求超时等。
- Exception：捕获其他未知异常。
主程序 ：
- 调用scrape_website函数，传入要爬取的网页 URL

教程

1. 安装必要的库

在运行代码前，你需要安装requests和beautifulsoup4库。可以使用以下命令进行安装：

pip install requests beautifulsoup4

2. 替换 URL

将代码中的url = 'https://www.example.com'替换为你要爬取的实际网页 URL。

3. 提取所需数据

根据目标网页的 HTML 结构，使用BeautifulSoup的方法提取你需要的数据。常见的方法有：

find()：查找第一个匹配的标签。
find_all()：查找所有匹配的标签。
select()：使用 CSS 选择器查找标签。

4. 处理数据

提取到数据后，你可以对其进行清洗、存储等操作。例如，将数据保存到文件中或存储到数据库中。

5. 遵守规则

在爬取网页时，要遵守网站的robots.txt规则和相关法律法规，避免对网站造成不必要的负担。

使用python爬取网络资源