简单的Python爬虫实例

下面是一个简单的Python爬虫实例，用于抓取一个网页的标题。我们将使用requests库来发送HTTP请求，使用BeautifulSoup库来解析HTML。

首先，你需要安装这两个库。如果你还没有安装，可以使用以下命令：

复制代码

pip install requests
pip install beautifulsoup4

接下来是一个简单的爬虫代码示例：

复制代码

import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = 'http://example.com'
# 发送HTTP GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    # 查找并打印网页的标题
    title = soup.find('title').text
    print(f'网页标题是: {title}')
else:
    print(f'请求失败，状态码: {response.status_code}')

代码解释

‌导入库‌：

import requests

from bs4 import BeautifulSoup

‌定义目标网页的URL‌：

url = 'http://example.com'

‌发送HTTP GET请求‌：

response = requests.get(url)

‌检查请求是否成功‌：

if response.status_code == 200:

这里我们检查返回的状态码是否为200，表示请求成功。

‌解析HTML内容‌：

soup = BeautifulSoup(response.text, 'html.parser')

使用BeautifulSoup解析获取的HTML内容。

‌查找并打印网页的标题‌：

title = soup.find('title').text

print(f'网页标题是: {title}')

查找HTML中的<title>标签，并打印其文本内容。

‌处理请求失败的情况‌：

else:

print(f'请求失败，状态码: {response.status_code}')

注意事项

‌爬取频率‌：请不要频繁地爬取同一个网站，以免给网站服务器带来负担。遵守网站的robots.txt规则（通常位于http://example.com/robots.txt），了解允许爬取的内容和频率。

‌法律与道德‌：确保你的爬虫行为符合法律法规和网站的条款与条件。不要爬取敏感信息或侵犯他人隐私。

‌错误处理‌：在实际应用中，添加更多的错误处理机制，例如处理网络异常、超时等。

希望这个简单的示例能帮助你入门Python爬虫开发！