Python爬虫实战演练通常包括以下几个步骤:
-
分析目标网站:首先,我们需要了解目标网站的结构,以便确定如何提取所需的信息。可以使用浏览器的开发者工具来查看网站的HTML源代码。
-
导入库:在编写爬虫之前,我们需要导入一些常用的库,如`requests`(用于发送HTTP请求)、`BeautifulSoup`(用于解析HTML文档)和`re`(用于处理正则表达式)。
-
发送请求:使用`requests`库发送HTTP请求,获取目标网页的HTML内容。
-
解析HTML:使用`BeautifulSoup`库解析HTML文档,提取所需的信息。
-
存储数据:将提取到的数据存储到文件或数据库中。
下面是一个简单的Python爬虫实战演练示例,用于爬取豆瓣电影Top250的电影名称和评分:
```python
import requests
from bs4 import BeautifulSoup
import re
def get_movie_info(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movie_list = soup.find('ol', class_='grid_view')
for movie in movie_list.find_all('li'):
rank = movie.find('em').text
title = movie.find('span', class_='title').text
rating = movie.find('span', class_='rating_num').text
print(f"{rank}. {title} - 评分: {rating}")
if name == 'main':
base_url = 'https://movie.douban.com/top250?start='
for i in range(0, 250, 25):
url = base_url + str(i)
get_movie_info(url)
```