Python实战案例之如何爬去电影，教程来了

程序猿～厾罗2023-12-29 18:46

Python爬虫实战演练通常包括以下几个步骤：

分析目标网站：首先，我们需要了解目标网站的结构，以便确定如何提取所需的信息。可以使用浏览器的开发者工具来查看网站的HTML源代码。
导入库：在编写爬虫之前，我们需要导入一些常用的库，如`requests`（用于发送HTTP请求）、`BeautifulSoup`（用于解析HTML文档）和`re`（用于处理正则表达式）。
发送请求：使用`requests`库发送HTTP请求，获取目标网页的HTML内容。
解析HTML：使用`BeautifulSoup`库解析HTML文档，提取所需的信息。
存储数据：将提取到的数据存储到文件或数据库中。

下面是一个简单的Python爬虫实战演练示例，用于爬取豆瓣电影Top250的电影名称和评分：

```python

import requests

from bs4 import BeautifulSoup

import re

def get_movie_info(url):

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.text, 'html.parser')

movie_list = soup.find('ol', class_='grid_view')

for movie in movie_list.find_all('li'):

rank = movie.find('em').text

title = movie.find('span', class_='title').text

rating = movie.find('span', class_='rating_num').text

print(f"{rank}. {title} - 评分： {rating}")

if name == 'main':

for i in range(0, 250, 25):

url = base_url + str(i)

get_movie_info(url)

```