基于Python Scrapy的豆瓣Top250电影爬虫程序

Scrapy安装

Python实现一个简单的爬虫程序(爬取图片)_python简单扒图脚本-CSDN博客

创建爬虫项目

创建爬虫项目:

bash 复制代码
scrapy startproject test_spider

创建爬虫程序文件:

bash 复制代码
>cd test_spider\test_spider\spiders
>scrapy genspider doubanSpider movie.douban.com

编写爬虫程序

分析网址:

bash 复制代码
https://movie.douban.com/top250?start=25&filter=

其中,start=25是分页信息,一共有10页,每页25个电影记录,start数值为0、25、50......225。

python 复制代码
for i in range(0,24,25):
            req = "https://movie.douban.com/top250?start={}&filter=".format(i)
            yield scrapy.Request(url=req, meta={'url': req}, headers=self.headers,callback=self.parse)
            time.sleep(2) 

提取电影网址、中文名、外文名:

python 复制代码
html_data = response.body
sp = BeautifulSoup(html_data, 'html.parser')
list = sp.find(class_='grid_view').find_all('li')
for one in list:
    link = one.find(class_='info').find(class_='hd').find('a')['href']
    print(link)
            
    titles =  one.find_all(class_='title')
    title_zh =titles[0].text.strip().replace(',',' ')
    title_en = ''
    if len(titles)>1:
         title_en = titles[1].text.strip().replace(',',' ').lstrip('/')
    print(title_zh,title_en)

提取导演、演员信息:

python 复制代码
bd = one.find(class_='info').find(class_='bd')
p1 = bd.find_all('p')[0].text.strip().replace('\n','').replace('\r','').replace(',',' ')
print(p1)

提取评分信息:

python 复制代码
spans = bd.find(class_='star').find_all('span')
score = spans[1].text
num = spans[3].text.replace('人评价','')
print(score,num)

写入csv文件:

python 复制代码
with open('movies.csv','a+',encoding='utf-8') as f:
      f.write('网址,中文名,外文名,导演,评分,评价人数\n')

with open('movies.csv','a+',encoding='utf-8') as f:
      f.write('{},{},{},{},{},{}\n'.format(link,title_zh,title_en,p1,score,num))

完整代码:

python 复制代码
import scrapy
from bs4 import BeautifulSoup
import time


class DoubanspiderSpider(scrapy.Spider):
    name = "doubanSpider"
    allowed_domains = ["movie.douban.com"]
    start_urls = ["https://movie.douban.com"]
    
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36','Cookie': ''}

    def start_requests(self):   
        with open('movies.csv','a+',encoding='utf-8') as f:
                f.write('网址,中文名,外文名,导演,评分,评价人数\n')
                
        for i in range(0,24,25):
            req = "https://movie.douban.com/top250?start={}&filter=".format(i)
            yield scrapy.Request(url=req, meta={'url': req}, headers=self.headers,callback=self.parse)
            time.sleep(2) 
        
    def parse(self, response):
        print("========= parse ==============")
        html_data = response.body
        sp = BeautifulSoup(html_data, 'html.parser')
        list = sp.find(class_='grid_view').find_all('li')
        for one in list:
            link = one.find(class_='info').find(class_='hd').find('a')['href']
            print(link)
            
            titles =  one.find_all(class_='title')
            title_zh =titles[0].text.strip().replace(',',' ')
            title_en = ''
            if len(titles)>1:
                title_en = titles[1].text.strip().replace(',',' ').lstrip('/')
            print(title_zh,title_en)
            
            bd = one.find(class_='info').find(class_='bd')
            p1 = bd.find_all('p')[0].text.strip().replace('\n','').replace('\r','').replace(',',' ')
            print(p1)
            
            spans = bd.find(class_='star').find_all('span')
            score = spans[1].text
            num = spans[3].text.replace('人评价','')
            print(score,num)
            
            with open('movies.csv','a+',encoding='utf-8') as f:
                f.write('{},{},{},{},{},{}\n'.format(link,title_zh,title_en,p1,score,num))
            
  
  

运行爬虫程序:

scrapy crawl doubanSpider

生成的csv文件如下:

相关推荐
码界筑梦坊12 分钟前
353-基于Python的大湾区气候数据可视化分析系统
开发语言·python·信息可视化·数据分析·django·vue·毕业设计
如何原谅奋力过但无声34 分钟前
【chap11-动态规划(上 - 基础题目&背包问题)】用Python3刷《代码随想录》
数据结构·python·算法·动态规划
云姜.1 小时前
JSON Schema使用
python·json
Sunshine for you1 小时前
使用Flask快速搭建轻量级Web应用
jvm·数据库·python
qwehjk20081 小时前
如何从Python初学者进阶为专家?
jvm·数据库·python
小熊Coding1 小时前
重庆市旅游景点数据可视化分析系统
爬虫·python·数据挖掘·数据分析·计算机毕业设计·数据可视化分析·旅游景点
sg_knight1 小时前
CentOS 裸机实操:5分钟完成 MinIO 单机部署与公网访问
linux·python·centos·文件管理·minio·ftp·oss
rebekk1 小时前
PyTorch Dispatcher介绍
人工智能·pytorch·python
呱牛do it2 小时前
企业级软件研发团队绩效考核系统开发(持续更新 Day 8)
python·fastapi·研发管理
阿kun要赚马内2 小时前
Python面向对象:@property装饰器
开发语言·前端·python