基于Python Scrapy的豆瓣Top250电影爬虫程序

Scrapy安装

Python实现一个简单的爬虫程序(爬取图片)_python简单扒图脚本-CSDN博客

创建爬虫项目

创建爬虫项目:

bash 复制代码
scrapy startproject test_spider

创建爬虫程序文件:

bash 复制代码
>cd test_spider\test_spider\spiders
>scrapy genspider doubanSpider movie.douban.com

编写爬虫程序

分析网址:

bash 复制代码
https://movie.douban.com/top250?start=25&filter=

其中,start=25是分页信息,一共有10页,每页25个电影记录,start数值为0、25、50......225。

python 复制代码
for i in range(0,24,25):
            req = "https://movie.douban.com/top250?start={}&filter=".format(i)
            yield scrapy.Request(url=req, meta={'url': req}, headers=self.headers,callback=self.parse)
            time.sleep(2) 

提取电影网址、中文名、外文名:

python 复制代码
html_data = response.body
sp = BeautifulSoup(html_data, 'html.parser')
list = sp.find(class_='grid_view').find_all('li')
for one in list:
    link = one.find(class_='info').find(class_='hd').find('a')['href']
    print(link)
            
    titles =  one.find_all(class_='title')
    title_zh =titles[0].text.strip().replace(',',' ')
    title_en = ''
    if len(titles)>1:
         title_en = titles[1].text.strip().replace(',',' ').lstrip('/')
    print(title_zh,title_en)

提取导演、演员信息:

python 复制代码
bd = one.find(class_='info').find(class_='bd')
p1 = bd.find_all('p')[0].text.strip().replace('\n','').replace('\r','').replace(',',' ')
print(p1)

提取评分信息:

python 复制代码
spans = bd.find(class_='star').find_all('span')
score = spans[1].text
num = spans[3].text.replace('人评价','')
print(score,num)

写入csv文件:

python 复制代码
with open('movies.csv','a+',encoding='utf-8') as f:
      f.write('网址,中文名,外文名,导演,评分,评价人数\n')

with open('movies.csv','a+',encoding='utf-8') as f:
      f.write('{},{},{},{},{},{}\n'.format(link,title_zh,title_en,p1,score,num))

完整代码:

python 复制代码
import scrapy
from bs4 import BeautifulSoup
import time


class DoubanspiderSpider(scrapy.Spider):
    name = "doubanSpider"
    allowed_domains = ["movie.douban.com"]
    start_urls = ["https://movie.douban.com"]
    
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36','Cookie': ''}

    def start_requests(self):   
        with open('movies.csv','a+',encoding='utf-8') as f:
                f.write('网址,中文名,外文名,导演,评分,评价人数\n')
                
        for i in range(0,24,25):
            req = "https://movie.douban.com/top250?start={}&filter=".format(i)
            yield scrapy.Request(url=req, meta={'url': req}, headers=self.headers,callback=self.parse)
            time.sleep(2) 
        
    def parse(self, response):
        print("========= parse ==============")
        html_data = response.body
        sp = BeautifulSoup(html_data, 'html.parser')
        list = sp.find(class_='grid_view').find_all('li')
        for one in list:
            link = one.find(class_='info').find(class_='hd').find('a')['href']
            print(link)
            
            titles =  one.find_all(class_='title')
            title_zh =titles[0].text.strip().replace(',',' ')
            title_en = ''
            if len(titles)>1:
                title_en = titles[1].text.strip().replace(',',' ').lstrip('/')
            print(title_zh,title_en)
            
            bd = one.find(class_='info').find(class_='bd')
            p1 = bd.find_all('p')[0].text.strip().replace('\n','').replace('\r','').replace(',',' ')
            print(p1)
            
            spans = bd.find(class_='star').find_all('span')
            score = spans[1].text
            num = spans[3].text.replace('人评价','')
            print(score,num)
            
            with open('movies.csv','a+',encoding='utf-8') as f:
                f.write('{},{},{},{},{},{}\n'.format(link,title_zh,title_en,p1,score,num))
            
  
  

运行爬虫程序:

scrapy crawl doubanSpider

生成的csv文件如下:

相关推荐
Aerkui3 分钟前
Python数据类型-int
开发语言·python
吉均10 分钟前
如何实现局域网内无痛访问Jupyter Notebook?
ide·python·jupyter
winfredzhang10 分钟前
Python视频标签工具详解:基于wxPython和FFmpeg的实现
python·ffmpeg·音视频·视频标签
这里有鱼汤17 分钟前
你以为 Socket 只能做聊天室?揭秘 Python 网络编程的 8 种硬核用法
前端·后端·python
独行soc25 分钟前
2025年渗透测试面试题总结-某腾某讯-技术安全实习生升级(题目+回答)
java·python·安全·web安全·面试·职场和发展·红蓝攻防
白808029 分钟前
python实现代码雨
开发语言·python·pygame
小周不摆烂35 分钟前
Python爬虫:开启数据抓取的奇幻之旅(二)
python
Start_Present1 小时前
Pytorch 第十三回:神经网络编码器——自动编解码器
pytorch·python·深度学习·神经网络
互联网杂货铺1 小时前
黑盒测试、白盒测试、集成测试和系统测试的区别与联系
自动化测试·软件测试·python·功能测试·测试工具·单元测试·集成测试
databook1 小时前
线性模型与多分类问题:简单高效的力量
python·机器学习·scikit-learn