scrapy框架爬取豆瓣top250电影排行榜(下)

(3)在 pipeline.py 文件中对数据进行存储,此程序先写 入 txt 文件中,是为了判断该程序是否能正确爬取出数据。 此处使用了 json 库,使用 ensure_ascii = False,能够确 保非 ASCII 字符(如中文)的数据写入 txt 文件中。

python 复制代码
import json
class DoubanPipeline:
    def open_spider(self,spider):
        self.f = open('maoer1.json','w',encoding='utf-8')
    def process_item(self, item, spider):
        json_str = json.dumps(dict(item),ensure_ascii=False) + '\n'
        self.f.write(json_str)
        return item
    def close_spider(self,spider):
        self.f.close()

(4)在 setting.py 文件中设置优先级。

此外,在我调试的过程中,我发现得做反爬措施。

(5)在此项目下创建一个 main.py 文件,用于调试。

python 复制代码
import os.path
import sys
from scrapy.cmdline import execute
currentFile = os.path.abspath(__file__)
currentPath = os.path.dirname(currentFile)
# print(currentPath)
sys.path.append(currentPath)
execute(["scrapy","crawl","db"])

(6)最终得到的数据如下(json 文件中):

(7)将数据转存至 mysql 中,使用 pymysql 成功连接数据 库后,通过 sql 语句 insert into 表名 values(值)将数 据进行保存。

python 复制代码
import mysql.connector
import json

conn = mysql.connector.connect(
    host="127.0.0.1",
    user="root",
    password="010208",
    database="spider",
    port = 3306,
    charset = "utf8"
)

cursor = conn.cursor()

with open('maoer1.json', 'r') as file:
    data = json.load(file)
    for entry in data:
        description = entry.get('description', '')  # 确保title字段存在
        movie_name = entry.get('movie_name', '')
        director = entry.get('director', '')
        score = entry.get('score', '')

        sql = "INSERT INTO spider10 (description,movie_name,director,score) VALUES (%s,%s,%s,%s)"
        cursor.execute(sql, (description,movie_name,director,score))
conn.commit()

cursor.close()
conn.close()

(8)结果展示

三.数据可视化

本题根据现有数据,做了柱状图和词云图。(好像不是很好看)

四.应用场景

通过对豆瓣网站进行数据爬取并进行可视化分析,我们可以看到,当代社会中人们喜欢的影视作品种类多样,评分较高,质量较高。希望该网站进行推出优秀作品,丰富人们的闲暇生活。


ok,这就是完整的程序说明,重点,我自己写的!

相关推荐
Bigcrab__17 小时前
Python3网络爬虫开发实战(15)Scrapy 框架的使用(第一版)
爬虫·python·scrapy
Bigcrab__2 天前
Python3网络爬虫开发实战(16)分布式爬虫(第一版)
爬虫·scrapy
B站计算机毕业设计超人9 天前
计算机毕业设计PySpark+Django深度学习游戏推荐系统 游戏可视化 游戏数据分析 游戏爬虫 Scrapy 机器学习 人工智能 大数据毕设
爬虫·深度学习·scrapy·django·课程设计·数据可视化·推荐算法
B站计算机毕业设计超人10 天前
计算机毕业设计Python电影评论情感分析 电影可视化 豆瓣电影爬虫 电影推荐系统 电影数据分析 电影大数据 大数据毕业设计 机器学习 深度学习 知识图谱
大数据·爬虫·python·深度学习·scrapy·机器学习·数据可视化
晓时谷雨13 天前
python scrapy爬虫框架 抓取BOSS直聘平台 数据可视化统计分析
爬虫·python·scrapy·pandas·数据可视化
天启代理ip15 天前
Scrapy添加代理IP池:自动化爬虫的秘密武器
tcp/ip·scrapy·自动化
金灰21 天前
scrapy--子类CrawlSpider&中间件
开发语言·网络·python·scrapy·安全·中间件
天涯幺妹21 天前
Python网络爬虫模拟登录与验证解析
爬虫·python·scrapy·网络安全·pycharm·beautifulsoup·pygame
github_czy22 天前
scrapy学习笔记0828-上
笔记·学习·scrapy