Python爬虫:urllib_ajax的get请求豆瓣电影前十页(08)

复制代码
# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&
# start=0&limit=20
import urllib.parse
import urllib.request



# 下载豆瓣电影前10页的数据
# (1)请求对象的定制
# (2)获取响应的数据
# (3)下载数据

def create_request(page):
    base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'

    data = {
        'start':(page - 1) * 20,
        'limit':20
    }

    data = urllib.parse.urlencode(data)

    url = base_url + data


    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36'}

    request = urllib.request.Request(url=url, headers=headers)

    return request


def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content


def down_load(page, content):
    with open('douban_' + str(page) + '.json', 'w', encoding='utf-8') as fp:
        fp.write(content)


#程序的入口
if __name__=='__main__':
    start_page = int(input('请输入起始的页码'))
    end_page = int(input('请输入结束的页码'))
    for page in range(start_page, end_page + 1):
#       每一页都有自己的请求对象的定制
        request = create_request(page)
#       获取响应的数据
        content = get_content(request)
#       下载
        down_load(page, content)

这个就是一个综合型的应用了,这个需要扎实的基本功和对于函数调用的理解,然后根据函数的编写去做一个页面的爬取,我们要先分析好网址域名和后面的参数的组成规律,然后再去爬取,在这里的前提先了解,怎么找到这个网址,到浏览器里面检查的network,往豆瓣网站往下拉,去寻找一个含有list的文件,在里面找请求的url,找到如下

网址已做拆分

豆瓣网站的第一页

https://movie.douban.com/j/chart/top_list?type=5\&interval_id=100%3A90\&action=\&

start=0&limit=20

豆瓣网址的第二页

https://movie.douban.com/j/chart/top_list?type=5\&interval_id=100%3A90\&action=\&

start=20&limit=20

豆瓣网址的第三页

https://movie.douban.com/j/chart/top_list?type=5\&interval_id=100%3A90\&action=\&

start=40&limit=20

我们发现页面和start是有规律可循的

规律就是 (page - 1)* 20

然后编写代码就好

拆分成三个大部分。

相关推荐
兵慌码乱8 小时前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理
金銀銅鐵9 小时前
[Python] 体验用欧几里得算法计算最大公约数的过程
python·数学
FreakStudio13 小时前
W55MH32L-EVB 上手测评:硬件 TCP/IP 加持的以太网单片机,MicroPython 零门槛开发
python·单片机·嵌入式·大学生·面向对象·并行计算·电子diy·电子计算机
用户03321266636714 小时前
使用 Python 从零创建 Word 文档
python
Csvn19 小时前
Python 两大经典坑点 —— 可变默认参数 & 闭包延迟绑定
后端·python
曲幽20 小时前
别再用网页翻译看源码了!你的私人翻译神器LibreTranslate,部署避坑指南来了
python·docker·web·pot·translate·libretranslate·arogstranslate
用户556918817531 天前
#从脚本到独立程序:Python + Playwright 批量抓取的完整踩坑记录
python·自动化运维
兵慌码乱1 天前
基于 MediaPipe 与 PySide2 的手势交互音乐控制系统实现:轻量化视觉交互全流程解析
python·opencv·计算机视觉·人机交互·手势识别·mediapipe·pyside2
luckdewei2 天前
FastAPI 资产管理系统实战:复杂 ORM 关联、Alembic 迁移与 N+1 查询优化
python