爬虫案例二

想拿到电影天堂

其中一个下载地址如何实现呢

第一步电影天堂_免费在线观看_迅雷电影下载_电影天堂网 (dytt28.com)电影天堂_电影下载_高清首发 (dytt89.com)电影天堂_免费在线观看_迅雷电影下载_电影天堂网 (dytt28.com)

第一步

我直接打开

requests.exceptions.SSLError: HTTPSConnectionPool(host='www.dytt28.com', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1000)')))

报错,这个一看就是证书的问题,所以我们需要让SSL证书失效

我们加了verify=False 意思是失效的意思。

然后这时候还出现问题,这个问题是字符集的问题

为什么我使用gbk,因为print自身不支持gb2312,但是他支持gbk,因为gbk是gb2312的扩展,兼容gb2312

至此拿到了页码源代码了

第二步

拿到2024必看热片,所以需要re正则

提取一下数据

用re正则提取了出来。

同时导入了certifi

certifi模块是Python中一个非常有用的工具,用于安全验证。在进行网络请求时,我们常常需要进行SSL证书验证,以确保请求的安全性。而certifi模块提供了一个集合了HTTP访问所需要的根证书的集合,以帮助我们完成SSL证书验证。

第三步

这是我们需要提取其中链接地址

爬到了其中的链接,为了观察方便定义了一个集合,然后把链接放到集合里面

第四步

查看网页代码,可以看到电影名和下载地址,这时候可以用re提取出来

然后拿到了html源码数据,加一个break是中断循环

这样就拿到了下载地址

至于案例结束

相关推荐
春日见10 小时前
如何跑通,吃透一个开源项目?
linux·运维·开发语言·数码相机·matlab
Blueeyedboy52110 小时前
服务器监控工具-netdata
运维·服务器
hkNaruto10 小时前
【docker】docker exec -it 报错 open /dev/pts/0: operation not permitted
运维·docker·容器
TG:@yunlaoda360 云老大10 小时前
华为云国际站代理商DSS的跨区域备份与恢复具体是如何实现的?
运维·服务器·华为云
Ccjf酷儿10 小时前
计算机网络 (郑烇) 2 应用层
运维·服务器·计算机网络
Lvan的前端笔记10 小时前
python:用 dotenv 管理环境变量&生产环境怎么管理环境变量
网络·数据库·python
Java Fans10 小时前
用PyQt打造带动画、碰撞检测和键盘控制的小游戏
python·计算机外设·pyqt
深蓝海拓10 小时前
PySide6从0开始学习的笔记(十一) QSS 属性选择器
笔记·python·qt·学习·pyqt
寰天柚子10 小时前
服务器性能优化实战:从资源瓶颈定位到极致调优(附租赁服务器适配指南)
运维·服务器·udp
AAA_bo110 小时前
liunx安装canda、python、nodejs、git,随后部署私有网页内容提取工具--JinaReader全攻略
linux·python·ubuntu·typescript·aigc·python3.11·jina