爬虫案例二

想拿到电影天堂

其中一个下载地址如何实现呢

第一步电影天堂_免费在线观看_迅雷电影下载_电影天堂网 (dytt28.com)电影天堂_电影下载_高清首发 (dytt89.com)电影天堂_免费在线观看_迅雷电影下载_电影天堂网 (dytt28.com)

第一步

我直接打开

requests.exceptions.SSLError: HTTPSConnectionPool(host='www.dytt28.com', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLCertVerificationError(1, 'SSL: CERTIFICATE_VERIFY_FAILED certificate verify failed: unable to get local issuer certificate (_ssl.c:1000)')))

报错,这个一看就是证书的问题,所以我们需要让SSL证书失效

我们加了verify=False 意思是失效的意思。

然后这时候还出现问题,这个问题是字符集的问题

为什么我使用gbk,因为print自身不支持gb2312,但是他支持gbk,因为gbk是gb2312的扩展,兼容gb2312

至此拿到了页码源代码了

第二步

拿到2024必看热片,所以需要re正则

提取一下数据

用re正则提取了出来。

同时导入了certifi

certifi模块是Python中一个非常有用的工具,用于安全验证。在进行网络请求时,我们常常需要进行SSL证书验证,以确保请求的安全性。而certifi模块提供了一个集合了HTTP访问所需要的根证书的集合,以帮助我们完成SSL证书验证。

第三步

这是我们需要提取其中链接地址

爬到了其中的链接,为了观察方便定义了一个集合,然后把链接放到集合里面

第四步

查看网页代码,可以看到电影名和下载地址,这时候可以用re提取出来

然后拿到了html源码数据,加一个break是中断循环

这样就拿到了下载地址

至于案例结束

相关推荐
coderwu2 分钟前
Ubuntu 24.04 终端输入 openclaw config 提示未找到命令解决办法
linux·运维·ubuntu
TE-茶叶蛋4 分钟前
TF-IDF 与 BM25 深度解析:从理论到项目实战
python·django·tf-idf
xcbrand8 分钟前
湖南VI设计公司排名
大数据·人工智能·python
dxxt_yy14 分钟前
千兆光/电口+OTDR一体——成都鼎讯 SZT-1000A 千兆以太网测试仪助力风电能源光缆管理
运维·服务器·能源
lllsure36 分钟前
【开源项目】Learn Claude Code
python·ai
tedcloud1231 小时前
taste-skill部署教程:打造个性化AI推荐工作流
服务器·前端·人工智能·系统架构·edge
凡人叶枫2 小时前
Effective C++ 条款28:避免使用 handles 指向对象内部
linux·服务器·开发语言·c++·嵌入式开发
AI帮小忙2 小时前
Debian系linux操作系统里安装OpenClaw
linux·运维·debian
极创信息2 小时前
Linux挖矿病毒深度清理实战教程,从进程隐藏、Rootkit驻留到彻底根除
java·大数据·linux·运维·安全·tomcat·健康医疗
青山如墨雨如画2 小时前
【北邮-无线通信中的人工智能】物理层技术中AI的应用实践:基于KNN的调制识别(1)理论基础
人工智能·python·机器学习·matlab·jupyter