爬虫案例二

生活百般滋味，人生需要笑对。 --佚名2024-03-06 22:19

想拿到电影天堂

其中一个下载地址如何实现呢

第一步电影天堂_免费在线观看_迅雷电影下载_电影天堂网 (dytt28.com)电影天堂_电影下载_高清首发 (dytt89.com)电影天堂_免费在线观看_迅雷电影下载_电影天堂网 (dytt28.com)

第一步

我直接打开

requests.exceptions.SSLError: HTTPSConnectionPool(host='www.dytt28.com', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLCertVerificationError(1, ' $SSL: CERTIFICATE_VERIFY_FAILED$ certificate verify failed: unable to get local issuer certificate (_ssl.c:1000)')))

报错，这个一看就是证书的问题，所以我们需要让SSL证书失效

我们加了verify=False 意思是失效的意思。

然后这时候还出现问题，这个问题是字符集的问题

为什么我使用gbk，因为print自身不支持gb2312，但是他支持gbk，因为gbk是gb2312的扩展，兼容gb2312

至此拿到了页码源代码了

第二步

拿到2024必看热片，所以需要re正则

提取一下数据

用re正则提取了出来。

同时导入了certifi

certifi模块是Python中一个非常有用的工具，用于安全验证。在进行网络请求时，我们常常需要进行SSL证书验证，以确保请求的安全性。而certifi模块提供了一个集合了HTTP访问所需要的根证书的集合，以帮助我们完成SSL证书验证。

第三步

这是我们需要提取其中链接地址

爬到了其中的链接，为了观察方便定义了一个集合，然后把链接放到集合里面

第四步

查看网页代码，可以看到电影名和下载地址，这时候可以用re提取出来

然后拿到了html源码数据，加一个break是中断循环

这样就拿到了下载地址

至于案例结束

上一篇：算法——动态规划

下一篇：Android开发必须要会，android性能优化面试

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI科技热点日报 | 2026年07月01日 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 10几个好用的ip纯净度检测网站