爬虫你还在用selenium吗,out了!

shigen坚持日更的博客写手,擅长Java、python、vue、shell等编程语言和各种应用程序、脚本的开发。坚持记录和分享从业两年以来的技术积累和思考,不断沉淀和成长。

最近遇到了一件事情:我的chrome浏览器升级了,但是对应的webdriver还没有升级,我只能被迫的接受使用safari浏览器实现爬虫。

虽然是mac自带的浏览器,但是我chrome浏览器用惯了,改不过来习惯了。但是最近发新闻还是被迫的使用safari浏览器作为浏览器。

我也一直在从slenium作为爬虫的框架,它主要webdriver,这样就有了诸多的问题:

  1. 配置比较麻烦,对于新手可能不是很友好
  2. 版本必须和浏览器的版本匹配。我之前的一段时间就是因为chrome升级了,但是driver没升级导致无法使用脚本操作服务器
  3. selenium新版本的api和老版本的出入较大。之前在解决问题时,发现很多旧文档中给的代码案例在新的版本中已经不能用了

好了,现在救星来了,slenium作为爬虫工具已经成为了历史。

DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器,也能收发数据包,还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大,内置无数人性化设计和便捷功能。它的语法简洁而优雅,代码量少,对新手友好。

这引自DrissionPage官方的文档,但是具体怎么样,还是得去看看吧。来和shigen一起探索吧。


安装

复制代码
 pip install DrissionPage

代码测试

根据官方的案例:采集猫眼电影top100榜,我们直接复制粘贴代码。

我就等了几秒钟的样子,它打开了一个新的web tab页面,就在疯狂的分页,之后数据全部放在了data.csv里边了。

这个比之前用requests库简单多了!

shigen直呼过瘾,下边的代码我就要自己去造了!爬取极简壁纸。不过也有点心疼作者,免费的网站,还要承受这样的流量攻击。果然应证了那句话:免费的才是最贵的!

代码就是这么的简单,但是最后还是没下载成功,前端处理了一下文件的地址。

相信我们后期会得到好的解决办法,shigen也会持续的更新。总之,drissionPage这个框架太好用了!

更多的使用方法,大家也可以去查看一下文档。


以上就是今天分享的全部内容了,觉得不错的话,记得点赞 在看 关注支持一下哈,您的鼓励和支持将是shigen坚持日更的动力。同时,shigen在多个平台都有文章的同步,也可以同步的浏览和订阅:

平台 备注 链接
CSDN 知名博客平台,很少关注 shigen的CSDN主页
知乎 专注内容分享和问题解答 shigen的知乎主页
掘金 高质量博客平台 shigen的掘金主页
腾讯云开发者社区 腾讯云开发者社区 shigen的腾讯云开发者社区主页
微信公众平台 个人微信公众号,分享技术和日常 公众号名:shigen

shigen一起,每天不一样!

相关推荐
12344521 分钟前
Agent入门实战-一个题目生成Agent
人工智能·后端
IT_陈寒4 分钟前
Java性能调优实战:5个被低估却提升30%效率的JVM参数
前端·人工智能·后端
快手技术5 分钟前
AAAI 2026|全面发力!快手斩获 3 篇 Oral,12 篇论文入选!
前端·后端·算法
颜酱6 分钟前
前端算法必备:滑动窗口从入门到很熟练(最长/最短/计数三大类型)
前端·后端·算法
8***f3958 分钟前
Spring容器初始化扩展点:ApplicationContextInitializer
java·后端·spring
用户298698530149 分钟前
C#: 如何自动化创建Word可填写表单,告别手动填写时代
后端·c#·.net
用户937611475816126 分钟前
并发编程三大特性
java·后端
阿在在27 分钟前
Spring 系列(二):加载 BeanDefinition 的几种方式
java·后端·spring
颜酱29 分钟前
前端算法必备:双指针从入门到很熟练(快慢指针+相向指针+滑动窗口)
前端·后端·算法
p***s9138 分钟前
Spring Boot项目接收前端参数的11种方式
前端·spring boot·后端