爬虫你还在用selenium吗,out了!

shigen坚持日更的博客写手,擅长Java、python、vue、shell等编程语言和各种应用程序、脚本的开发。坚持记录和分享从业两年以来的技术积累和思考,不断沉淀和成长。

最近遇到了一件事情:我的chrome浏览器升级了,但是对应的webdriver还没有升级,我只能被迫的接受使用safari浏览器实现爬虫。

虽然是mac自带的浏览器,但是我chrome浏览器用惯了,改不过来习惯了。但是最近发新闻还是被迫的使用safari浏览器作为浏览器。

我也一直在从slenium作为爬虫的框架,它主要webdriver,这样就有了诸多的问题:

  1. 配置比较麻烦,对于新手可能不是很友好
  2. 版本必须和浏览器的版本匹配。我之前的一段时间就是因为chrome升级了,但是driver没升级导致无法使用脚本操作服务器
  3. selenium新版本的api和老版本的出入较大。之前在解决问题时,发现很多旧文档中给的代码案例在新的版本中已经不能用了

好了,现在救星来了,slenium作为爬虫工具已经成为了历史。

DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器,也能收发数据包,还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大,内置无数人性化设计和便捷功能。它的语法简洁而优雅,代码量少,对新手友好。

这引自DrissionPage官方的文档,但是具体怎么样,还是得去看看吧。来和shigen一起探索吧。


安装

复制代码
 pip install DrissionPage

代码测试

根据官方的案例:采集猫眼电影top100榜,我们直接复制粘贴代码。

我就等了几秒钟的样子,它打开了一个新的web tab页面,就在疯狂的分页,之后数据全部放在了data.csv里边了。

这个比之前用requests库简单多了!

shigen直呼过瘾,下边的代码我就要自己去造了!爬取极简壁纸。不过也有点心疼作者,免费的网站,还要承受这样的流量攻击。果然应证了那句话:免费的才是最贵的!

代码就是这么的简单,但是最后还是没下载成功,前端处理了一下文件的地址。

相信我们后期会得到好的解决办法,shigen也会持续的更新。总之,drissionPage这个框架太好用了!

更多的使用方法,大家也可以去查看一下文档。


以上就是今天分享的全部内容了,觉得不错的话,记得点赞 在看 关注支持一下哈,您的鼓励和支持将是shigen坚持日更的动力。同时,shigen在多个平台都有文章的同步,也可以同步的浏览和订阅:

平台 备注 链接
CSDN 知名博客平台,很少关注 shigen的CSDN主页
知乎 专注内容分享和问题解答 shigen的知乎主页
掘金 高质量博客平台 shigen的掘金主页
腾讯云开发者社区 腾讯云开发者社区 shigen的腾讯云开发者社区主页
微信公众平台 个人微信公众号,分享技术和日常 公众号名:shigen

shigen一起,每天不一样!

相关推荐
武子康10 分钟前
大数据-145 Apache Kudu 架构与实战:RowSet、分区与 Raft 全面解析
大数据·后端·nosql
间彧11 分钟前
Spring @ControllerAdvice详解与应用实战
后端
间彧15 分钟前
@ControllerAdvice与AOP切面编程在处理异常时有什么区别和各自的优势?
后端
间彧39 分钟前
什么是Region多副本容灾
后端
爱敲代码的北40 分钟前
WPF容器控件布局与应用学习笔记
后端
爱敲代码的北40 分钟前
XAML语法与静态资源应用
后端
清空mega42 分钟前
从零开始搭建 flask 博客实验(5)
后端·python·flask
爱敲代码的北1 小时前
UniformGrid 均匀网格布局学习笔记
后端
一只叫煤球的猫1 小时前
从1996到2025——细说Java锁的30年进化史
java·后端·性能优化
喵个咪1 小时前
开箱即用的GO后台管理系统 Kratos Admin - 数据脱敏和隐私保护
后端·go·protobuf