Ubuntu20.04 使用scrapy-splash爬取动态网页

我们要先安装splash服务,使用dock安装,如果dock没有安装,请参考我的上一篇博文:

按照官方文档:https://splash.readthedocs.io/en/stable/install.html

1.下载splash

复制代码
 sudo docker pull scrapinghub/splash

2.安装scrapy,它是python的包,我们用包管理器安装:

复制代码
pip3 install scrapy

3.创建scrapy项目,神似与django

复制代码
 scrapy startproject baiduSpider

其中报错了

复制代码
 cannot import name 'PseudoElement' from 'cssselect.parser' 

是因为版本不兼容的原因,直接用下面的命令升级到新版尝试解决

复制代码
 pip3 install --upgrade cssselect

最后,尝试成功,解决了依赖。

4.按照scrapy-splash模块,按照官方文档安装:
https://pypi.org/project/scrapy-splash/

复制代码
 pip3 install scrapy-splash

在这里,我指定了pip3,怕弄混淆。

5.后台运行Splash服务

复制代码
 docker run -d -p 8050:8050 scrapinghub/splash

因为用到是8050端口,可以使用如下程序,查到进程

复制代码
sudo lsof -i :8050

再用kill,结束进程用来释放端口。

若要重新用docker在8050端口启动进程,请重启docker服务,来更新状态。

复制代码
systemctl restart docker

6.如果你要远程访问splash服务,使用命令

复制代码
docker run -d -p 0.0.0.0:yyyy:8050 scrapinghub/splash

其中,yyyy代表端口号。重要的两点切记

6.1ufw暴露该端口

6.2. 如果是云服务器,很多厂商会设置安全组,请前往服务器控制中心,暴露yyyy端口

6.3 8050是splash服务默认窗口,更改的办法应该是进入docker容器内部,改动配置文件才可以变更。所以在指定端口时候不要动8050,答应我好吗?就因为这个,我查了一天的问题,一天啊整整一天!!!!!!!!!!!!!!!!!!!!!!这个问题对世界基本毫无意义,但是请相信它对我太有意义了,虽然我改正之后正确的访问了splash服务,没改变什么,但是我好开心!!!再说一遍,我好开心。

7.反思:

命令的每个参数最好都搞清楚意义

8.因为splash其实是一个scrapy框架的插件scrapy-splah要用的服务,因此,我们要学习三个东西,包括splash的使用、scrapy的使用、以及用python操纵splash的插件scrapy-splash的使用。

splash的学习

占坑

scrapy的学习

老办法,我们从官方文档开始。
https://doc.scrapy.org/en/latest/intro/tutorial.html

占坑

scrapy-splash具体爬取动态网页,见另一篇博文

占坑

相关推荐
北漂程序员学习5 天前
如何避免被目标网站识别为爬虫?
爬虫·python·scrapy·flask·scipy
爱吃泡芙的小白白6 天前
爬虫学习——Scrapy
爬虫·python·scrapy·学习记录
愚公搬代码7 天前
【愚公系列】《Python网络爬虫从入门到精通》056-Scrapy_Redis分布式爬虫(Scrapy-Redis 模块)
爬虫·python·scrapy
水w8 天前
【Python爬虫】详细入门指南
开发语言·爬虫·python·scrapy·beautifulsoup
水w11 天前
【Python爬虫】简单案例介绍3
开发语言·爬虫·python·scrapy·beautifulsoup
q5673152312 天前
使用Scrapy库结合Kotlin编写爬虫程序
爬虫·scrapy·kotlin
小白学大数据12 天前
Scrapy结合Selenium实现搜索点击爬虫的最佳实践
开发语言·chrome·爬虫·selenium·scrapy
q5673152313 天前
利用Ruby的Typhoeus编写爬虫程序
开发语言·爬虫·scrapy·ruby
q5673152315 天前
使用Java的HttpClient实现文件下载器
java·开发语言·爬虫·scrapy
q5673152316 天前
用Dispatch库的爬虫程序爬取图片网站
开发语言·爬虫·python·scrapy