Python爬虫基础知识

板栗妖怪2024-03-22 11:33

(未完成)

爬虫用于爬取数据，又称之为数据采集程序

爬取数据来源于网络，网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供

爬取数据是公开的、非盈利。

使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多（单）线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。

爬虫使用网络请求库，相当于客户端请求，web后端服务根据请求响应数据。即想web服务器发起http请i去，正确地接收响应数据，然后根据数据地类型进行数据地解析及存储。

爬虫程序再发起请求前，需要伪造浏览器（User-Agent指定请求头），然后再发起请求，这样响应地成功率比较高。

urllib

requests

selenium（UI自动测试，动态js渲染）

appnium用于手机app爬虫或UI测试

re正则

xpath

bs4

json

pymysql

mongodb

elasticsearch

多线程（threading）

线程队列（queue）

协程（asynio、gevent/eventlet）

scrapy

scrapy-redis分布式（多机爬虫）

UA（User-Agent）策略

登陆限制（Cookie）策略

请求频次（IP代理）策略

验证码（图片-云打码，图片验证，滑块验证）

动态js（Selenium/Splash/api接口）策略

不嫌弃的点点关注，点点赞 ଘ(੭ˊᵕˋ)੭* ੈ✩‧₊˚