Python爬虫基础知识

(未完成)

爬虫概念

爬虫用于爬取数据,又称之为数据采集程序

爬取数据来源于网络,网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供

爬取数据是公开的、非盈利。

python爬虫

使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多(单)线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。

爬虫和web后端服务关系

爬虫使用网络请求库,相当于客户端请求,web后端服务根据请求响应数据。即想web服务器发起http请i去,正确地接收响应数据,然后根据数据地类型进行数据地解析及存储。

爬虫程序再发起请求前,需要伪造浏览器(User-Agent指定请求头),然后再发起请求,这样响应地成功率比较高。

Python爬虫技术相关库

网络请求

urllib

requests

selenium(UI自动测试,动态js渲染)

appnium用于手机app爬虫或UI测试

数据处理/解析

re正则

xpath

bs4

json

数据存储

pymysql

mongodb

elasticsearch

多任务库

多线程(threading)

线程队列(queue)

协程(asynio、gevent/eventlet)

爬虫框架

scrapy

scrapy-redis分布式(多机爬虫)

常见反爬虫地策略

UA(User-Agent)策略

登陆限制(Cookie)策略

请求频次(IP代理)策略

验证码(图片-云打码,图片验证,滑块验证)

动态js(Selenium/Splash/api接口)策略


不嫌弃的点点关注,点点赞 ଘ(੭ˊᵕˋ)੭* ੈ✩‧₊˚

相关推荐
亿牛云爬虫专家2 小时前
Kubernetes下的分布式采集系统设计与实战:趋势监测失效引发的架构进化
分布式·python·架构·kubernetes·爬虫代理·监测·采集
iCxhust4 小时前
c# U盘映像生成工具
开发语言·单片机·c#
yangzhi_emo4 小时前
ES6笔记2
开发语言·前端·javascript
emplace_back5 小时前
C# 集合表达式和展开运算符 (..) 详解
开发语言·windows·c#
jz_ddk5 小时前
[学习] C语言数学库函数背后的故事:`double erf(double x)`
c语言·开发语言·学习
萧曵 丶6 小时前
Rust 所有权系统:深入浅出指南
开发语言·后端·rust
xiaolang_8616_wjl6 小时前
c++文字游戏_闯关打怪2.0(开源)
开发语言·c++·开源
收破烂的小熊猫~6 小时前
《Java修仙传:从凡胎到码帝》第四章:设计模式破万法
java·开发语言·设计模式
蹦蹦跳跳真可爱5896 小时前
Python----OpenCV(图像増强——高通滤波(索贝尔算子、沙尔算子、拉普拉斯算子),图像浮雕与特效处理)
人工智能·python·opencv·计算机视觉