学习路线:爬虫基础知识-requests模块-数据提取-selenium-反爬与反反爬-MongoDB数据库-scrapy-appium。
对应视频链接(百度网盘):正在整理中
爬虫基础知识:
1.爬虫的概念
总结:模拟浏览器,发送请求,获取响应。
2.爬虫的作用
数据采集
软件测试
抢票
网站上的投票
网络安全
3.爬虫的分类
数量
是否获取数据
url与数据的关系
4.爬虫的流程
url
发请求,获取响应
解析
5.http复习
http以及https的概念和区别
HTTPSH比HTTP更安全,但是性能更低
6.常见的请求头与响应头
请求头
host 域名
Connection 长连接
Upgrade-Insecure-Requests 升级为HTTPS请求
***User-Agent 用户代理,提供系统信息和浏览器信息
***Referer 页面跳转处,防盗链(图片/视频)
***Cookie 状态保持
响应头 Set-Cookie
7.状态码
所有的状态码都不可信,一切以是否从抓包得到的响应中获取到数据为准
network中抓包得到的源码才是判断依据,elements中的源码是渲染之后的源码
8.浏览器请求的过程
发送所有请求,进行渲染
爬虫
只发送指定请求,不会渲染
骨骼文件:html静态文件
肌肉文件:js/ajax请求
皮肤:css/font/图片
源代码 控制台 所有源代码 响应
Network:点刷新,可以看到响应