一个爬虫主要的三个核心协议:http、https,wss
WSS协议用作视频的弹幕,实时更新的数据
网页中找到对应的接口,有动态接口和静态接口
动态数据是后端进行动态加载的
静态数据是纯静态资源,比如CSS、JS、HTML
先F12那里在浏览器设置代码折叠
在爬虫中,网页的F12的"元素"界面称之为DOM,如果没有DOM,那JS就不能生效
DOM文档对象模型,JS通过DOM来获取对象
F12源代码界面叫静态资源,这个界面里面的HTML文件和元素中的不太一样
只要在这里面找不到的数据,都是动态数据(除了加密的)
F12的网络界面是一个监听器,它并不是抓包的。抓包的定义是能修改、篡改
XHR:结构化动态数据
文档:静态的html数据
WS:上面说到的全称WSS
Wasm是一个加密机制
在F12的XHR中,刷新界面产生了两个接口,区分方法就看数据大小。数据大的里边有东西,可能是加密数据
右击内存大的接口,点复制-复制为cURL(base)
这个网站可以一键生成Python爬虫脚本
在Python PyCharm下边的终端里下载东西,有的时候你在CMD里下载PCHM识别不了是因为它们都是单独的,pycharm在你新建一个项目后会给你设置一个虚拟环境
在PyCharm右击代码打开终端,在这上面下载requests
pip install requests
headers:模拟浏览器的请求头
在最后面的代码加一个.json()
之后打印这个
response = requests.get().json()
print(response)
这样你就会得到和他一样的请求
在后面拼接是把它从服务器返回的数据类型进行转变
为什么加.json(),只要在浏览器中返回的数据是有大括号{},那他就是json型数据
这个指令是把它从HTTP响应的格式转换为Python的字典和列表
在浏览器的一处JS代码,把明文换成密文