Python爬虫基础第一章,JSON

一个爬虫主要的三个核心协议:http、https,wss

WSS协议用作视频的弹幕,实时更新的数据

网页中找到对应的接口,有动态接口和静态接口

动态数据是后端进行动态加载的

静态数据是纯静态资源,比如CSS、JS、HTML

先F12那里在浏览器设置代码折叠

在爬虫中,网页的F12的"元素"界面称之为DOM,如果没有DOM,那JS就不能生效

DOM文档对象模型,JS通过DOM来获取对象

F12源代码界面叫静态资源,这个界面里面的HTML文件和元素中的不太一样

只要在这里面找不到的数据,都是动态数据(除了加密的)

F12的网络界面是一个监听器,它并不是抓包的。抓包的定义是能修改、篡改

XHR:结构化动态数据

文档:静态的html数据

WS:上面说到的全称WSS

Wasm是一个加密机制

在F12的XHR中,刷新界面产生了两个接口,区分方法就看数据大小。数据大的里边有东西,可能是加密数据

右击内存大的接口,点复制-复制为cURL(base)

curlconverter.com

这个网站可以一键生成Python爬虫脚本

在Python PyCharm下边的终端里下载东西,有的时候你在CMD里下载PCHM识别不了是因为它们都是单独的,pycharm在你新建一个项目后会给你设置一个虚拟环境

在PyCharm右击代码打开终端,在这上面下载requests

pip install requests

headers:模拟浏览器的请求头

在最后面的代码加一个.json()

之后打印这个

response = requests.get().json()

print(response)

这样你就会得到和他一样的请求

在后面拼接是把它从服务器返回的数据类型进行转变

为什么加.json(),只要在浏览器中返回的数据是有大括号{},那他就是json型数据

这个指令是把它从HTTP响应的格式转换为Python的字典和列表

在浏览器的一处JS代码,把明文换成密文

相关推荐
不知名的老吴2 分钟前
线程的生命周期之线程“插队“
java·开发语言·python
数据知道26 分钟前
斩断 `navigator` 前端:底层重写 UserAgent/Platform/Language 属性描述符
爬虫·数据采集·指纹浏览器·浏览器指纹
xsc6996751 小时前
从零搭建大模型与智能体平台 - 完整技术详解
python
无风听海2 小时前
多租户系统中的 OIDC:Discovery 端点与联合登录的深度实践
后端·python·flask
CTA终结者3 小时前
期货量化主力换月程序怎么移仓:天勤 underlying_symbol 与任务切换
python·区块链
马士兵教育3 小时前
Java还有前景吗?Java+AI大模型学习路线及项目?
java·人工智能·python·学习·机器学习
KaMeidebaby3 小时前
卡梅德生物技术快报|纯化重组蛋白实操详解
人工智能·python·tcp/ip·算法·机器学习
Cloud_Shy6183 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第五章 Item 30 - 32)
开发语言·人工智能·笔记·python·学习方法
天佑木枫4 小时前
15天Python入门系列 · 序
开发语言·python
happylifetree4 小时前
Python017-第二章15.数据容器-dict常用操作
python