python爬虫入门(一)之HTTP请求和响应

一、爬虫的三个步骤(要学习的内容)

1、获取网页内容 (HTTP请求、Requests库)

2、解析网页内容 (HTML网页结构、Beautiful Soup库)

3、存储或分析数据

b站学习链接:

【【Python+爬虫】爆肝两个月!拜托三连了!这绝对是全B站最用心(没有之一)的Python+爬虫公开课程,从入门到(不)入狱 !】 https://www.bilibili.co/video/BV1d54y1g7db/?share_source=copy_web&vd_source=7e5d8bc8e5429bc3a99a6b8e86b901f8

二、HTTP

1、什么是HTTP?

http: Hypertext Transfer Protocol(超文本传输协议)

客户端和服务器之间的请求-响应协议

eg: 浏览器可看作一个服务端,在浏览器中输入网址,

浏览器就会向运行该网站的服务器发送请求,

然后等待服务器返回给浏览器响应

2、HTTP的两种请求方法

1、GET(获得数据)

大部分用get

2、POST(创建数据)

3、HTTP请求的组成结构

(1)请求行:

POST / user / info ? new_user=true HTTP / 1.1

方法类型 资源路径?查询参数 HTTP的协议版本

资源路径:指明要访问服务器的哪个资源

查询参数:写在?后面,传递给服务器额外的信息,不同信息之间用&分隔

eg: www.douban.com / movie /top250 ?start=75&filter=unwatched

主机域名 (+资源路径)(+查询参数)== 网址

(2)请求头:

Host: www.douban.com 主机域名

User-Agent: curl /7.77.0 用来告知服务器客户端的相关信息

请求是什么东西发出来的,以及这个东西的版本

eg: curl / 7.77.0(curl命令行工具发出的)

python-requests / 2.25.1 (python的requests库发出的)

Accept: */* 告诉服务器,客户端想接收的响应数据的类型

eg: 接受HTML:text / html

接受HTML和JOSN:text / html, application / json (多种类型用逗号分隔开)

接受任意类型:*/*

(3)请求体:客户端传给服务器的其他任意数据

(GET的请求体一般是空的)

{"username":"西瓜大侠",

"email":"3380958706@qq.com"}

简言之,HTTP请求由三部分组成:

请求行:用什么方法查询什么资源 + HTTP的版本

请求头:主机域名 + 客户端是什么及其版本 + 客户端想接受的响应类型

(where who what 服务器在哪儿 客户端是谁 客户端想要什么)

请求体:客户端的其他数据

4、HTTP响应的组成结构

(1)状态行:

HTTP / 1.1 200 OK

协议版本 状态码 状态消息

状态码和状态消息相对应:

2开头:表示请求成功

3开头:表示重定向,需要进一步的操作

4开头:表示客户端错误(请求不能被理解、请求未授权或404请求的资源不存在...)

5开头:表示服务器错误(出现问题或正在维护)

(2)响应头:包含一些告知客户端的信息

Date: Fri, 27 Jan 2023 02:10:48 GMT 生成相应的日期和时间

Content-Type: text/html; charset=utf-8 返回内容的类型及编码格式

(3)响应体:服务器想给客户端的数据内容

相关推荐
小石24 分钟前
Python 装饰器核心知识点:无参装饰器构建、带参装饰器扩展及函数与类实现差异
python
巴厘猫1 小时前
从 Manim 中提取表格 / 坐标系并转 GIF:实用方案与核心代码
python·音视频开发
老歌老听老掉牙1 小时前
Pandas DataFrame 列数操作完全指南
python·pandas
数据智能老司机2 小时前
Python 实战遗传算法——遗传算法导论
python·算法·机器学习
让心淡泊1442 小时前
DAY 58 经典时序预测模型2
python
love530love2 小时前
怎么更新 cargo.exe ?(Rust 工具链)
人工智能·windows·python·rust·r语言
code bean2 小时前
【C#】获取不重复的编码(递增,非GUID)
开发语言·c#
闲人编程2 小时前
PyQt6 进阶篇:构建现代化、功能强大的桌面应用
数据库·python·oracle·gui·脚本·pyqt6·软件
阿里嘎多哈基米2 小时前
二、JVM 入门——(三)栈
java·开发语言·jvm·线程·
不枯石3 小时前
Python计算点云的欧式、马氏、最近邻、平均、倒角距离(Chamfer Distance)
python·计算机视觉