网络原理————HTTP

1，HTTP简介

我们上一期谈到了网络编程尤其是TCP和UDP，使用网络套接字来实现网络编程，上一期忘记说了，我们使用TCP的时候，我们用了线程池，这样就可以处理很多客户端而不会阻塞，那么如果客户端一直一直增加，那么线程不是就会一直增加吗，太多的线程不就反噬了吗，这是就会有IO多路复用，这个是啥意思呢，本质上就是让一个线程干多个活，比如当前线程正在服务一个客户端，但是这个客户端一直不请求，比如停在输入就不动了，那么线程就会先去别的客户端完成任务，等客户端发出请求了再回来；

好啦，现在正式来学习我们新的内容吧，HTTP：

HTTP是什么呢？

HTTP是超文本传输协议，是一种广泛的应用层协议，HTTP往往是基于TCP协议实现的，例如HTTP1.0，但是HTTP3是基于UDP实现的，但是我们还是广泛使用HTTP1.1，应用层涉及的协议，其实有很多都是程序员自定的，那么如何自定协议呢？

第一步我们要明确传输的信息，第二步我们要约定组织信息的格式；

比如我们网购，就需要商家的id，商家的图片之类呀，而约定组织信息的格式就有很多了，比如：

1，行文本格式

可以直接写：1，商家241，商家点名....，商家商品.....可以直接这么写，这是很早之前的方案，在性能，安全性，和数据复杂性方面都是很弱的，我们直接淘汰它；

2，xml格式

还记得我们之前写JDBC的时候吗，我们在maven项目中导入过依赖，那个就是用的xml格式

这个就是xml格式，我们可以写

XML 复制代码

<Requset>
    <UsedId>1000<UsedId>
<Request>

响应的时候再把什么店名啥的放上去，但是这样的话我们会看到<UsedId> 这些玩意都重复的呀，我们服务器中最贵的就是带宽，我们用这个格式是很废带宽的，所以这个也不用；

3，json

这个是最常用的了，比如

javascript 复制代码

{
  useid : 12,
  name : "zhangsan"
}

这样也能表示我们要传递的信息，代码可读性更好了，并且比xml更节省带宽，但是还是存在冗余信息；

4，protobuf

基于二进制格式，对数据进行压缩，代码可读性很差，但是带宽消耗更小了；

我们当前所学的HTTP是javaWeb开发最核心的协议，一定要学好；

说这么多感觉在放屁嗷，你也没说HTTP到底是啥呀，我们在浏览器搜索网址时，我们输入一个URL，比如京东的网址，浏览器就把我们的HTTP请求发送给京东的服务器，服务器在接请求之后，返回一个HTTP响应，浏览器接收到HTTP请求之后就会解析，展示我们所看到的内容，HTTP呢就是应用层协议，TCP/IP是传输层协议，他们只在意传输的目标，而应用层协议在意的是我拿到这个请求，或者是响应之后我该怎么做........大家能懂不，简单来说，就是我们输入URL，就会有HTTP请求发送给服务器，服务器计算之后就会返回HTTP响应，浏览器就会解析HTTP响应；

另外HTTP是典型的一对一模式，请求就会有响应的响应，网络中还有其他模式，比如上传文件就是多问一答，下载文件就是一问多答；

2，HTTP协议格式

我们下面具体看看HTTP协议格式，我们要借助一个工具Fiddler，抓包工具，大家可以去官网下载，这个小玩意；

下面来简单介绍一下这个小玩意的使用，我们下载好后打开Fiddler，

左侧是我们抓到的所有HTTP和HTTPS请求，我刚才打开了DeepSeek的网址，抓到了一个蓝色的HTTP请求，我们点击它，

右上是请求报文，右下是响应报文，前提我们要点击那个Raw，这个就是我们的报文了，

我们可以点击这个就能在记事本中查看了，干嘛呢，太小了呀，所以在记事本中看，

左侧的报文可能有不同颜色的：

红色表示报错，

蓝色表示这个请求得到了个网页，

绿色表示是个js，

灰色表示这个响应的数据已经被缓存了；

Fiddler呢就是一个代理，它很清楚客户端和服务端的通信过程，就像点外卖，快递小哥很清楚用户买了什么和商家怎么做的，

下面我们来看请求和响应：

我们来抓一个搜狗的请求：

第一行我们叫首行，后面叫报头，之后是空行，可能有写请求会有正文，再来看响应

也是有首行，报头，空行，这会有正文了，不过看不懂嗷；

我们可以归纳一下请求和响应的协议格式：

我们一会儿再详细讲这些方法啥的，

Header，报头，请求的属性，用冒号分割的键值对，用\n分割，直到遇到空行Header部分结束；

Body，正文，空行后面都是正文，body允许为空字符串，如果body存在那么在Header中就会有Content_Length存在来标识body的长度，如果响应中服务器返回了html，那么html就会在body中；那么为啥要有空行呢，这有啥用呀，HTTP中没有规定报头的长度，我们为了区分报头跟正文，我们就使用空行当分隔符了，因为TCP是面向字节流的，如果没这个空行就发生黏包问题了。

3，HTTP请求（Request）

下面我们来具体了解下请求；

1，认识URL

URL呢是文件在互联网上的唯一标识符；

看这个京东的URL，我们来一步步解析，第一个Https:是协议名，后面的www,jd.com是域名，DNS协议会把它解析成对应的IP地址和端口号，这里没有，在问号前面可能还会有层次路径，问号后面是查询字符串，是以键值对的形式写入的，中间使用&分阁；

我们来举一个例子，我们想吃麻辣烫，我们去呼和浩特新城区的4号路的好吃麻辣烫买麻辣烫，有微辣，菌汤，和番茄味的，我们现在以URL的方式完成我们的请求：
http://呼和浩特新城区：4号路好吃麻辣烫/菌汤/香菇的?葱=多放&香菜=少放&辣椒=不要

这就是URL了，我们使用它表示网络上的各种资源，就像居民的身份证一样；

下面来介绍另一个东西URL encode，这个是啥呢，//和？还有&我们已经使用了，那么我们就想要传输这个//和？呢，我们需要转义它，我们就会把这个字符的二级制格式拿出来，把它转换成16进制前面在加上百分号，不仅仅是特殊符号，有些字符和汉字也是需要转义的；

2，认识"方法"

我们用FIddler抓包的时候，首行通常会写一个get或者post之类的，这个就是方法，方法意思就是这次请求要干什么；

我们需要了解的有4个方法，get，post，put，delete；

1，get

get方法是最常用的http请求，我们获取Http，css，js，输入URL等都是都会发送一个get请求，get请求，我们直接来抓一个get请求看看，

java 复制代码

GET https://www.sogou.com/ HTTP/1.1
Host: www.sogou.com
Connection: keep-alive
sec-ch-ua: "Microsoft Edge";v="135", "Not-A.Brand";v="8", "Chromium";v="135"
sec-ch-ua-mobile: ?0
sec-ch-ua-platform: "Windows"
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36 Edg/135.0.0.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
Sec-Fetch-Site: cross-site
Sec-Fetch-Mode: navigate
Sec-Fetch-User: ?1
Sec-Fetch-Dest: document
Referer: https://cn.bing.com/
Accept-Encoding: gzip, deflate, br, zstd
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6
Cookie: SUV=1711253676867268; SMYUV=1711253676867674; SUID=466C71745239A00A000000006610061C; cuid=AAHszzVlSwAAAAqgMxgVxQEANgg=; SNUID=D6541A8E50566020C39188E750E3FF67; IPLOC=CN1501; ABTEST=0|1745244093|v17

看下嗷，刚开始的方法名get，后面跟了URL和版本号，我们看最下面，没有正文，get请求通常是没正文的，我们会通过查询字符串传参；

并且get请求的URL长度是没有限制的取决于浏览器和HTTP服务端的实现；

2，post

post一般会适用于登录界面，或者是上传文件，post的body一般不为空，并且存在content_type和content_length来指定Header，

另外两个方法其实用的很少，我们大可以用get和post实现很多很多的功能，put和delete的存在感很低，我们可能会根据语义来规范使用，比如put是上传，delete是删除，

我们现在来谈谈post和get的区别吧：

其实是没有本质上的区别的，可以混着使用；

1，语义上不同，get用于获取数据，post用来提交数据

2，携带数据的方式不同，get通常是在查询字符串上，也可以在body中，但是少见；post的数据通常是在body中，也有很少的在查询字符串上

3，get请求是幂等的，但是post请求不是幂等的，幂等性是啥意思呢，如果多次请求得到的结果是一样的，我们就视为幂等的，但是现在get也会被设计成不幂等的，比如猜你喜欢

4，get可以被缓存，而post不能被缓存

关于安全性呢，有人可能会说get的查询字符串不就放上面了吗，我都能看到，post一般没有，那么post就比get安全，这种说法是错误的，因为post一抓个包，也是能看到的，安不安全取决于对它的加密程度；

还有说post的传输量大于get的，这个也是不准确的，因为没有明确规定post中body的长度和get的URL长度，取决于浏览器和服务器的实现；

还有一种错误的说法是get只能传输文本数据，post可以传输二进制数据，这种的说法也是错误的，虽然get的查询字符串确实只能传输文本数据，但是可以把二进制数据转化为16进制数据放到上面；

3，认识请求"报头"

下面我们正式来学习报头部分，刚才说这部分是键值对结构，我们来具体讲下都有什么需要关注的：

1）Host

表示服务器的地址和端口，

html 复制代码

GET https://www.sogou.com/ HTTP/1.1
Host: www.sogou.com
Connection: keep-alive
sec-ch-ua: "Microsoft Edge";v="135", "Not-A.Brand";v="8", "Chromium";v="135"
sec-ch-ua-mobile: ?0
sec-ch-ua-platform: "Windows"
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36 Edg/135.0.0.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
Sec-Fetch-Site: cross-site
Sec-Fetch-Mode: navigate
Sec-Fetch-User: ?1
Sec-Fetch-Dest: document
Referer: https://cn.bing.com/
Accept-Encoding: gzip, deflate, br, zstd
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6
Cookie: SUV=1711253676867268; SMYUV=1711253676867674; SUID=466C71745239A00A000000006610061C; cuid=AAHszzVlSwAAAAqgMxgVxQEANgg=; SNUID=D6541A8E50566020C39188E750E3FF67; IPLOC=CN1501; ABTEST=0|1745244093|v17

还是看这个，那个Host后面跟的就是服务器的地址和端口，有同学可能要问了，这个跟首行的URL不是一样吗，是一样的，但是如果我们使用代理的话就不一样了，使用代理，URL可能就会发生变化，但是Host里面的是不会变的，存储的是最原始的路径，我们后面使用HTTPS加密的时候也不会去处理URL，而是针对Header和正文部分加密；

2）Content-Length

html 复制代码

X-Ceto-ref: 6808e87e5e0746e2ad939775c5bb5a92|AFD:6808e87e5e0746e2ad939775c5bb5a92|2025-04-23T13:17:50.871Z
Content-Encoding: gzip
Expires: Wed, 23 Apr 2025 13:17:50 GMT
Cache-Control: max-age=0, no-cache, no-store
Pragma: no-cache
Date: Wed, 23 Apr 2025 13:17:50 GMT
Content-Length: 18962
Connection: keep-alive
Set-Cookie: _C_ETH=1; domain=.msn.cn; path=/; secure; httponly
Set-Cookie: _C_Auth=
Set-Cookie: USRLOC=; expires=Fri, 23 Apr 2027 13:17:50 GMT; domain=.msn.cn; path=/; secure; samesite=none; httponly
Alt-Svc: h3=":443"; ma=93600
Akamai-Request-BC: [a=60.221.202.1

这个是我随便截取的一个响应，我们可以看到有个content-Length :18962，这个表示呢body中的数据长度，单位是字节，有这一行键值对前提是要有body嗷，这玩意有啥用呢，我们开篇说过，我们现在常用的HTTP，版本小于2.0的，在传输层那是基于TCP实现的，HTTP协议呢，就是规定了TCP传输字符串的格式，比如首行之后是body呀，我们如果没有body的话读到空行就结束了，但是如果有body呢，那么长一坨坨，TCP是面向字节流的，TCP自己分不清哪到哪是一个有效的数据，所以就需要先读取Header中的content-Length，来明确自己在body中一次需要读取多少长度的字节；但是2.0版本之后HTTP使用UDP是不需要的，因为我们知道UDP是面向数据报；

3）Content-Type

表示请求数据的格式，显示了接收方需要如何解析body中的数据；

我们来看看都能解析什么数据：

1> HTML text/html 浏览器会解析标签，把标签转换成页面

2> CSS text/css 浏览器会解析选择器啥的，之后那这些样式应用到页面

3> JS application/javascript

4> JSON application/json

5> 图片 image/png ; image/jpg

博主知识有限..............反正呢，HTTP请求能包含很多格式，body可以传很多东西。

请求和响应呢，只要有body的话就一定有这两个属性，Content-Length和Content-Type，没有的话这个报文绝对是错误的；

4）User-Agent

User-Agent里面表示了了用户使用的设备，浏览器，还有操作系统的情况；

这个有啥用呢，以前呢，大家的浏览器版本是不一样的，存储空间都是很宝贵的，可能浏览器可以升级了，并且支持更多的功能了，一个网站就想升级下它的功能，但是呢，有很多用户是不喜欢升级的，我相信很多人都这样，不想踩坑嘛，那么怎么办，我们难道要放弃旧的用户吗，那肯定是不可能的，我们有了User-Agent就能知道当前用户的浏览器版，返回对应版本的网站响应，这也意味着程序员要更累了，维护两个版本的代码；还有一个用途是知道用户使用的设备，如果是手机返回手机的对应界面，如果是电脑端就返回电脑端的界面，虽然前端里好像有响应式什么什么来应对这个情况，但我们返回不同的版本也是个解决办法；

5) Referer

这个描述了当前页面是从哪个页面跳转过来的，我们来点个广告抓一下包，

抓包，可以看到嗷，这Referer是从搜狗来的，这里跟大家讲一个事，早期呢，大家都是使用HTTP的，各大广告平台会有一个按跳转次数计费，广告主和广告平台会去对跳转次数，但是广告主呢，总是少，最后有大佬发现了一个问题，就是运营商可以改他们的Referer，把Rerfer改成自己，那么这个广告钱不就归我了吗，这就是臭名昭著的运营商劫持，明晃晃的抢你的钱，后来大家使用了HTTPS才从技术上抵制了这样的影响；

这个是重点，大家好好理解一下：

我们这里讲一下cookie和session：

cookie是存储在客户端中，

session是存储在服务端的，

我们现在是客户端，我们要访问服务器，我们首先要登录，我们输入密码，如果密码正确了呢，就会生成一个sessionId，通过set-cookie把sessionId给客户端，同时服务端会生成一个session对象，把用户的关键信息都会保存到session对象中，服务端构建sessionId和Session对象作为键值对保存在服务端，而客户端被setCookie后内存中就有了sessionId，我们就可以拿着这个sessionId在服务器进行操作，并返回你需要的信息，但是一般setCookie是包含过期时间的，这就是为啥我们登录之后会有一段时间是不用登录的，但是时间太久了还是需要登录；

我们可以来举一个例子，我们去医院看病，医生会给我们发一个诊疗卡，因为医生很忙，是不会一个一个去记病人的，医生让你去抽血，做心电，都会让你刷诊疗卡并且更新你的信息，你做完一系列流程之后回到医生那，它又会去拿诊疗卡来看病，诊疗卡就相当于一个sessionId，我们去看病医生就会生成一个就诊卡，并且在电脑上有我们对应的信息，医生setCookie发给我们就诊卡，我们拿着就诊卡去看病；懂了没~

4，认识请求"正文"

接下来就是正文部分的内容了

这个是跟Header部分的Content-Type强相关的：

1)application/x-www-form-urlencoded

表单数据编码格式，数据编码为键值对，适用于简单文本数据的提交，不支持二级制数据，并且要符合URL编码；

2)multipart/form-data

混合数据类型（文本+二进制），支持文件上传，适用于登录场景，每个部分以 --boundary 开头，以 --boundary-- 结尾

`3)application/json`

以json形式传输结构化数据，支持复杂数据类型，