HTTP 报文详解

报文的语法

所有的 HTTP 报文都可以分为两类:请求报文和响应报文。请求报文会向 Web 服务器请求一个动作,响应报文会将请求的结果返回给客户端。请求和响应报文的基本报文结构相同

请求报文的格式:

<method> <request-URL> <version>
<headers>

<entity-body>

响应报文的格式:

<version> <status> <reason-phrase>
<headers>

<entity-body>

起始行

所有 HTTP 报文都以一个起始行作为开始,请求报文的起始行说明了要做些什么,响应报文的起始行说明发生了什么

1. 版本(version)

报文所使用的 HTTP 版本,格式如:HTTP/<major>.<minor>

其中主要版本号(major)和次要版本号(minor)都是整数

2. 方法(method)

方法用来告知服务器要做些什么,比如,GET 方法负责从服务器获取一个文档,POST 方法会向服务器发送需要处理的数据,OPTIONS 方法用于确定 Web 服务器的一般功能,或者 Web 服务器处理特定资源的能力

常用的 HTTP 方法如下:

  • GET:从服务器获取一份文档
  • HEAD:只从服务器获取文档的首部,从而在不获取资源的情况下了解资源的情况
  • POST:向服务器发送需要处理的数据
  • PUT:将请求的主体部分存储在服务器上
  • TRACE:客户端发起一个请求,中间可能会经过网关、防火墙等等应用程序,从而导致原始 HTTP 请求被篡改,Trace 请求可以对报文进行追踪,当服务器收到最终请求报文时,会返回客户端一个 Trace 响应告知它所收到的最终请求报文
  • OPTIONS:请求服务器告知其支持哪些方法
  • DELETE:从服务器上删除一份文档

3. 状态码(status)

状态码用来告诉客户端发生了什么事情。状态码在每条响应报文的起始行中返回,后跟一个原因短语便于理解。可以通过三位数字代码对不同状态码进行分类,200 到 299 之间的状态码表示成功,300 到 399 之间的代码表示资源已经被移走了,400 到 499 之间的代码表示客户端的请求出错,500 到 599 之间的代码表示服务器出错

4. 原因短语(reason-phrase)

为状态码提供文本形式的解释

首部(headers)

HTTP 首部字段向请求和响应报文中添加了一些附加信息,本质上来说,它们只是一些键值对的列表

HTTP 规范定义了几种首部字段,应用程序也可以随意发明自己所用的首部,HTTP 首部可以分为以下几类:

1. 通用首部

既可以出现在请求报文中,也可以出现在响应报文中

常用的信息性通用首部:

  • Connection:允许客户端和服务器指定与请求或响应连接有关的选项
  • Date:提供日期和时间标志,说明报文是什么时间创建的
  • MIME-Version:给出了发送端使用的 MIME 版本
  • Transfer-Encoding:告知接收端为了保证报文的可靠传输,对报文采用了什么编码方式
  • Update:给出了发送端可能想要升级使用的新版本或协议
  • Via:显示了报文经过的中间节点(代理、网关)

2. 请求首部

提供更多有关请求的信息

常用的信息性首部:

  • Client-IP:提供了运行客户端的机器的IP地址
  • From:提供了客户端用户的E-mail地址
  • Host:给出了接收请求的服务器的主机名和端口号
  • Referer:提供了包含当前请求URI的文档的URL
  • UA-OS:给出了运行在客户端机器上的操作系统名称及版本
  • User-Agent:将发起请求的应用程序名称告知服务器

Accept 首部为客户端提供了一种将其喜好和能力告知服务器的方式,包括它们想要什么,可以使用什么,以及最重要的,它们不想要什么。这样,服务器就可以根据这些额外信息,对要发送的内容做出更明智的决定

Accept 首部:

  • Accept:告诉服务器能够发送哪些媒体类型
  • Accept-Charset:告诉服务器能够发送哪些字符集
  • Accept-Encoding:告诉服务器能够发送哪些编码方式
  • Accept-Language:告诉服务器能够发送哪些语言

有时客户端希望为请求加上某些限制,比如,客户端已经有了一份文档副本,希望只在服务器上的文档与客户端拥有的副本有所区别时,才请求服务器传输文档。通过条件请求首部,客户端就可以为请求加上这种限制,要求服务器在对请求进行响应之前,确保某个条件为真

条件请求首部:

  • Expect:允许客户端列出某请求所要求的服务器行为
  • If-Match:如果实体标记与文档当前的实体标记相匹配,就获取这份文档
  • If-Modified-Since:除非在某个指定的日期之后资源被修改过,否则就限制这个请求
  • If-None-Match:如果提供的实体标记与当前文档的实体标记不相符,就获取文档
  • If-Range:允许对文档的某个范围进行条件请求
  • If-Unmodified-Since:除非在某个指定日期之后资源没有被修改过,否则就限制这个请求
  • Range:如果服务器支持范围请求,就请求资源的指定范围

HTTP 本身就支持一种简单的机制,这种机制要求客户端在获取特定的资源之前,先对自身进行认证

安全请求首部:

  • Authorization:包含了客户端提供给服务器,以便对其自身进行认证的数据
  • Cookie:客户端用它向服务器传送一个令牌

随着代理的普遍应用,定义了几个代理首部协助其工作

代理请求首部:

  • Max-Forward:在通往源端服务器的路径上,将请求转发给其他代理或网关的最大次
    数,往往与 TRACE 方法一同使用
  • Proxy-Authorization:与 Authorization 首部相同,但这个首部是在与代理进行认证时使用的
  • Proxy-Connection:与 Connection 首部相同,但这个首部是在与代理建立连接时使用的

3. 响应首部

提供更多有关响应的信息,比如谁在发送响应,响应者的功能,有助于客户端更好的处理请求

4. 实体首部

描述主体的长度和内容,或者资源自身

实体的信息性首部如下:

  • Allow:列出了可以对此实体执行的请求方法
  • Location:告知客户端实体实际上位于何处,用于重定向

内容首部提供了与实体内容有关的特定信息,说明了其类型、尺寸以及处理它所需的其他有用信息

  • Content-Base:解析主体中的相对 URL 时使用的基础 URL
  • Content-Encoding:对主体执行的任意编码方式
  • Content-Language:理解主体时最适宜使用的自然语言
  • Content-Length:主体的长度或尺寸
  • Content-Location:资源实际所处的位置
  • Content-MDS:主体的 MD5 校验和
  • Content-Range:在整个资源中此实体表示的字节范围
  • Content-Type:这个主体的对象类型

缓存首部提供了与被缓存实体有关的信息

  • Expires:实体不再有效,需要重新获取
  • Last-Modified:实体最后一次被修改的日期和时间

主体部分(entity-body)

主体部分就是 HTTP 要传输的内容