计算机网络——09Web-and-HTTP

Web and HTTP

一些术语

Web页：由一些对象组成
对象可以是HTML 文件、JPEG 图像，JAVA小程序，声音剪辑文件等
Web 页含有一个基本的HTML文件，该基本HTML文件又包含若干对象的引用（链接）
通过URL对每个对象进行引用
- 访问协议：用户名、口令字、端口等
URL格式：

url 复制代码

Port://user:psw@www.someSchool.edu/someDept/pic.gif:port

路径元素	含义
Port	协议名
user	用户
psw	口令
www.somSchool.edu	主机名
someDept/pic.gif	路径名
port	端口

用户口令可以不提供，即匿名访问

端口不填可以是默认的：http-80，ftp-21

HTTP概况

HTTP：超文本传输协议

Web的应用层协议
用户/服务器模式
- 客户：请求、接收和显示Web对象的浏览器
- 服务器：对请求进行响应，发送对象的Web服务器
HTTP 1.0: RFC 1945
HTTP 1.1: RFC 2068

使用TCP

客户发起一个与服务器的TCP 连接（建立套接字），端口号为80
服务器接受客户的TCP连接
在浏览器（HTTP 客户端）与Web 服务器（HTTP 服务器server ）交换HTTP报文（应用层协议报文）
TCP连接关闭

HTTP是无状态的

服务器并不维护关于客户的任何信息

维护状态的协议很复杂

必须维护历史信息（状态）
如果服务器/客户端死机，他们的状态可能不一致，二者的信息必须一致
无状态的服务器能够支持更多的客户端

HTTP连接

非持久HTTP

最多只有一个对象在TCP连接上发送
下载多个对象需要多个TCP连接
HTTP/1.0使用非持久连接

持久HTTP

多个对象可以在一个（在客户端和服务器之间的）TCP连接上传输
HTTP/1.1默认使用持久连接

非持久HTTP连接

响应时间模型

往返时间RTT：一个小的分组从客户端到服务器，在回到客户端的时间（传输时间忽略）
响应时间

一个RTT 用来发起TCP连接
一个RTT 用来HTTP 请求并等待HTTP响应
文件传输时间

共：2RTT + 传输时间

持久HTTP

非持久HTTP的缺点

每个对象要 2 个RTT
操作系统必须为每个TCP连接分配资源
但浏览器通常打开并行TCP连接，以获取引用对象

持久HTTP

服务器在发送响应后，仍保持TCP连接
在相同客户端和服务器之后的后续请求和响应报文通过相连的连接进行传送
客户端在遇到一个引用对象的时候，就可以尽快发送该对象的请求

非流水方式的持久HTTP

客户端只能在收到前一个响应后才能发出新的请求
每个引用对象花费一个RTT

流水方式的持久HTTP

HTTP/1.1的默认模式
客户端遇到一个引用对象就立即产生一个请求
所有引用（小）对象只花费一个RTT是可能的

HTTP请求报文

两种类型的HTTP 报文：请求、响应

HTTP请求报文

url 复制代码

GET /somedir/page.html HTTP/1.1
Host: www.someschool.edu
User-agent: Mozilla/4.0
Connection: close
Accept-language:fr

解析报文如下：

部分	举例	说明
请求行	GET /somedir/page.html HTTP/1.1	命令： GET：获取数据；POST：上载数据；HEAD：仅仅获取相应头部，搜索引擎使用改命令得到头部之后建立索引资源路径：`/somedir/page.html`协议/协议版本：`HTTP/1.1`
首部行	Host: www.someschool.edu User-agent: Mozilla/4.0 Connection: close Accept-language:fr
实体

HTTP请求报文：通用格式

sp是space空格

cr是回车

if是有可能有，有可能没有

提交表单输入

Post方式

网页通常包括表单输入
包含在实体主体中的输入被提交到服务器

URL方式

方法：GET
输入通过字段请求行的URL字段上载

方法类型

HTTP 1.0

GET
POST
HEAD
- 要求服务器咋响应报文中不包含请求对象 -> 故障跟踪

HTTP 1.1

GET、POST、HEAD
PUT
- 将实体主体中的文件上载到URL字段限定的路径
DELETE
- 删除URL字段限定的文件

HTTP响应报文

url 复制代码

HTTP/1.1 200 OK
Connection close
Date: Thu, 06 Aug 1998 12:00:15 GMT
Server: Apache/1.3.0 (Unix)
Last-Modified: Mon, 22 Jun 1998 ...... 
Content-Length: 6821
Content-Type: text/html


data data data data data ...

解析：

部分	举例	说明
状态行	HTTP/1.1 200 OK	HTTP/1.1是协议及版本，200是状态码，OK是状态码相应状态信息
首部行	Connection close Date: Thu, 06 Aug 1998 12:00:15 GMT Server: Apache/1.3.0 (Unix) Last-Modified: Mon, 22 Jun 1998 ...... Content-Length: 6821 Content-Type: text/html
数据	data data data data data ...

HTTP响应状态码

位于服务器 -> 客户端的响应报文中的首行

一些状态码的例子

状态码	状态信息	说明
200	OK	请求成功，请求对象包含在响应报文的后续部分
301	Moved Permanently	请求的对象己经被永久转移了;新的URL在响应报文的Location:首部行中指定；客户端软件自动用新的URL去获取对象
400	Bad Request	一个通用的差错代码，表示该请求不能被服务器解读
404	Not Found	请求的文档在该服务上没有找到
505	HTTP version Not supported	版本不支持

用户-服务器状态：cookies

大多数主要的门户网站使用cookies

4个组成部分

在HTTP 响应报文中有一个cookie的首部行
在HTTP 请求报文含有一个cookie的首部行
在用户端系统中保留有一个cookie文件，由用户的浏览器管理
在Web站点有一个后端数据库

Cookies:维护状态

Cookies能带来什么

用户验证
购物车
推荐
用户状态

如何维持状态

协议端节点：在多个事务上，发送端和接收端维持状态
cookies：http报文携带状态信息

Cookies与隐私

Cookies允许站点知道许多关于用户的信息
可能将他知道的东西卖给第三方
使用重定向和cookie的搜索引擎还可能知道用户的更多信息
广告公司从站点获得信息

Web缓存（代理服务器）

目标：不访问原始服务器，就满足客户的请求

用户设置浏览器：通过缓存访问Web
浏览器将所有的HTTP 请求发送给缓存：
- 在缓存中的对象：缓存直接返回对象
- 如对象不在缓存：缓存请求原始服务器，然后再将对象返回给客户端

Web缓存

缓存既是客户端又是服务器
通常缓存是由ISP安装

为什么要使用Web缓存

降低客户端的请求响应时间
可以大大减少一个机构内部网络与Internet接入链路上的流量
互连网大量采用了缓存：可以使较弱的ICP也能够有效提供内容

缓存示例

条件

平均对象大小 = 100kb（也就是请求的文件的平均大小是100kb）
机构内浏览器对原始服务器的平均请求率为 = 15请求/s
平均到浏览器的速率：1.5Mbps（100kb * 15请求/s）
接入链路带宽：1.54Mbps

相关数据计算：

各种延时计算(Internet延时、接入延时、LAN延时)
延时如下：
- Internet延时：公共网(public Internet)路由器到原始服务器再返回到路由器的的延时（ Internet 延时）= 2s；这个也是网络核心的延时吧
- 接入延时：不确定，不过有公式：接入延时（主要还是排队延时） d q u e u e d_{queue} dqueue = I(1-I) * L / R = 2min
- LAN延时：客户端到LAN路由器再返回客户端的时间，为10ms
流量强度和排队延时计算:
- 流量强度 I = 平均到达浏览器的速率 / 接入链路宽带
- 排队延时 = t q u e u e t_{queue} tqueue = I(1-I) * L / R
- L/R：一个分组的传输时间
结果:
- LAN的流量强度 = 15%
- 接入链路上的流量强度 = 99% （排队延迟会非常大，排队延迟会随着分组的流量强度越接近于1趋近于无穷，此时排队延迟会非常大）
- 总延时= LAN延时+ 接入延时+ Internet 延时 = ms + 分+ 2s

流量强度 = 平均到达浏览器的速率 / 接入链路宽带 = 1.5 / 1.54 = 0.99

优化方式

提高接入链路带宽
- 假设：
  - 平均对象大小 = 100kb
  - 机构内浏览器对原始服务器的平均请求率为 = 15请求/s
  - 平均到浏览器的速率：1.5Mbps
  - 接入链路带宽：1.54Mbps------> 154Mbps（带宽提升）
- 延时：
  - Internet延时机构内部路由器到原始服务器再返回到路由器的的延时 = 2s
  - LAN延时：客户端到LAN路由器再返回客户端的时间，为10ms
- 结果:
  - LAN的流量强度 = 15%
  - 接入链路上的流量强度 = 9.9%（可以看到强度降低了很多，排队延时也会下降）
  - 总延时 = LAN延时 + 接入延时 + Internet 延时 = ms + 分 + 2s
- 代价: 增加了接入链路带宽（非常昂贵！）
安装本地缓存
- 假设:
  - 平均对象大小 = 100kb
  - 机构内浏览器对原始服务器的平均请求率为 = 15请求/s
  - 平均到浏览器的速率：1.5Mbps
  - 机构内部路由器到原始服务器再返回到路由器的的延时（Internet 延时）= 2s
  - 接入链路带宽：1.54Mbps
- 结果:
  - LAN 利用率: 15%
  - 接入网络利用率：？
  - 总体延迟= ? 代价: web缓存(廉价!)

计算链路利用率，有缓存的延迟：

假设:
- 缓存命中率0.4：40%请求在缓存中被满足，其他60%的请求需要被原始服务器满足
- 接入链路利用率: 60%的请求采用接入链路
- 进过接入链路到达浏览器的数据速率 = 0.6*1.50 Mbps = 0.9 Mbps
- 利用率= 0.9/1.54 = 0.58
- 总体延迟 = 0.6 * (从原始服务器获取对象的延迟，也就是接入延时 + Internet延时) +0.4 * (从缓存获取对象的延迟，也就是LAN延时) = 0.6 * (2s) + 0.4 * (msecs，这个很小，所以几乎不看了) = 1.2 secs
- 比安装154Mbps链路还来得小 (而且比较便宜!)

条件GET方法

目标：如果缓存器中的对象拷贝是最新的，就不要发送对象
缓存器: 在HTTP请求中指定缓存拷贝的日期 If-modified-since:<date>
服务器: 如果缓存拷贝陈旧，则响应报文没包含对象: HTTP/1.0 304 Not Modified