文章目录
- 应用层
- [1. 客户/服务器方式和对等方式](#1. 客户/服务器方式和对等方式)
-
- [1.1 客户/ 服务器方式](#1.1 客户/ 服务器方式)
- [1.2 对等方式](#1.2 对等方式)
- [2. 动态主机配置协议](#2. 动态主机配置协议)
-
- [2.1 动态主机配置协议的作用](#2.1 动态主机配置协议的作用)
- [2.2 动态主机配置协议的工作过程](#2.2 动态主机配置协议的工作过程)
-
- [2.2.1 DHCP报文的封装](#2.2.1 DHCP报文的封装)
- [2.2.2 DHCP的基本工作过程](#2.2.2 DHCP的基本工作过程)
- [2.3 DHCP中继代理](#2.3 DHCP中继代理)
- [3. 域名系统](#3. 域名系统)
-
- [3.1 域名系统的作用](#3.1 域名系统的作用)
- [3.2 因特网的域名结构](#3.2 因特网的域名结构)
- [3.3 因特网上的域名服务器](#3.3 因特网上的域名服务器)
- [3.4 因特网的域名解析过程](#3.4 因特网的域名解析过程)
-
- [3.4.1 递归查询](#3.4.1 递归查询)
- [3.4.2 迭代查询](#3.4.2 迭代查询)
- [3.5 域名系统高速缓存](#3.5 域名系统高速缓存)
- [4. 文件传送协议](#4. 文件传送协议)
-
- [4.1 文件传送协议的作用](#4.1 文件传送协议的作用)
- [4.2 文件传送协议的基本工作原理](#4.2 文件传送协议的基本工作原理)
-
- [4.2.1 主动模式](#4.2.1 主动模式)
- [4.2.2 被动模式](#4.2.2 被动模式)
- [5. 电子邮件](#5. 电子邮件)
-
- [5.1 电子邮件的作用](#5.1 电子邮件的作用)
- [5.2 电子邮件系统的组成](#5.2 电子邮件系统的组成)
- [5.3 电子邮件的发送和接收过程](#5.3 电子邮件的发送和接收过程)
- [5.4 简单邮件传送协议的基本工作过程](#5.4 简单邮件传送协议的基本工作过程)
- [5.5 电子邮件的信息格式](#5.5 电子邮件的信息格式)
- [5.6 多用途因特网邮件扩展](#5.6 多用途因特网邮件扩展)
- [5.7 常用的邮件读取协议 POP3 和IMAP4](#5.7 常用的邮件读取协议 POP3 和IMAP4)
- [5.8 基于万维网的电子邮件](#5.8 基于万维网的电子邮件)
- [6. 万维网](#6. 万维网)
-
- [6.2 统一资源定位符](#6.2 统一资源定位符)
- [6.3 万维网文档](#6.3 万维网文档)
- [6.4 超文本传输协议](#6.4 超文本传输协议)
-
- [6.4.1 HTTP的操作过程](#6.4.1 HTTP的操作过程)
- [6.4.2 HTTP的报文格式](#6.4.2 HTTP的报文格式)
- [6.5 使用Cookie在服务器上记录信息](#6.5 使用Cookie在服务器上记录信息)
- [6.6 万维网缓存与代理服务器](#6.6 万维网缓存与代理服务器)
应用层
应用层是作为法律标准的OSI体系结构的顶层,它是离用户最近的一层,也是设计和建立计算机网络的最终目的。
应用层的主要任务是通过应用进程的交互来实现特定网络应用。
1. 客户/服务器方式和对等方式
我们知道,网络应用程序运行在处于网络边缘的不同端系统上,通过彼此间的通信来共同完成某项任务。因此,开发一种新的网络应用首先要考虑的问题,就是网络应用程序在各种端系统上的组织方式和它们之间的关系,目前流行的主要有两种:
- 客户/服务器(Client/Server,C/S)方式。
- 对等(Peer-to-Peer,P2P)方式。
1.1 客户/ 服务器方式
客户和服务器是指通信中所涉及的两个应用进程。客户/服务器方式所描述的是进程之间服务和被服务的关系。
如图所示,处于网络边缘的主机A中运行的是客户程序,正在运行的客户程序称为客户进程,也可简称为客户。处于网络边缘的主机B中运行的是服务器程序,正在运行的服务器程序称为服务器进程,也可简称为服务器。
在C/S方式下,客户向服务器请求服务,服务器收到服务请求后向客户提供服务。换句话说,客户是服务的请求方,服务器是服务的提供方。服务器总是处于运行状态并等待客户的服务请求。服务器具有固定的运输层端口号(例如Web服务器的默认端口号为80),而运行服务器程序的主机也具有固定的IP地址。
C/S方式是因特网上传统的也是最成熟的方式,很多人们熟悉的网络应用采用的都是C/S方式。包括万维网、文件传送以及电子邮件等。
基于C/S方式的应用服务通常是服务集中型的,也就是应用服务集中在网络中比客户计算机少得多的服务器计算机上。由于一台服务器计算机要为多个客户计算机提供服务,在C/S应用中,常会出现服务器计算机跟不上众多客户计算机请求的情况。为此,在C/S应用中,常用计算机群集(或服务器场)来构建一个强大的虚拟服务器。
1.2 对等方式
在对等方式中,没有固定的服务请求者和服务提供者,分布在网络边缘各端系统中的应用进程是对等的,被称为对等方。对等方相互之间直接通信,每个对等方既是服务的请求者,又是服务的提供者。
如图所示。处于网络边缘的主机C、D、E和F中运行着同一种P2P程序(例如某种网络下载工具软件)。E和F中的P2P进程互为对等方,C和D中的P2P进程互为对等方,而E中的P2P进程还和D中的P2P进程互为对等方。可以想象成E的P2P进程正在从F下载文件,与此同时还为D的P2P进程提供下载服务。
目前,在因特网上流行的P2P应用主要包括P2P文件共享、即时通信、P2P流媒体以及分布式存储等。
基于P2P的应用是服务分散型的,因为服务不是集中在少数几个服务器计算机中,而是分散在大量对等计算机中,这些计算机并不由服务提供商所有,而是由个人控制的笔记本电脑和台式电脑,它们通常位于住宅、校园和办公室中。
P2P方式的最突出特性之一就是它的可扩展性。因为系统每增加一个对等方,不仅增加的是服务的请求者,同时也增加了服务的提供者,系统性能不会因为规模的增大而降低。P2P方式具有成本上的优势,因为它通常不需要庞大的服务器设施和服务器带宽。
2. 动态主机配置协议
2.1 动态主机配置协议的作用
动态主机配置协议(DHCP)可为计算机自动配置网络参数,使得计算机"即插即联网"(Plug-and-Play Networking)。
使用TCP/IP协议栈的主机,需要配置相关的网络参数,才能与因特网上的主机进行通信,这些网络参数一般包括以下几类:
- IP地址
- 子网掩码
- 默认网关的IP地址
- 域名服务器的I地址
在计算机的操作系统中,一般会为用户提供配置上述网络参数的图形用户界面或命令行工具,以方便用户将这些网络参数配置在一个特定的配置文件中,计算机每次启动时读取该配置文件,进行网络参数配置。
然而,由用户配置网络参数可能会存在以下不便:
- 对于经常改变使用地点的笔记本电脑(家中、办公室或实验室),由用户配置网络参数既不方便,又容易出错。
- 对于网络管理员,要给网络中大量主机手工配置网络参数也是一项费时费力且容易出错的工作。
因此,需要采用动态主机配置协议(DHCP)来解决以上问题。
2.2 动态主机配置协议的工作过程
2.2.1 DHCP报文的封装
DHCP使用客户/服务器方式,在DHCP服务器上运行DHCP服务器进程,也可简称为DHCP服务器,在用户主机上运行DHCP客户进程,也可简称为DHCP客户。
DHCP是TCP/IP体系结构应用层中的协议,它使用运输层的UDP所提供的服务。
DHCP报文逐层封装的过程具体解释如下:
- DHCP报文在运输层被封装成UDP用户数据报。DHCP服务器使用的UDP端口号为67,DHCP客户使用的UDP端口号是68,这两个UDP端口号都是熟知端口号。
- 封装有DHCP报文的UDP用户数据报在网际层会被封装成IP数据报,然后再根据所使用的网络接口,封装成相应的数据链路层的帧(例如以太网帧)进行发送。
2.2.2 DHCP的基本工作过程
如图所示,假设网络中有两台DHCP服务器和多台用户主机,为了简单而有效地描述DHCP的工作过程,图中仅给出了这两台DHCP服务器和一台用户主机。DHCP客户与DHCP服务器的交互过程如下:
1)当启用主机的DHCP后,DHCP客户将广播发送DHCP发现报文(DHCP DISCOVER)。封装该报文的IP数据报的源I地址为0.0.0.0,这是因为主机目前还未分配到IP地址,因此使用该地址来代替;目的IP地址为广播地址255.255.255.255,使用广播发送的原因是主机当前并不知道网络中有哪几个DHCP服务器,也不知道它们的I地址各是什么。由于是广播的IP数据报,因此网络中的所有设备都会收到该IP数据报,并对其层层解封,解封出封装有DHCP发现报文的UDP用户数据报。
- 对于DHCP客户,其应用层没有监听该UDP用户数据报目的端口号67的进程(也就是DHCP服务器进程),因此无法交付DHCP发现报文,只能丢弃。
- 对于DHCP服务器,其应用层始终运行着DHCP服务器进程,因此会接受该DHCP发现报文并做出响应。
2)DHCP服务器收到DHCP发现报文后,根据其中封装的DHCP客户端的MAC地址来查找自己的数据库,看是否有针对该MAC地址的配置信息。如果有,则使用这些配置信息来构建并发送DHCP提供报文(DHCP OFFER);如果没有,则采用默认配置信息来构建并发送DHCP提供报文。封装DHCP提供报文的IP数据报的源IP地址为DHCP服务器的IP地址,目的地址仍为广播地址。仍然使用广播地址的原因是,主机目前还没有配置IP地址,为了使主机可以收到,只能发送广播。这样一来,网络中的所有设备都会收到该IP数据报,并对其层层解封,解封出封装有DHCP提供报文的UDP用户数据报。
- 对于DHCP服务器,其应用层没有监听该UDP用户数据报目的端口号68的进程(也就是DHCP客户进程),因此无法交付DHCP提供报文,只能丢弃。
- 对于DHCP客户,其应用层运行着DHCP客户进程,因此会接受该DHCP提供报文并做出相应处理。DHCP客户会根据DHCP提供报文中的事务ID来判断该报文是否是自己所请求的报文。也就是说,如果该事务ID与自己之前发送的DHCP发现报文中封装的事务ID相等,就表明这是自己所请求的报文,就可以接受该报文,否则就丢弃该报文。DHCP提供报文中还封装有配置信息,例如IP地址、子网掩码、地址租期、默认网关的I地址以及DNS服务器的IP地址等。
3)DHCP客户向所选择的DHCP服务器发送DHCP请求报文(DHCP REQUEST)。封装该报文的IP数据报的源地址仍为0.0.0.0,因为此时DHCP客户才从多个DHCP服务器中挑选了一个作为自己的DHCP服务器,它首先需要征得该服务器的同意,之后才能正式使用该DHCP服务器租用的IP地址。目的IP地址仍为广播地址255.255.255.255,这样做的目的是不用向网络中的每一个DHCP服务器单播发送DHCP请求报文,来告知它们是否请求它们作为自己的DHCP服务器。在本例中,假设DHCP客户选择DHCP服务器1作为自己的DHCP服务器,并且DHCP服务器1接受该请求。
4)DHCP服务器1给DHCP客户发送DHCP确认报文(DHCPACK)封装该报文的IP数据报的源地址为DHCP服务器1的IP地址,目的IP地址仍为广播地址DHCP客户收到该确认报文段后,就可以使用所租用到的IP地址了。
5)当IP地址的租用期过了一半时,DHCP客户会向DHCP服务器发送DHCP请求报文来请求更新租用期。与第一次发送的DHCP请求报文不同,封装该报文的IP数据报的源地址为DHCP客户之前租用到的IP地址,目的IP地址为DHCP服务器1的地址。
6)DHCP服务器收到用于续租的DHCP请求报文时,分以下三种情况处理:
- DHCP服务器同意DHCP客户续租该IP地址,给DHCP客户发送DHCP确认报文。这样,DHCP客户就得到了新的租用期。
- DHCP服务器不同意DHCP客户续租该IP地址,给DHCP客户发送DHCP否认报文(DHCP NACK)。DHCP客户收到DHCP否认报文后,必须立即停止使用之前租用的IP地址,并重新发送DHCP发现报文来重新申请IP地址。
- DHCP服务器未做出响应,则在租用期过了87.5%时,DHCP客户必须重新发送DHCP请求报文,然后继续等待DHCP服务器可能做出的响应。若DHCP服务器未做出响应,则当租用期到期后,DHCP客户必须立即停止使用之前租用的IP地址,并重新发送DHCP发现报文来重新申请IP地址。
7)DHCP客户可以随时提前终上DHCP服务器所提供的租用期,这时只需要向DHCP服务器发送DHCP释放报文(DHCP RELEASE)即可。封装该报文的IP数据报的源IP地址为0.0.0.0,目的IP地址为255.255.255.255。
综上所述,DHCP的基本工作过程如下:
(1)DHCP客户寻找DHCP服务器。
(2)DHCP服务器向DHCP客户提供IP地址租用。
(3)DHCP客户接收IP地址租约。
(4)DHCP服务器确认IP地址租约。
(5)DHCP客户进行IP地址续约。
(6)DHCP客户可以随时解除IP地址租约。
2.3 DHCP中继代理
为了使路由器能够给DHCP服务器转发广播报文,需要给该路由器配置DHCP服务器的IP地址并使之成为DHCP中继代理。这样,该网络中的各主机就可以通过DHCP来自动获取到网络配置参数了。当成为DHCP中继代理的路由器收到广播的DHCP发现报文后,会将其单播转发给DHCP服务器。
使用DHCP中继代理的主要原因是我们并不愿意在每一个网络上都设置一个DHCP服务器,因为这样会使DHCP服务器的数量太多。
3. 域名系统
3.1 域名系统的作用
人们使用主机中的浏览器访问因特网中各种网站的资源,是因特网上最常见的网络应用。用户只要在主机中运行某个浏览器软件,在其地址栏中输入要访问的网站服务器的域名,即可访问该网站。
因特网是通过IP地址进行寻址的。换句话说,即使不使用域名也可以通过IP地址在网际层寻址目的主机。但在应用层使用域名与在网际层使用IP地址相比,便于人们记忆。因此,对于大多数因特网应用,一般使用域名来访问目的主机,而不是直接使用IP地址来访问。
上图给出了通过域名cnnic.net.cn访问中国互联网络信息中心网站时用户主机将其域名转换成相应I地址的简化示意过程。
1)当用户在主机的浏览器地址栏中输入域名cnnic.net.cn时,主机会首先在自己的DNS缓存中查找该域名所对应的IP地址。
2)如果没有找到,则会向因特网中的某台DNS服务器查询。
3)DNS服务器中有域名和IP地址映射关系的数据库。DNS服务器收到DNS查询报文后,在其数据库中进行查询,并将查询结果发送给用户主机。
4)之后,用户主机中的浏览器就可以通过域名背后的IP地址来访问该网站了。
3.2 因特网的域名结构
因特网采用层次树状结构的域名结构。域名的结构由若干个分量组成,各分量之间用点"."隔开,分别代表不同级别的域名。
每一级的域名都由英文字母和数字组成,不超过63个字符,也不区分大小写字母。级别最低的域名写在最左边,而级别最高的顶级域名写在最右边,完整的域名不超过255个字符。
域名系统既不规定一个域名需要包含多少个下级域名,也不规定每一级的域名代表什么意思。各级域名由其上一级的域名管理机构管理,而最高的顶级域名由因特网名称与数字地址分配机构ICANN进行管理。
顶级域名(Top Level Domain, TLD)分为以下三类:
- 国家顶级域名(nTLD):如cn表示中国,us表示美国,uk表示英国,等等。
- 通用顶级域名(gTLD):最常见的通用顶级域名有七个,com表示公司企业,nct表示网络服务机构,org表示非营利性组织,int表示国际组织,edu表示美国教育机构,gov表示美国政府部门,mil表示美国军事部门。
- 反向域(arpa):用于反向域名解析,即IP地址反向解析为域名。
在国家顶级域名下注册的二级域名均由该国家自行确定。。
我国将二级域名划分为以下两类:
- 类别域名:共七个,ac表示科研机构,com表示工、商、金融等企业,edu表示教育机构,gov表示政府部门,net表示提供网络服务的机构,mil表示军事机构,org表示非营利性组织。
- 行政区域名:共34个,适用于我国的各省、自治区和直辖市。例如bj为北京市,sh为上海市,js为江苏省,等等。
需要注意的是,名称相同的域名其等级未必相同。例如,com是顶级通用域名,但我国顶级域名下也有一个名称为com的二级域名。
因特网的域名实际上是一棵倒着生长的树:
3.3 因特网上的域名服务器
域名和IP地址的对应关系必须保存在域名服务器中(也称为DNS服务器),供所有其他应用查询。综合考虑性能、安全以及可靠等多种因素,不能将所有信息都储存在一台域名服务器中。域名系统DNS使用分布在各地的域名服务器来实现域名到IP地址的转换。域名服务器可以划分为四种不同的类型:
- 根域名服务器:这是最高层次的域名服务器。每个根域名服务器都知道所有的顶级域名服务器的域名和IP地址。因特网上共有13个不同IP地址的根域名服务器。尽管将这13个根域名服务器中的每一个都视为单个的服务器,但"每台服务器"实际上是由许多分布在世界各地的计算机构成的服务器群集。当本地域名服务器向根域名服务器发出查询请求时,路由器就把查询请求报文转发到离这个DNS客户最近的一个根域名服务器。这就加快了DNS的查询过程,同时也更合理地利用了因特网的资源。根域名服务器通常并不直接对域名进行解析,而是返回该域名所属顶级域名的顶级域名服务器的IP地址。
- 顶级域名服务器:这些域名服务器负责管理在其下注册的所有二级域名。当收到DNS查询请求时就给出相应的回答。这可能是最终的查询结果,也可能是下一级权限域名服务器的IP地址。
- 权限域名服务器:这些域名服务器负责管理某个区的域名。每一个主机的域名都必须在某个权限域名服务器处注册登记。因此权限域名服务器知道其管辖的域名与IP地址的映射关系。另外,权限域名服务器还知道其下级域名服务器的地址。
- 本地域名服务器:本地域名服务器不属于上述的域名服务器的等级结构。当一个主机发出DNS请求报文时,这个报文就首先被送往该主机的本地域名服务器。本地域名服务器起着代理的作用,会将该报文转发到上述的域名服务器的等级结构中。每个因特网服务提供者,一个大学,甚至一个大学里的学院,都可以拥有一个本地域名服务器,它有时也称为默认域名服务器。本地域名服务器离用户较近,一般不超过几个路由器的距离,也有可能就在同一个局域网中。本地域名服务器的IP地址需要直接配置在需要域名解析的主机中。
3.4 因特网的域名解析过程
因特网有两种域名查询方式:递归查询和迭代查询,下面举例说明上述两种域名查询方式。
3.4.1 递归查询
假设主机想知道域名y.abc.com的IP地址,具体过程如下:
1)主机首先向其本地域名服务器进行递归查询。
2)本地域名服务器收到递归查询的"委托"后,采用递归查询的方式向某个根域名服务器查询。
3)根域名服务器收到递归查询的"委托"后,采用递归查询的方式向某个顶级域名服务器查询。
4)顶级域名服务器收到递归查询的"委托"后,采用递归查询的方式向某个权限域名服务器查询。
5)当查询到域名所对应的IP地址后,查询结果会在之前受"委托"的各域名服务器之间传递,最终传回给用户主机。
3.4.2 迭代查询
假设主机想知道域名y.abc.com的IP地址,具体过程如下:
1)主机首先向其本地域名服务器进行递归查询。
2)本地域名服务器采用迭代查询,它先向某个根域名服务器查询。
3)根域名服务器告诉本地域名服务器下一次应查询的顶级域名服务器的IP地址。
4)本地域名服务器向顶级域名服务器进行迭代查询。
5)顶级域名服务器告诉本地域名服务器下一次应查询的权限域名服务器的IP地址。
6)本地域名服务器向权限域名服务器进行迭代查询。
7)权限域名服务器告诉本地域名服务器所查询的域名的IP地址。
8)本地域名服务器最后把查询结果告诉用户主机。
由于递归查询对于被查询的域名服务器负担太大,通常采用以下模式:从请求主机到本地域名服务器的查询采用递归查询方式,而其余的查询采用迭代查询方式。
3.5 域名系统高速缓存
为了提高域名系统的查询效率,并减轻根域名服务器的负荷以及减少因特网上的DNS查询报文的数量,在域名服务器中广泛地使用了高速缓存。高速缓存用来存放最近查询过的域名以及从何处获得域名映射信息的记录。
由于域名到IP地址的映射关系并不是永久不变的,为保持高速缓存中的内容正确,域名服务器应为每项内容设置计时器,并删除超过合理时间的项(例如每个项目只存放两天)。
不但在地域名服务器中需要高速缓存,在用户主机中也很需要。许多用户主机在启动时从本地域名服务器下载域名和I地址的全部数据库,维护存放自己最近使用的域名的高速缓存,并且只在从缓存中找不到域名时才向域名服务器查询。同理,主机也需要保持高速缓存中内容的正确性。
4. 文件传送协议
4.1 文件传送协议的作用
将某台计算机中的文件通过网络传送到可能相距很远的另一台计算机中,是一项基本的网络应用,即文件传送。
文件传送协议(FTP)是因特网上使用得最广泛的文件传送协议。FTP提供交互式的访问,允许客户指明文件类型与格式(如指明是否使用ASCI码),并允许文件具有存取权限(如访问文件的用户必须经过授权,并输入有效的口令)。
FTP屏蔽了各计算机系统的细节,因而适用于在异构网络中任意计算机之间传送文件。在因特网发展的早期阶段,用FTP传送文件约占整个因特网通信量的三分之一,而由电子邮件和域名系统产生的通信量还要小于FTP产生的通信量。只是到了1995年,万维网(WWW)的通信量才首次超过FTP。
FTP采用客户/服务器方式,因特网上的FTP客户计算机可将各种类型的文件上传到FTP服务器计算机,FTP客户计算机也可以从FTP服务器计算机下载文件。
根据应用需求的不同,FTP服务器可能需要一台高性能、高可靠性的服务器计算机,也可能只需要一台普通的个人计算机即可。在FTP服务器计算机中创建FTP服务器,可以使用第三方的FTP服务器软件,也可以使用操作系统自带的FTP服务器软件。例如,可以在Windows系统中,使用其自带的FTP服务器功能创建一个FTP服务器站点。
可以在FTP客户计算机中使用浏览器软件,通过FTP服务器的IP地址访问FTP服务器。
也可以在FTP客户计算机中使用Windows系统自带的命令行工具,通过FTP服务器的IP地址访问FTP服务器。 使用命令"fp192.168.124.16"连接该FTP服务器,使用"anonymous"进行匿名登录,因此无须密码。登录成功后,可以使用命令"dir"列出FTP服务器当前目录下的所有文件和文件夹,可以使用命令"get"从FTP服务器下载文件,也可以使用命令"put"向FTP服务器上传文件。
命令行方式需要用户记住FTP相关命令,这对普通用户并不友好。因此,大多数用户在FTP客户计算机上使用第三方的FTP客户工具软件,通过友好的用户界面完成FTP服务器的登录以及文件的上传和下载。
FTP的常见用途是在计算机之间传输文件,尤其是用于批量传输文件。FTP的另一个用途是让网站设计者将构成网站内容的大量文件批量上传到他们的Web服务器。
4.2 文件传送协议的基本工作原理
FTP采用客户/服务器方式,有以下两种工作模式:主动模式和被动模式。
4.2.1 主动模式
FTP客户与FTP服务器之间的交互过程如下:
1)FTP服务器监听熟知端口号21,FTP客户随机选择一个临时端口号与其建立TCP连接。这条TCP连接用于FTP客户与服务器之间传送FTP的相关控制命令。也就是说,这条TCP连接是FTP客户与服务器之间的命令通道。
2)当有数据要传送时,FTP客户通过命令通道告知FTP服务器,让FTP服务器与FTP客户自己的另一个临时端口号建立TCP连接,也就是建立数据通道。
3)FTP服务器使用自己的熟知端口号20与FTP客户所告知的该临时端口号建立TCP连接。这条TCP连接用于FTP客户与服务器之间传送文件。也就是说,这条TCP连接是FTP客户与服务器之间的数据通道。
由于在建立数据通道时,FTP服务器主动连接FTP客户,因此称为主动模式。
控制连接在整个会话期间一直保持打开,用于传送FTP相关的控制命令,而数据连接用于文件传送,在每次文件传送时才建立,传送结束就关闭。
4.2.2 被动模式
对于FTP客户与服务器之间命令通道的建立,被动模式与主动模式并没有什么不同。
二者的不同之处在于:当有数据要传送时,FTP客户通过命令通道通知FTP服务器开启某个协商好的临时端口,并被动等待来自FTP客户的TCP连接以建立数据通道
由于在建立数据通道时,FTP服务器被动等待FTP客户的连接,因此称为被动模式。
5. 电子邮件
5.1 电子邮件的作用
电子邮件(E-mail)是因特网上最早流行的一种应用,并且仍然是目前因特网上最重要、最实用的应用之一。
我们知道,传统的电话通信属于实时通信,存在以下两个缺点:
- 电话通信的主叫和被叫双方必须同时在场。
- 一些不是十分紧迫的电话也常常不必要地打断人们的工作和休息。
电子邮件与传统邮政系统的寄信相似,流程如下:
1)发件人将邮件发送到自己使用的邮件服务器。
2)发件人的邮件服务器将收到的邮件,按其目的地址转发到收件人邮件服务器中的收件人邮箱。
3)收件人在方便的时候访问收件人邮件服务器中自己的邮箱,获取收到的电子邮件。
电子邮件使用方便,传递迅速而且费用低廉。它不仅可以传送文字信息,而且还可附上声音和图像。由于电子邮件的广泛使用,现在许多国家已经正式取消了电报业务。在我国,电信局的电报业务也因电子邮件的普及而濒临消失。
5.2 电子邮件系统的组成
电子邮件系统采用客户/服务器方式,其三个主要构件是:
- 用户代理。
- 邮件服务器。
- 电子邮件所需的协议。
1)在邮件发送方的计算机中,需要使用用户代理来发送邮件。在邮件接收方的计算机中也需要使用用户代理来接收邮件。用户代理是用户与电子邮件系统的接口,又称为电子邮件客户端软件。
2)邮件服务器是电子邮件系统的基础设施。因特网上所有的服务提供商(ISP)都有邮件服务器,其功能是发送和接收邮件,同时还要负责维护用户的邮箱。可以简单地认为邮件服务器中有很多邮箱,还有待转发的邮件缓存。
3)发送方使用用户代理通过邮件发送协议(例如SMTP),将邮件发送给发送方邮件服务器。发送方邮件服务器同样通过邮件发送协议,将该邮件发送给接收方邮件服务器。接收方在方便的时候,使用用户代理通过邮件读取协议(例如POP3或IMAP)从接收方邮件服务器读取邮件。
5.3 电子邮件的发送和接收过程
1)发送方的用户代理作为SMTP客户,与发送方邮件服务器中的SMTP服务器进行TCP连接,然后基于这条TCP连接使用SMTP协议来发送邮件给发送方邮件服务器。
2)发送方邮件服务器中的SMTP客户与接收方邮件服务器中的SMTP服务器进行TCP连接,然后基于这条TCP连接使用SMTP协议来发送已收到的待转发邮件给接收方邮件服务器。
3)接收方的用户代理作为POP3客户,与接收方邮件服务器中的POP3服务器进行ICP连接,然后基于这条TCP连接使用POP3协议从接收方邮件服务器读取邮件。
使用SMTP发送邮件包括以下两部分:
- 发送方用户代理到发送方邮件服务器。
- 发送方邮件服务器到接收方邮件服务器。
5.4 简单邮件传送协议的基本工作过程
简单邮件传送协议(SMTP)使用客户/服务器方式通信,负责发送邮件的SMTP进程是SMTP客户,而负责接收邮件的SMTP进程是SMTP服务器。SMTP客户给SMTP服务器发送命令(14条),SMTP服务器收到命令后给SMTP客户发送应答(共21种)。
如图所示,发送方邮件服务器周期性地扫描邮件缓存。如果发现有待转发的邮件,则发送方邮件服务器中的SMTP客户会与接收方邮件服务器中的SMTP服务器进行TCP连接,SMTP服务器使用的熟知端口号为25。之后,SMTP客户就可以基于这条TCP连接给SMTP服务器发送SMTP命令。SMTP服务器收到命令后也会给SMTP客户发送相应的应答。SMTP客户与服务器之间通过命令与应答的交互方式,最终实现SMTP客户发送邮件给SMTP服务器。
1)当SMTP客户与服务器成功建立TCP连接后,SMTP服务器会主动推送"服务就绪"应答给SMTP客户。应答代码为220,其后可能还跟有描述信息。
2)SMTP客户收到"服务就绪"应答后,向服务器表明身份,告知自己SMTP服务器的域名。具体命令为"HELO",其后为命令参数。
3)SMTP服务器若认为身份有效,则发回应答代码250,否则发回其他错误代码(例如421表示服务不可用)。
4)SMTP客户收到命令"HELO"的应答后,使用命令"MAIL FROM"来告知服务器邮件来自何方。
6)SMTP客户收到命令"MAIL FROM"的应答后,使用命令"RCPTTo"来告诉服务器邮件去往何地,也就是收件人邮箱。
5)SMTP服务器若认为合理,则发回应答代码250,否则发回其他错误代码。
7)SMTP服务器中如果有该收件人邮箱,则发回应答代码250,否则发回其他错误代码。
8)SMTP客户收到命令"RCPT To"的应答后,使用"DATA"命令来告诉服务器自己准备发送邮件内容了。
9)SMTP服务器如果准备好接收,则发回应答代码354,否则发回其他错误代码。
10)SMTP客户收到命令"DATA"的应答后,就向服务器发送邮件内容。
11)SMTP客户发送完邮件内容后,还要发送结束符"."。
12)SMTP服务器若收件成功,则发回应答代码250,否则发回其他错误代码。
13)SMTP客户收到结束符"."的应答后,使用命令"QUIT"向服务器请求断开TCP连接。
14)SMTP服务器发回应答代码221表示接收请求并主动断开TCP连接。
5.5 电子邮件的信息格式
一个电子邮件包含信封和内容两部分,而内容又由首部和主体两部分构成。电子邮件内容的首部和主体的信息都需要用户来填写。首部中包含有一些关键字,后面加上冒号":",例如:
- 关键字"From"后面填入发件人的电子邮件地址,一般由邮件系统自动填入。
- 关键字"To"后面填入一个或多个收件人的电子邮件地址。
- 关键字"Cc"后面填入一个或多个收件人以外的抄送人的电子邮件地址,抄送人收到邮件后,可看可不看邮件,可回可不回邮件。
- 关键字"Subject"后面填入邮件的主题,它反映了邮件的主要内容。
很显然,最重要的关键字是"To"和"Subject",它们往往是必填选项。用户填写好首部后,邮件系统将自动把信封所需的信息提取出来并写在信封上。因此用户不需要填写电子邮件信封上的信息。在填写完首部各关键字的内容后,用户还需要撰写邮件的主体部分,这才是用户想传递给收件人的核心信息。
5.6 多用途因特网邮件扩展
SMTP只能传送ASCI码文本数据,不能传送可执行文件或其他的二进制对象。
为解决SMTP传送非ASCII码文本的问题,提出了多用途因特网邮件扩展(Multipurpose Internet Mail Extensions,MIME)。
当发送方发送的电子邮件中包含有非ASCII码数据时,不能直接使用SMTP进行传送,需要通过MIME进行转换,将非ASCII码数据转换为ASCII码数据。之后就可以使用SMTP进行传送了。接收方也要使用MIME对接收到的ASCII码数据进行逆转换,这样就可以得到包含有非ASCII码数据的电子邮件。
为了实现非ASCII码数据到ASCII码数据的转换,MIME进行了以下扩展:
- 增加了5个新的邮件首部字段,这些字段提供了有关邮件主体的信息。
- 定义了许多邮件内容的格式,对多媒体电子邮件的表示方法进行了标准化。
- 定义了传送编码,可对任何内容格式进行转换,而不会被邮件系统改变。
实际上,MIME不仅仅用于SMTP,也用于后来的同样面向ASCII码字符的超文本传送协议HTTP。
5.7 常用的邮件读取协议 POP3 和IMAP4
常用的邮件读取协议有以下两个:
- 邮局协议(Post Office Protocol,POP),POP3是其第三个版本,是因特网正式标准。
- 因特网邮件访问协议(Internet Message Access Protocol,IMAP),IMAP4是其第四个版本,目前还只是因特网建议标准。
POP3是非常简单、功能有限的邮件读取协议。用户只能以下载并删除方式或下载并保留方式从邮件服务器下载邮件到用户计算机。不允许用户在邮件服务器上管理自己的邮件(例如创建文件夹、对邮件进行分类管理等)。
IMAP4是功能比POP3强大的邮件读取协议。用户在自己的计算机上就可以操控部件服务器中的邮箱,就像在本地操控一样,因此IMAP是一个联机协议。
POP3和IMAP4都采用基于TCP连接的客户/服务器方式。POP3服务器使用熟知端口号110,IMAP4服务器使用熟知端口号143。
5.8 基于万维网的电子邮件
现在,越来越多的用户使用基于万维网的电子邮件。通过浏览器登录(提供用户名和密码)邮件服务器万维网网站,就可以撰写、收发、阅读和管理电子邮件。这种工作模式与MAP很类似,不同的是用户计算机无须安装专门的用户代理程序,只需要使用通用的万维网浏览器即可。
邮件服务器网站通常都提供非常强大和方便的邮件管理功能,用户可以在邮件服务器网站上管理和处理自己的邮件,而不需要将邮件下载到本地进行管理。
假设用户A使用网易邮件服务器,他使用网易电子邮件地址;用户C使用谷歌邮件服务器,它使用谷歌电子邮件地址;用户A要给C发送邮件,具体过程如下:
1)用户A使用浏览器登录自己的邮件服务器网站,撰写并发送邮件给用户C,使用的是HTTP。
2)用户A的邮件服务器使用SMTP将邮件发送给用户C的邮件服务器。
3)用户C也使用浏览器登录自己的邮件服务器网站,读取收到的邮件,使用的也是HTTP。
6. 万维网
万维网并非某种特殊的计算机网络,它是一个大规模的、联机式的信息储藏所,是运行在因特网上的一个分布式应用。万维网利用网页之间的超链接,将不同网站的网页链接成一张逻辑上的信息网。
浏览器最重要的部分是渲染引擎,也就是浏览器内核,它负责对网页内容进行解析和显示。不同的浏览器内核对网页内容的解析也有不同,因此同一网页在不同内核的浏览器里的显示效果可能不同。
6.2 统一资源定位符
为了方便地访问在世界范围的文档,万维网使用统一资源定位符(Uniform Resource Locator,URL)来指明因特网上任何种类"资源"的位置。
URL的一般格式由四部分组成:协议、主机、端口和路径。
<协议>://<主机>:<端口>/<路径>
6.3 万维网文档
HTML (HyperText Markup Language)是超文本标记语言的英文缩写词,它使用多种"标签"来描述网页的结构和内容。
CSS(Cascading Style Sheets)是层叠样式表的英文缩写词,它从审美的角度来描述网页的样式。
JavaScript是一种脚本语言(和Java没有任何关系),用来控制网页的行为。
这些万维网文档都部署在服务器端,有一些是Web前端开发人员设计好的静态页面,有一些是服务器后端程序根据用户需求自动生动的动态页面,它们都需要从服务器传送给用户浏览器进行解析和渲染。这就引出了TCP/IP体系结构应用层中的一个非常重要的协议:超文本传输协议。
6.4 超文本传输协议
6.4.1 HTTP的操作过程
超文本传输协议(HTTP)定义了以下功能的实现方法:
- 浏览器(即万维网客户进程)向万维网服务器请求万维网文档。
- 万维网服务器把万维网文档传送给浏览器。
1)非持续连接方式
HTTP/1.0采用非持续连接方式。在该方式下,每次浏览器进程要请求一个文件都要与服务器建立TCP连接,当收到响应后就立即关闭连接。
可以看出,请求一个万维网文档所需的时间为2个往返时间RTT加上万维网文档的传输时延。也就是说,每请求一个文档就要有2RTT的开销。若一个网页上有很多引用对象(例如图片等),那么请求每一个对象都会产生2RTT的开销。为了减小时延,万维网客户通常会建立多个并行的TCP连接同时请求多个对象。但是,这会大量占用万维网服务器的资源,特别是万维网服务器往往要同时服务于大量万维网客户的请求,这会使万维网服务器的负担很重。
2)持续连接方式
HTTP/1.1支持持续连接方式。在该方式下,万维网服务器在发送响应后仍然保持TCP连接,使同一个万维网客户和自己可以继续在这条TCP连接上传送后续的HTTP请求报文和响应报文。这并不局限于传送同一个页面上引用的对象,而是只要这些文档都在同一个万维网服务器上就行。
为了进一步提高效率,HTTP/1.1的持续连接还可以使用流水线方式工作,即万维网客户在收到HTTP的响应报文之前就能够连续发送多个HTTP请求报文。这样,一个接一个的HTTP请求报文到达万维网服务器后,服务器就发回一个接一个的HTTP响应报文。因此,节省了很多个RTT,使TCP连接中的空闲时间减少,提高了下载万维网文档的效率。
6.4.2 HTTP的报文格式
HTTP是面向文本的,其报文中的每一个字段都是一些ASCII码串,并且每个字段的长度都是不确定的。
1)HTTP请求报文的格式
HTTP请求报文的格式如图所示,很小的小格子表示空格,标有CRLF的格子表示回车换行。
HTTP请求报文的第一行是请求行。由"方法"字段开始,其后跟一个空格。后跟URL字段,其后跟一个空格。后跟"版本"字段。最后是回车换行。
HTTP请求报文从第二行开始就是首部行。每一个首部行由"首部字段名"字段开始,其后跟一个冒号":",再跟一个空格,然后是该字段的取值。最后是回车换行。可以有多个首部行。
在最后的首部行下面是一个空行。
在空行下面是实体主体,通常不使用。
2)HTTP响应报文的格式
HTTP响应报文的格式如图所示。
HTTP响应报文的第一行是状态行。由"版本"字段开始,其后跟一个空格。后跟"状态码"字段,其后跟一个空格。后跟"短语"字段。最后是回车换行。
除状态行,HTTP响应报文的其他部分与HTTP请求报文格式的对应部分是相似的。
状态行中的状态码分五大类共33种。
第一条状态行表示万维网服务器接受了请求。其中,HTTP/1.1表示版本,202是状态码,Accepted是短语(也就是对状态码的简单描述)。
第二条状态行表示请求错误。
第三条状态行表示找不到所请求的页面。
一般来说,浏览器并不会直接显示出服务器发来的这些状态行信息,而是以更友好的形式向用户告知服务器所返回的状态信息。例如,当访问某些网站时,浏览器可能会显示连接超时:
6.5 使用Cookie在服务器上记录信息
在用户访问网站时,浏览器通常会使用Cookie在万维网服务器上记录用户信息。
Cookie提供了一种机制,使得万维网服务器能够"记住"用户,而无须用户主动提供用户标识信息。换句话说,Cookie是一种对无状态的HTTP进行状态化的技术。
在上图中,用户主机中的浏览器进程首先与万维网服务器中的Web服务器进程建立TCP连接,之后的过程解释如下:
1)当用户的浏览器进程初次向Web服务器进程发送HTTP请求报文时,Web服务器进程就会为其产生一个唯一的Cookie识别码,并以此为索引在万维网服务器的后端数据库中创建一个项目,用来记录该用户访问该网站的各种信息。
2)Web服务器进程给浏览器进程发回HTTP响应报文,在响应报文中包含有一个首部字段"Set-Cookie"的首部行,该字段的取值就是Cookie识别码。当浏览器进程收到该响应报文后,就在一个特定的Cookie文件中添加一行,记录该万维网服务器的域名和Cookie识别码。
3)当用户再次使用该浏览器访问这个网站时,每发送一个HTTP请求报文,浏览器都会从Cookie文件中取出该网站的Cookie识别码,并放到HTTP请求报文的Cookie首部行中。
4)Web服务器进程根据Cookie识别码就可以识别出该用户,并返回该用户的个性化网页。
6.6 万维网缓存与代理服务器
万维网还可以使用缓存机制以提高万维网的效率。万维网缓存又称为Web缓存(Web Cache),可位于客户机,也可位于中间系统上。位于中间系统上的Web缓存又称为代理服务器(Proxy Server)。
Web缓存把最近的一些请求和响应暂存在本地磁盘中。当新的请求到达时,若发现这个请求与暂时存放的请求相同,就返回暂存的响应,而不需要按URL的地址再次去因特网访问该资源。
如图所示,将因特网上的某台万维网服务器称为原始服务器,这是为了与万维网代理服务器的名称区分。在校园网中使用了一台万维网代理服务器,简称为代理服务器。校园网中的某台主机访问因特网上的原始服务器的过程如下:
1)主机首先向校园网中的代理服务器发送请求。
2)若代理服务器中存放有所请求的对象,则代理服务器会向该主机发回包含所请求对象的响应。若代理服务器中没有所请求的对象,则代理服务器会向因特网上的原始服务器发送请求。
3)原始服务器将包含有所请求对象的响应发回代理服务器。
4)代理服务器将该响应存入Web缓存,然后给主机发回该响应。
可以想象,如果Web缓存的命中率比较高,则路由器R1与R2之间的链路上的通信量将大大减少,因而可以减少校园网内各主机访问因特网的时延。
原始服务器通常会为每个响应的对象设定一个"修改时间"(LastModified)字段和一个"有效日期"(Expires)字段。当校园网中的某台主机要请求原始服务器中的某个文档时,它首先向校园网中的代理服务器发送请求。
若代理服务器中的该文档已过期,则代理服务器会向因特网上的原始服务器发送请求,在请求报文中包含有一个首部字段为"If modified-since"的首部行,该字段的取值就是该文档的修改日期。原始服务器根据该文档的修改日期,就可判断出代理服务器中存储的该文档是否与自己存储的该文档一致。
- 如果一致,就给代理服务器发送不包含实体主体的响应报文,状态码304,短语为"Not Modifed"。代理服务器收到响应报文后,重新更新该文档的有效日期,然后将该文档封装在响应报文中发回给主机。
- 如果不一致,则给代理服务器发送封装有该文档的响应报文这样,代理服务器就更新了该文档的内容和有效期,然后将更新后的该文档封装在响应报文中发回给主机。