Web基础与HTTP协议

域名和DNS

1. 域名的概念

网络是基于 TCP/IP协议进行通信和连接的，每一台主机都有一个唯一的标识(固定的IP地址),用以区别在网络上成千上万个用户和计算机。网络在区分所有与之相连的网络和主机时，均采用一种唯一、通用的地址格式，即每一个与网络相连接的计算机和服务器都被指派一个独一无二的地址。为了保证网络上每台计算机的IP 地址的唯一性，用户必须向特定机构申请注册，分配IP 地址。网络中的地址方案分为两套：IP 地址系统和域名地址系统。这两套地址系统其实是一一对应的关系。IP 地址用二进制数来表示，每个IP 地址长32比特，由4个小于256的数字组成，数字之间用点间隔，

例如100.10.0.1表示一个IP 地址。由于IP 地址是数字标识，使用时难以记忆和书写，因此在IP 地址的基础上又发展出一种符号化的地址方案，来代替数字型的IP地址。每一个符号化的地址都与特定的IP地址对应，这样网络上的资源访问起来就容易得多了。这个与网络上的数字型IP 地址相对应的字符型地址，就被称为域名。通俗的说，域名就相当于一个家庭的门牌号码，别人通过这个号码可以很容易地找到你。

(1)域名的结构

以一个常见的域名为例说明其结构。图1.1 中，www.baidu.com 网址是由二部分组成，标号"baidu"是这个域名的主体，而最后的标号"com"则是该域名的后缀，代表的这是一个com国际域名，是顶级域名，而前面的www是主机名。

图1.1 域名结构图

DNS 规定，域名中的标号都由英文字母和数字组成，每一个标号不超过63个字符，也不区分大小写字母。标号中除连字符(-)外不能使用其他的标点符号。级别最低的域名写在最左边，而级别最高的域名写在最右边。由多个标号组成的完整域名总共不超过255 个字符。

一些国家也纷纷开发使用采用本民族语言构成的域名，如德语，法语等。中国也开始使用中文域名，但可以预计的是，在中国国内今后相当长的时期内，以英语为基础的域名(即英文域名)仍然是主流。

(2 )域名结构类型

>根域：指的是根服务器，要用来管理互联网的主目录，全世界只有13台。1个为主根服务器，放置在美国。其余12 个均为辅根服务器，其中9个放置在美国；欧洲2个，位于英国和瑞典；亚洲1个，位于日本。所有根服务器均由美国政府授权的互联网域名与号码分配机构ICANN统一管理，负责全球互联网域名根服务器、域名体系和IP地址等的管理。

>顶级域：包括组织域和国家/地区域名。域名的最右侧是国家/地区域名，国家代码由两个字母组成的如.cn,.uk,.de 和.jp, 其中.cn 是中国专用的顶级域名。在国家/ 地区域名左侧，是组织域名，常见的.com 用于商业机构，.net 用于网络组织，.org用于各种组织包括非盈利组织。

>二级域名：在顶级域名之前的域名，在顶级域名前面，它是指域名注册人的网上名称，例如 baidu,ibm,yahoo,microsoft等。

> FQDN: 是主机名.DNS 后缀，是指主机名加上全路径，全路径中列出了序列中所有域成员。全域名可以从逻辑上准确地表示出主机在什么地方，也可以说全域名是主机名的一种完全表示形式。从全域名中包含的信息可以看出主机在域名树中的位置。

2.Hosts 文件

Hosts文件是一个用于存储计算机网络中节点信息的文件，它可以将主机名映射到相应的IP地址，实现 DNS 的功能，它可以由计算机的用户进行修改控制。

(1) Hosts 文件的作用

在网络上访问网站，要首先通过 DNS 服务器把要访问的域名解析成IP地址后，计算机才能对这个网络域名作网站进行访问。

对于每个域名请求，如果都要等待域名服务器解析后返回 IP 信息，那么访问网络的效率就会降低，因为DNS 做域名解析和返回IP 都需要时间。为了提高对经常访问的网络域名的解析效率，可以通过利用在Hosts 文件中建立域名和IP 的映射关系来达到目的。根据系统规定，在进行DNS 请求以前，系统会先检查自己的 Hosts 文件中是否有这个网络域名映射关系。如果有则调用这个IP 地址映射，如果没有，再向已知的 DNS服务器提出域名解析，即Hosts 的请求级别比DNS 高。

(2) 修改Hosts 文件

Windows 系统中Hosts文件存储在目录c:lwindowslsystem32\driversletcl下面，用记事本可以对其进行修改，CentOS 系统中Hosts 文件存储在目录/etc/目录下面，用vim/etc/hosts 可以对其进行修改。

3.DNS

在互联网上域名与IP 地址之间是一一对应的，域名虽然便于人们记忆，但机器之间只能互相认识IP地址，它们之间的转换工作称为域名解析，域名解析要由专门的域名解析系统来完成，DNS 就是进行域名解析的系统。

主机名到IP地址的映射有两种方式：

静态映射：每台设备上都配置主机到IP地址的映射，各设备独立维护自己的映射表，而且只供本设备使用；

动态映射：建立一套域名解析系统 (DNS ), 只在专门的DNS 服务器上配置主机到IP地址的映射，网络上需要使用主机名通信的设备，首先需要到DNS 服务器查询主机所对应的IP地址。

通过主机名，最终得到该主机名对应的 IP地址的过程叫做域名解析(或主机名解析)。在解析域名时，可以首先采用静态域名解析的方法。如果静态域名解析不成功，再采用动态域名解析的方法。可以将一些常用的域名放入静态域名解析表中，这样可以大大提高域名解析效率。

在Windows 命令行模式中输入网络查询命令nslookup www.baidu.com 可以查询到域名对应的 IP 地址。

网页与HTML

网页是构成网站的基本元素，是承载各种网站应用的平台。通俗地说，网站就是由网页组成的。如果只有域名和虚拟主机而没有制作任何网页，那么客户仍旧无法访问这个网站。因为网页是由HTML(超文本标记语言)编写的。

1. 网页概述

网页是一个文件，他存放在世界某个角落的某一部计算机中，而这部计算机必须是与互联网相连的。网页经由网址 (URL) 来识别与存取，是互联网中的一"页"。网页可以包括如下内容：

>文本：文本是网页上最重要的信息载体与交流工具，网页中的主要信息一般都以文

本形式为主。

>图像：图像元素在网页中具有提供信息并展示直观形象的作用。

■ 静态图像：在页面中可能是图片或矢量图形。图片格式通常为GIF、JPEG 或 PNG 等；矢量格式通常为SVG 或 Flash。

■动画图像：通常动画为GIF 和 SVG。

>Flash 动画：动画在网页中的作用是有效地吸引访问者更多的注意。

>声音：声音是多媒体和视频网页重要的组成部分。

>视频：视频文件的采用使网页效果更加精彩且富有动感。

>表格：表格是在网页中用来控制页面信息的布局方式。

>导航栏：导航栏在网页中是一组超链接，其连接的目的端是网页中重要的页面。

>交互式表单：表单在网页中通常用来联接数据库并接受访问用户在浏览器端输入的数据，利用数据库为客户端与服务器端提供更多的互动。

网页相关概念如下：

域名：是浏览网页时输入的网址。

> HTTP: 用来传输网页的通信协议，使用浏览器访问网址时，在域名前面要加上http:/l,表示使用http协议传输网页。

> URL: 是一种万维网寻址系统，表示网络上资源的位置路径。

> HTML: 是编写网页的超文本标记语言。超链接：具备将网站中不同网页链接起来的功能。

>发布：将制作好的网页上传到服务器供用户访问的过程。

2.HTML 概述

HTML叫做超文本标记语言，是一种规范，也是一种标准，它通过标记符号来标记要显示的网页中的各个部分。网页文件本身是一种文本文件，通过在文本文件中添加标记符，可以告诉浏览器如何显示其中的内容。如：文字如何处理，画面如何安排，图片如何显示等。浏览器按顺序阅读网页文件，然后根据标记符解释和显示其标记的内容，对书写出错的标记将不指出其错误，且不停止其解释执行过程，开发者只能通过显示效果来分析出错原因和出错部位。但需要注意的是，不同的浏览器，对同一标记符可能会有不完全相同的解释，因而可能会有不同的显示效果。

HTML 文件可以使用任何能够生成 txt文件的文本编辑器来编辑，生成超文本标记语言文件，只用修改文件名后缀为".html"或".htm"即可。

3.HTML 基本标签

(1) HTML语法规则

HTML标签采用双标记符的形式，前后标记符对应，分别表示标记开始和结束，标记符中间的内容被标签描述。前标记符由""表示，结尾标记符多了一个"",由""表示。

(2 ) HTML 文件结构

HTML 文件最外层由

表示，说明该文件是用HTML 语言描述的。在它里面是并列的头标签() 和内容标签()

常用的头标签中的标签如表1-1 所示。

表1-1头标签中常用标签

内容标签中常用的标签

4. 网站和主页

网站是由网页组成的，包含多个网页页面，具有独立域名、独立存放空间的内容集合，这些内容可能是网页，也可能是程序或其他文件。

主页(首页)是用户打开浏览器时默认打开的网页。

当一个网站服务器收到一台电脑上网络浏览器的消息连接请求时，便会向这台计算机发送这个文档。当在浏览器的地址栏输入域名，而未指向特定目录或文件时，通常浏览器会打开网站的首页。网站首页往往会被编辑得易于了解该网站提供的信息，并引导互联网用户浏览网站其他部分的内容。这部分内容一般被认为是一个目录性质的内容。

5.Web1.0 与 Web2.0

Web1.0 是指早期互联网模式，以门户网站为主，内容由网站运营商提供，以巨大的点击量和增值服务为主盈利手段。

(1) Web1.0 基本采用的是技术创新主导模式，信息技术的变革和使用对于网站的新生与发展起到了关键性的作用。新浪最初就是以技术平台起家，腾讯以即时通讯技术

起家，盛大以网络游戏起家，在这些网站的创始阶段，技术性的痕迹相当之重。

(2) Web1.0 的盈利都基于一个共通点，即巨大的点击流量。无论是早期融资还是后期获利，依托的都是为数众多的用户和点击率，以点击率为基础上市或开展增值服务，受众群众的基础，决定了盈利的水平和速度，充分地体现了互联网的眼球经济色彩。

Web2.0 是相对于Web1.0 的新的时代。指的是一个利用Web 的平台，由用户主导而生成的内容互联网产品模式，如博客、社交网站等。为了区别传统由网站雇员主导生成的内容而定义为第二代互联网，即Web2.0, 是一个新的时代。特征如下：

(1)用户分享。在Web2.0 模式下，可以不受时间和地域的限制分享各种观点。用

户可以得到自己需要的信息也可以发布自己的观点。

(2)以兴趣为聚合点的社群。在Web2.0 模式下，聚集的是对某个或者某些问题感兴趣的群体，可以说，在无形中已经产生了细分市场。

(3)开放的平台，活跃的用户。平台对于用户来说是开放的，而且用户因为兴趣而保持比较高的忠诚度，他们会积极的参与其中。

静态网页与动态网页

静态网页

在网站设计中，纯粹HTML格式的网页通常被称为"静态网页",静态网页是标准的 HTML文件，它的文件扩展名是.htm 、.html 。静态网页是网站建设的基础，早期的网站一般都是由静态网页制作的。静态网页也可以出现各种动态的效果，如.GIF 格式的动画、FLASH、滚动字幕等。这些"动态效果"只是视觉上的，与下面将要介绍的动态网页是不同的概念。

动态网页

所谓的动态网页，是指跟静态网页相对的一种网页编程技术。静态网页，随着HTML代码的生成，页面的内容和显示效果就基本上不会发生变化了------除非是修改页面代码。而动态网页则不然，页面代码虽然没有变，但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。动态网页 URL 的后缀不是 .htm 、.html 、.shtml 、.xml 等静态网页的常见网页制作格式，而是以 .aspx 、.asp、jsp 、.php 、.perl 、.cgi 等形式为后缀，并且在动态网页网址中有一个

标志性的符号------"?"。

动态网页是基本的html 语法规范与Java、PHP、C# 等高级程序设计语言、数据库编程等多种技术的融合，以期实现对网站内容和风格的高效、动态和交互式的管理。因此，从这个意义上来讲，凡是结合了HTML 以外的高级程序设计语言和数据库技术进行的网页编程技术生成的网页都是动态网页。

动态网页语言

早期的动态网页主要采用通用网关接口CGI(Common Gateway Interface)技术，虽然CGI 技术已经发展成熟而且功能强大，但由于编程困难、效率低下、修改复杂，所以有逐渐被新技术取代的趋势。

目前常用的动态网页编程语言如下：

PHP 即 Hypertext Preprocessor (超文本预处理器),它是当今 Internet上最为火热的脚本语言，其语法借鉴了C、Java、PERL等语言，但只需要很少的编程知识你就能使用PHP 建立一个真正交互的Web 站点。

>JSP 即 Java Server Pages(Java 服务器页面),它是由Sun Microsystem 公司于1999年6月推出的新技术，是基于Java Servlet以及整个 Java 体系的Web 开发技术。

Python 是一种面向对象、跨平台的动态类计算机程序设计语言，最初被设计用于编写自动化脚本(shell), 随着版本的不断更新和语言新功能的添加，越来越多被用于独立的大型项目开发。

Ruby 是一种简单快捷的面向对象(面向对象程序设计)脚本语言，在 20 世纪90 年代由日本人松本行弘(Yukihiro Matsumoto)开发，遵守GPL协议和Ruby License。它的灵感与特性来自于Perl、Smalltalk、Eiffel、Ada以及Lisp语言。

HTTP 协议

超文本传输协议 (HTTP,HyperText Transfer Protocol) 是互联网上应用最为广泛的一种网络协议。所有的网页文件都必须遵守这个标准。设计 HTTP最初的目的是为了提供一种发布和接收HTML 页面的方法。

HTTP协议概述

HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求，请求头包含请求的方法、URL、协议版本、以及包含请求修饰符、客户信息和内容的类似于 MIME的消息结构。服务器以一个状态行作为响应，响应的内容包括消息协议的版本，成功或者错误编码加上服务器信息、实体元信息以及可能的实体内容。

HTTP已经演化出了很多版本，它们中的大部分都是向下兼容的。

(1) HTTP/0.9 已过时。只接受 GET 一种请求方法，没有在通讯中指定版本号，且不支持请求头。由于该版本不支持 POST 方法，所以客户端无法向服务器传递太多信息。

(2) HTTP/1.0 这是第一个在通讯中指定版本号的HTTP 协议版本，至今仍被广泛采用，特别是在代理服务器中。

(3) HTTP/1.1当前版本。持久连接被默认采用，并能很好地配合代理服务器工作。还支持以管道方式同时发送多个请求，以便降低线路负载，提高传输速度。

HTTP 方法

HTTP 支持几种不同的请求命令，这些命令被称为HTTP 方法(HTTP method) 。每条HTTP 请求报文都包含一个方法，告诉服务器要执行什么动作，包括：获取一个页面，运行一个网关程序，删除一个文件等。最常用的获取资源的方法是GET、POST。

HTTP 常用方法如表1-3所示。

表1-3 HTTP方法

|--------|--------------------------------|
| HTTP方法 | 描述 |
| GET | 请求获取Request-URI所标识的资源 |
| PUT | 请求服务器存储一个资源，并用Request-URI作为其标识 |
| DELETE | 请求服务器删除Request-URI所标识的资源 |
| POST | 在Request-URI所标识的资源后附加新的数据 |
| HEAD | 请求获取由Request-URI所标识的资源的响应消息报头 |

是一个GET 请求，服务器接收后可以解析出Id=123。而 POST 方法不需要在URL 中显示"?ld=123",参数作为内容进行了隐藏的提交。因此，表单类或者有用户名、密码等内容提交时建议使用POST 方法。

GET方法在URL上显示参数，而URL 是有长度限制，故不适合提交过大的数据。GET方法可以被浏览器缓存，当请求已经被请求过一次的URL时，浏览器不需要向服务器再次发出请求，直接在本地缓存中获得页面。

表1-4 GET和POST比较

|----------|------------------------------------------------------------|-----------------------------------------|
| | GET方法 | POST方法 |
| 对数据长度的限制 | URL的长度是受限制的(URL的最大长度是2048个字符) | 无限制 |
| 缓存 | 能被缓存 | 不能缓存 |
| 安全性 | 与POST相比，GET的安全性较差，因为所发送的数据是URL的一部分。在发送密码或其他敏感信息时绝不要使用GET | POST比GET更安全，因为参数不会被保存在浏览器历史或Web服务器日志中 |
| 历史 | 参数保留在浏览器历史中 | 参数不会保存在浏览器历史中 |
| 后退按钮/刷新 | 无害 | 数据会被重新提交，浏览器应该告知用户数据会被重新提交 |
| 书签 | 可收藏为书签 | 不可收藏为书签 |

1.2.3 HTTP 状态码

HTTP 状态码 (HTTP Status Code) 是用以表示网页服务器HTTP 响应状态的3 位数字代码，当浏览器请求某一URL时，服务器根据处理情况返回相应的处理状态。 HTTP 状态码可以分为五大类，如图1.2所示。其中1XX表示信息提示，2XX、3XX表示请求正常，4 XX 、5XX表示出现异常情况。

|-------|---------|-------|
| 状态码首位 | 已定义范围 | 分类 |
| 1xx | 100-101 | 信息提示 |
| 2xx | 200-206 | 成功 |
| 3xx | 300-305 | 重定向 |
| 4xx | 400-415 | 客户端错误 |
| 5xx | 500-505 | 服务器错误 |

图1.2 HTTP 状态码分类

表1-5 生产环境常见的HTTP状态码

|---------------------------|---------------------------|
| 消息 | 描述 |
| 200 OK | 请求成功(其后是对GET和POST请求的应答文档) |
| 301 Moved Permanently | 请求的永久页面跳转 |
| 403 Forbidden | 禁止访问该页面 |
| 404 Not Found | 服务器无法找到被请求的页面 |
| 500 Internal Server Error | 内部服务器错误 |
| 502 Bad Gateway | 无效网关 |
| 503 Service Unavailable | 当前服务不可用 |
| 504 Gateway Timeout | 网关请求超时 |

HTTP请求流程分析

用户在浏览器输入 URL 访问时，发起HTTP 请求报文，请求中包括请求行、请求头、请求体，服务器收到请求后返回响应报文，包括状态行、响应头、响应体。

请求报文

请求行：请求行由请求方法、URL 以及协议版本三部分组成。

>请求头：请求头为请求报文添加了一些附加信息，由"名/值"对组成，每行一对，名和值之间使用冒号分隔，常用的请求头如表1-6所示。

表1 - 6 HTTP 请求头

|-----------------|-----------------------------------|
| 请求头 | 描述 |
| Host | 接受请求的服务器地址，可以是IP:端口号，也可以是域名 |
| User-Agent | 发送请求的应用程序名称 |
| Connection | 指定与连接相关的属性，如Connection:Keep-Alive |
| Accept-Charset | 通知服务端可以发送的编码格式 |
| Accept-Encoding | 通知服务端可以发送的数据压缩格式 |
| Accept-Language | 通知服务端可以发送的语言 |

>空行：请求头部的最后会有一个空行，表示请求头部结束，接下来为请求体，这一

行非常重要，必不可少。

>请求体：请求体是请求提交的参数，GET 方法已经在URL 中指明了参数，所以提交时没有数据。POST 方法提交的参数在请求体中。

响应报文

状态行：状态行由协议版本，状态码，状态码描述三部分组成。

响应头：响应头与请求头部类似，为响应报文添加了一些附加信息。常见响应头部

如表1-7所示。

表1-7 HTTP响应头

|------------------|----------------------|
| 响应头 | 描述 |
| Server | 服务器应用程序软件的名称和版本 |
| Content-Type | 响应正文的类型(是图片还是二进制字符串) |
| Content-Length | 响应正文长度 |
| Content-Charset | 响应正文使用的编码 |
| Content-Encoding | 响应正文使用的数据压缩格式 |
| Content-Language | 响应正文使用的语言 |

>空行：响应头部的最后会有一个空行，表示响应头部结束。

>响应体：服务器返回的相应HTML数据，浏览器对其解析后显示页面。