Web基础与http服务

因特网是"Internet"的中文译名，它起源于美国的五角大楼，它的前身是美国国防部高级研究计划局（ARPA）主持研制的ARPAnet。20世纪50年代末，正处于冷战时期。当时美国军方为了自己的计算机网络在受到袭击时,即使部分网络被摧毁，其余部分仍能保持通信联系，便由美国国防部的高级研究计划局（ARPA）建设了一个军用网，叫做"阿帕网"（ARPAnet）。阿帕网于1969年正式启用，当时仅连接了 4台计算机，供科学家们进行计算机联网实验用，这就是因特网的前身。到70年代，ARPAnet已经有了好几十个计算机网络，但是每个网络只能在网络内部的计算机之间互联通信，不同计算机网络之间仍然不能互通。为此， ARPA又设立了新的研究项目，支持学术界和工业界进行有关的研究，研究的主要内容就是想用一种新的方法将不同的计算机局域网互联，形成"互联网"。研究人员称之为"internetwork"，简称"Internet" 。在研究实现互联的过程中，计算机软件起了主要的作用。1974年，出现了连接分组网络的协议，其中就包括了TCP/IP协议。TCP/IP有一个非常重要的特点，就是开放性，即TCP/IP的规范和Internet的技术都是公开的。目的就是使任何厂家生产的计算机都能相互通信，使Internet成为一个开放的系统，这正是后来Internet得到飞速发展的重要原因。ARPA在1982年接受了TCP/IP，选定Internet为主要的计算机通信系统，并把其它的军用计算机网络都转换到TCP/IP。1983年，ARPAnet分成两部分：一部分军用，称为MILNET；另一部分仍称ARPAnet，供民用。 1986年，美国国家科学基金组织（NSF）将分布在美国各地的5个为科研教育服务的超级计算机中心互联，并支持地区网络，形成SNSFnet。1988 年，SNSFnet替代ARPAnet成为Internet的主干网。NSFnet 主干网利用了在ARPAnet中已证明是非常成功的TCP/IP技术，准许各大学、政府或私人科研机构的网络加入。1989年，ARPAnet解散，Internet从军用转向民用。 Internet的发展引起了商家的极大兴趣。1992年，美国IBM、MCI、MERIT三家公司联合组建了一个高级网络服务公司（SNS），建立了一个新的网络，叫做SNSnet，成为Internet的另一个主干网。它与SNSFnet不同，NSFnet是由国家出资建立的，而SNSnet则是SNS 公司所有，从而使Internet开始走向商业化。 1995年4月30日，SNSFnet正式宣布停止运作。而此时Internet的骨干网已经覆盖了全球91个国家，主机已超过400万台。而在当前，因特网仍以惊人的速度向前发展在90年代，超文本标识语言（HTML），即一个可以获得因特网的图像信息的超文本因特网协议被采用，使每一个人可以产生自己的图像页面（网址），然后成为一个巨大的虚拟超文本网络的组成部分。这个增强型的因特网又被非正式地称为万维网，与此同时产生了数量庞大的新用户群。于是，许多人用"因特网" 一词指这个网络的物理结构，包括连接所有事物的客户机、服务器和网络；而用"万维网"一词指利用这个网络可以访问的所有网站和信息。

HTTP 超文本传输协议

互联网：是网络，是所有类型网络的母集。
因特网：世界上最大的互联网网络。即因特网概念从属于互联网概念。习惯上，大家把连接在因特网上的计算机都成为主机。
万维网：WWW（world wide web）万维网并非某种特殊的计算机网络，是一个大规模的、联机式的信息贮藏库，使用链接的方法能非常方便地从因特网上的一个站点访问另一个站点（超链技术），具有提供分布式服务的特点。万维网是一个分布式的超媒体系统，是超文本系统的扩充，基于B/S架构实现
URL：万维网使用统一资源定位符（Uniform Resource Locator）来标志万维网上的各种文档，并使每个文档在整个因特网的范围内具有唯一的标识符URL。
HTTP：为解决"用什么样的网络协议来实现整个因特网上的万维网文档"这一难题，就要使万维网客户程序（以浏览器为主，但不限于浏览器）与万维网服务器程序之间的交互遵守严格的协议，即超文本传送协议（HyperText Transfer Protocol）。HTTP是处于应用层的协议，使用TCP传输层协议进行可靠的传送。因此，需要特别提醒的是，万维网是基于因特网的一种广泛因特网应用系统，且万维网采用的是HTTP（80/TCP）和 HTTPS（443/TCP）的传输协议，但因特网还有其他的网络应用系统（如：FTP、SMTP等等）。
HTML：为了解决"怎样使不同作者创作的不同风格的万维网文档，都能在因特网上的各种主机上显示出来，同时使用户清楚地知道在什么地方存在着链接"这一问题，万维网使用超文本标记语言（HyperText Markup Language），使得万维网页面的设计者可以很方便地用链接从页面的某处链接到因特网的任何一个万维网页面，并且能够在自己的主机品目上将这些页面显示出来。HTML与txt一样，仅仅是是一种文档，不同之处在于，这种文档专供于浏览器上为浏览器用户提供统一的界面呈现的统一规约。且具备结构化的特征，这是txt所不具备的强制规定。

浏览器访问网站的过程

HTTP 协议通信过程

HTTP（HyperText Transfer Protocol，超文本传输协议）是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础设计HTTP最初的目的是为了提供一种远距离共享知识的方式，借助多文档进行关联实现超文本，连成相互参阅的WWW（world wide web,万维网）HTTP的发展是由蒂姆·伯纳斯-李（Tim Berners-Lee）于1989年在欧洲核子研究组织（CERN）所发起。HTTP的标准制定由万维网协会（World Wide Web Consortium，W3C）和互联网工程任务组（Internet Engineering Task Force，IETF）进行协调，最终发布了一系列的RFC，其中最著名的是1999年6月公布的 RFC 2616，定义了HTTP协议中现今广泛使用的一个版本------HTTP 1.1版

HTTP协议分层

HTTP 相关技术

http ：Hyper Text Transfer Protocol 应用层协议，默认端口：80/tcp

WEB前端开发语言：

html

Hyper Text Markup Language 超文本标记语言，编程语言，主要负责实现页面的结构。

复制代码

<html>
<head>
<meta http-equiv=Content-Type content="text/html;charset=utf-8">
<title>HTML语言</title>
</head>
<body>
<img src="http://www.kgc.com/wp-content/uploads/2017/09/logo.png" >
<h1 style="color:red">欢迎</h1>
<p><a href=http://www.kgc.com>课工场</a>欢迎你</p>
</body>
</html>

CSS

Cascading Style Sheet 层叠样式表，定义了如何显示（装扮） HTML 元素，比如：字体大小和颜色属性等。样式通常保存在外部的 .css 文件中,用于存放一些HTML文件的公共属性,从而通过仅编辑一个简单的 CSS 文档，可以同时改变站点中所有页面的布局和外观。

复制代码

#test.html 建议用Vscode创建文件,用记事本可能会出现乱码
<html>
<head>
<meta http-equiv=Content-Type content="text/html;charset=utf-8">
<link rel="stylesheet" type="text/css" href="mystyle.css" />
</head>
<body>
<h1>这是 heading 1</h1>
<p>这是一段普通的段落。请注意，该段落的文本是红色的。在 body 选择器中定义了本页面中的默认文本颜
色。</p>
<p class="ex">该段落定义了 class="ex"。该段落中的文本是蓝色的。</p>
</body>
</html>


#mystyle.css
body {color:red}
h1 {color:#00ff00}
p.ex {color:rgb(0,0,255)}

Js

javascript，实现网页的动画效果，但实属于静态资源。Java和javascript的关系: 周杰和周杰伦的关系。

复制代码

<!DOCTYPE html> 
<html> 
<head> 
<meta http-equiv=Content-Type content="text/html;charset=utf-8"> 
</head>
<body> 
<h2>我的第一个 JavaScript</h2>

<button type="button"
onclick="document.getElementById('demo').innerHTML = Date()">
点击这里来显示日期和时间
</button>

<p id="demo"></p>
</body>
</html>

URI

URI： Uniform Resource Identifier 统一资源标识，分为URL 和 URN
URN：Uniform Resource Naming，统一资源命名

示例： P2P下载使用的磁力链接是URN的一种实现

magnet:?xt=urn:btih:660557A6890EF888666

URL：Uniform Resorce Locator，统一资源定位符，用于描述某服务器某特定资源位置

两者区别：URN如同一个人的名称，而URL代表一个人的住址。换言之，URN定义某事物的身份，而

URL提供查找该事物的方法。URN仅用于命名，而不指定地址。

URL组成

scheme:方案，访问服务器以获取资源时要使用哪种协议

user:用户，某些方案访问资源时需要的用户名

password:密码，用户对应的密码，中间用：分隔

Host:主机，资源宿主服务器的主机名或IP地址

port:端口,资源宿主服务器正在监听的端口号，很多方案有默认端口号

path:路径,服务器资源的本地名，由一个/将其与前面的URL组件分隔

params:参数，指定输入的参数，参数为名/值对，多个参数，用;分隔

query:查询，传递参数给程序，如数据库，用？分隔,多个查询用&分隔

frag:片段,一小片或一部分资源的名字，此组件在客户端使用，用#分隔

网站的访问量

网站访问量统计的重要指标

IP(独立IP)：即Internet Protocol,指独立IP数。一天内来自相同客户机IP 地址只计算一次，记录远程客户机IP地址的计算机访问网站的次数，是衡量网站流量的重要指标
PV(访问量)：即Page View, 页面浏览量或点击量，用户每次刷新即被计算一次，PV反映的是浏览某网站的页面数，PV与来访者的数量成正比，PV并不是页面的来访者数量，而是网站被访问的页面数量
UV(独立访客)：即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过cookies实现的。如果更换了IP后但不清除cookies，再访问相同网站，该网站的统计中UV数是不变的

网站统计 ：Alexa网站排名查询Alexa网站排名查询。Alexa免费提供Alexa中文排名官方数据查询，网站访问量查询，网站浏览量查询，排名变化趋势数据查询。http://www.alexa.cn/rank/ QPS：request per second，每秒请求数

PV，QPS和并发连接数换算公式

QPS= PV * 页面衍生连接次数/ 统计时间（86400）
并发连接数 =QPS * http平均响应时间

峰值时间：每天80%的访问集中在20%的时间里，这20%时间为峰值时间

峰值时间每秒请求数(QPS)=( 总PV数 *页面衍生连接次数）*80% ) / ( 每天秒数 * 20% )

HTTP工作机制

一次http事务包括：

http请求：http request
http响应：http response

Web资源：web resource，一个网页由多个资源（文件）构成，打开一个页面，通常会有多个资源展示出来，但是每个资源都要单独请求。因此，一个"Web 页面"通常并不是单个资源，而是一组资源的集合

资源类型：

静态文件：无需服务端做出额外处理,服务器端和客户端的文件内容相同

文件后缀：.html, .txt, .jpg, .js, .css, .mp3, .avi

动态文件：服务端执行程序，返回执行的结果,服务器端和客户端的文件内容不相同

文件后缀：.php, .jsp ,.asp

提高HTTP连接性能

并行连接：通过多条TCP连接发起并发的HTTP请求
持久连接：keep-alive，重用TCP连接，以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接
管道化连接：通过共享TCP连接，发起并发的HTTP请求
复用的连接：交替传送请求和响应报文（实验阶段）

串行与并行

HTTP 协议版本

**http/1.0:**纯文本传输: http响应后会立即关闭TCP连接:支持http头部信息(比如http协议版本号，状态码等)。
**http/1.1:**支持长连接 (连接保持，持久连接) 和管道机制(在一TCP连接中实现多个http请求和响应)。
**http/2.0:**二进制传输：支持长连接和完全多路复用(在一个TCP连接中同时发送多个请求，目不用按照顺序一一对应)：支持网页头部压缩，支持服务端主动推送。
**http/3.0:**基于UDP协议的。

HTTP1.0和HTTP1.1的区别：

缓存处理，在HTTP1.0中主要使用header里的If-Modified-Since,Expires来做为缓存判断的标准，HTTP1.1则引入了更多的缓存控制策略例如Entity tag，If-Unmodified-Since, If-Match, If-NoneMatch等更多可供选择的缓存头来控制缓存策略
带宽优化及网络连接的使用，HTTP1.0中，存在一些浪费带宽的现象，例如：客户端只是需要某个对象的一部分，而服务器却将整个对象送过来了，并且不支持断点续传功能，HTTP1.1则在请求头引入了range头域，它允许只请求资源的某个部分，即返回码是206（Partial Content），方便了开发者自由的选择以便于充分利用带宽和连接
错误通知的管理，在HTTP1.1中新增24个状态响应码，如409（Conflict）表示请求的资源与资源当前状态冲突；410（Gone）表示服务器上的某个资源被永久性的删除
Host 头处理，在HTTP1.0中认为每台服务器都绑定一个唯一的IP地址，因此，请求消息中的URL并没有传递主机名（hostname）。但随着虚拟主机技术的发展，在一台物理服务器上可以存在多个虚拟主机（Multi-homed Web Servers），并且它们共享一个IP地址。HTTP1.1的请求消息和响应消息都应支持Host头域，且请求消息中如果没有Host头域会报告一个错误（400 Bad Request）
长连接，HTTP 1.1支持持久连接（PersistentConnection）和请求的流水线（Pipelining）处理，在一个TCP连接上可以传送多个HTTP请求和响应，减少了建立和关闭连接的消耗和延迟，在HTTP1.1中默认开启Connection： keep-alive，弥补了HTTP1.0每次请求都要创建连接的缺点

HTTP1.0和1.1的问题

HTTP1.x在传输数据时，每次都需要重新建立连接，无疑增加了大量的延迟时间，特别是在移动端更为突出
HTTP1.x在传输数据时，所有传输的内容都是明文，客户端和服务器端都无法验证对方的身份，无法保证数据的安全性
HTTP1.x在使用时，header里携带的内容过大，增加了传输的成本，并且每次请求header基本不怎么变化，尤其在移动端增加用户流量
虽然HTTP1.x支持了keep-alive，来弥补多次创建连接产生的延迟，但是keep-alive使用多了同样会给服务端带来大量的性能压力，并且对于单个文件被不断请求的服务(例如图片存放站)，keep-alive可能会极大的影响性能，因为它在文件被请求之后还保持了不必要的连接很长时间

HTTPS协议：

为解决安全问题，网景在1994年创建了HTTPS，并应用在网景导航者浏览器中。最初，HTTP是与SSL一起使用的；在SSL逐渐演变到TLS时（其实两个是一个东西，只是名字不同而已），最新的HTTPS也由在2000年五月公布的RFC 2818正式确定下来。HTTPS就是安全版的HTTP，目前大型网站基本实现全站HTTPS

HTTPS特点

HTTPS协议需要到CA申请证书，一般免费证书很少，需要交费
HTTP协议运行在TCP之上，所有传输的内容都是明文，HTTPS运行在SSL/TLS之上，SSL/TLS运行
在TCP之上，所有传输的内容都经过加密的
HTTP和HTTPS使用的是不同的连接方式，端口不同，前者是80，后者是443HTTPS可以有效的防止运营商劫持，解决了防劫持的一个大问题
HTTPS 实现过程降低用户访问速度，但经过合理优化和部署，HTTPS 对速度的影响还是可以接受的

http请求处理过程

建立连接
接收请求
处理请求
访问资源
构建响应报文
发送响应报文
记录日志

一次完整的http请求处理过程

1、建立连接：接收或拒绝连接请求

2、接收请求：接收客户端请求报文中对某资源的一次请求的过程

单进程I/O模型：启动一个进程处理用户请求，而且一次只处理一个，多个请求被串行响应
多进程I/O模型：并行启动多个进程,每个进程响应一个连接请求
复用I/O结构：启动一个进程，同时响应N个连接请求
复用的多进程I/O模型：启动M个进程，每个进程响应N个连接请求，同时接收M*N个请求

3、处理请求：服务器对请求报文进行解析，并获取请求的资源及请求方法等相关信息，根据方法，资源，首部和可选的主体部分对请求进行处理常用请求Method: GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS

4、访问资源：服务器获取请求报文中请求的资源web服务器，即存放了web资源的服务器，负责向请求者提供对方请求的静态资源，或动态运行后生成的资源

5、构建响应报文：

一旦Web服务器识别除了资源，就执行请求方法中描述的动作，并返回响应报文。响应报文中包含有响应状态码、响应首部，如果生成了响应主体的话，还包括响应主体

1）响应实体：如果事务处理产生了响应主体，就将内容放在响应报文中回送过去。响应报文中通常包括：

描述了响应主体MIME类型的Content-Type首部

描述了响应主体长度的Content-Length

实际报文的主体内容

2）URL重定向：web服务构建的响应并非客户端请求的资源，而是资源另外一个访问路径

3）MIME类型： Web服务器要负责确定响应主体的MIME类型。多种配置服务器的方法可将MIME类型与资源管理起来

魔法分类：Apache web服务器可以扫描每个资源的内容，并将其与一个已知模式表(被称为魔法文件)进行匹配，以决定每个文件的MIME类型。这样做可能比较慢，但很方便，尤其是文件没有标准扩展名时

显式分类：可以对Web服务器进行配置，使其不考虑文件的扩展名或内容，强制特定文件或目录内容拥有某个MIME类型

类型协商：有些Web服务器经过配置，可以以多种文档格式来存储资源。在这种情况下，可以配置Web服务器，使其可以通过与用户的协商来决定使用哪种格式(及相关的MIME类型)"最好"

6、发送响应报文

Web服务器通过连接发送数据时也会面临与接收数据一样的问题。服务器可能有很多条到各个客户端的连接，有些是空闲的，有些在向服务器发送数据，还有一些在向客户端回送响应数据。服务器要记录连接的状态，还要特别注意对持久连接的处理。对非持久连接而言，服务器应该在发送了整条报文之后，关闭自己这一端的连接。对持久连接来说，连接可能仍保持打开状态，在这种情况下，服务器要正确地计算Content-Length首部，不然客户端就无法知道响应什么时候结束

7、记录日志

最后，当事务结束时，Web服务器会在日志文件中添加一个条目，来描述已执行的事务

常见 http 服务器程序

httpd apache，存在C10K（10K connections）问题
nginx 解决C10K问题lighttpd
IIS .asp 应用程序服务器
tomcat .jsp 应用程序服务器
jetty 开源的servlet容器，基于Java的web容器
Resin CAUCHO公司，支持servlets和jsp的引擎
webshpere：IBM公司
weblogic：BEA，Oracle
jboss：RedHat，IBM
oc4j：Oracle

Apache 经典的 Web 服务端

Apache起初由美国的伊利诺伊大学香槟分校的国家超级计算机应用中心开发，目前经历了两大版本分别是1.X和2.X，其可以通过编译安装实现特定的功能

官方网站：Welcome to The Apache Software Foundation!Home page of The Apache Software Foundationhttp://www.apache.org

预派生模式，有一个主控制进程，然后生成多个子进程，使用select模型，最大并发1024，每个子进程有一个独立的线程响应用户请求，相对比较占用内存，但是比较稳定，可以设置最大和最小进程数，是最古老的一种模式，也是最稳定的模式，适用于访问量不是很大的场景。

优点：稳定

缺点：每个用户请求需要对应开启一个进程,占用资源较多，并发性差,不适用于高并发场景

一种多进程和多线程混合的模型，有一个控制进程，启动多个子进程，每个子进程里面包含固定的线程，使用线程程来处理请求，当线程不够使用的时候会再启动一个新的子进程，然后在进程里面再启动线程处理请求，由于其使用了线程处理请求，因此可以承受更高的并发。

优点：相比prefork 占用的内存较少，可以同时处理更多的请求

缺点：使用keepalive的长连接方式，某个线程会一直被占据，即使没有传输数据，也需要一直等待到超时才会被释放。如果过多的线程，被这样占据，也会导致在高并发场景下的无服务线程可用。（该问题在prefork模式下，同样会发生）

Apache中最新的模式，2012年发布的apache 2.4.X系列正式支持event 模型，属于事件驱动模型(epoll)，每个进程响应多个请求，在现在版本里的已经是稳定可用的模式。它和worker模式很像，最大的区别在于，它解决了keepalive场景下，长期被占用的线程的资源浪费问题（某些线程因为被keepalive，空挂在哪里等待，中间几乎没有请求过来，甚至等到超时）。event MPM中，会有一个专门的线程来管理这些keepalive类型的线程，当有真实请求过来的时候，将请求传递给服务线程，执行毕后，又允许它释放。这样增强了高并发场景下的请求处理能力。

优点：单线程响应多请求，占据更少的内存，高并发下表现更优秀，会有一个专门的线程来管理keepalive类型的线程，当有真实请求过来的时候，将请求传递给服务线程，执行完毕后，又允许它释放

缺点：没有线程安全控制

Nginx-高性能的 Web服务端

Nginx是由1994年毕业于俄罗斯国立莫斯科鲍曼科技大学的同学为俄罗斯rambler.ru公司开发的，开发工作最早从2002年开始，第一次公开发布时间是2004年10月4日，版本号是0.1.02019年3月11日F5 与 NGINX达成协议,F5 将收购 NGINX 的所有已发行股票，总价值约为 6.7 亿美元。6.7亿美金约合44.97亿人民币,nginx核心模块代码长度198430（包括空格、注释），所以一行代码约为2.6万人民币

官网地址 <www.nginx.org>

Nginx历经十几年的迭代更新（https://nginx.org/en/CHANGES），目前功能已经非常完善且运行稳定，另外Nginx的版本分为开发版、稳定版和过期版，nginx以功能丰富著称，它即可以作为http服务器，也可以作为反向代理服务器或者邮件服务器，能够快速的响应静态网页的请求，支持FastCGI/SSL/Virtual Host/URL Rwrite/Gzip/HTTP Basic Auth/http或者TCP的负载均衡(1.9版本以上且开启stream模块)等功能，并且支持第三方的功能扩展。天猫淘宝京东小米 163 新浪等一线互联网公司都在用Nginx或者进行二次开发

基于Nginx的工作场景

正向代理：代理的客户端（科学上网）
反向代理：代理的服务端