web基础与http协议

一. web基础

1.1 web的概念

  • 互联网: 是网络的网络,是所有网络类型的母集
  • 因特网: 世界上最大的互联网网络。即因特网概念从属于互联网。
  • 万维网: WWW(world wide web)万维网并非计算机网络,是一个大规模的,联机式的信息存储库,使用链接的方法能从因特网上的一个站点访问另一个站点,具有提供分布式服务的特点。
  • 网页:纯文本格式文件 编写语言为HTML,在用户的浏览器中被"翻译"成网页形式显示出来。
  • 网站:由多个页面构成的,每个网页之间互相连接,通过超链接方式连接。
  • 域名 :浏览网页时输入的网址,例如:www.baidu.com
  • HTTP/HTTPS:HTTP是传输网页的通信协议,而HTTPS是安全传输的通信协议

为解决"用什么样的网络协议来实现整个因特网上的万维网文档"这一难题,就要使万维网客户程序(以浏览器为主,但不限于浏览器)与万维网服务器程序之间的交互遵守严格的协议,即超文本传送协议(HyperText Transfer Protocol)。HTTP是处于应用层的协议,使用TCP传输层协议进行可靠的传送。因此,需要特别提醒的是,万维网是基于因特网的一种广泛因特网应用系统,且万维网采用的是HTTP(80/TCP)和 HTTPS(443/TCP)的传输协议,但因特网还有其他的网络应用系统(如:FTP、SMTP等等)

  • URL:万维网使用统一资源定位符来标志万维网上的各种文档,并使每个文档在整个因特网的范围内具有唯一的标识符
  • HTML:编写网页的语言,使用HTML超文本标记语言

为了解决"怎样使不同作者创作的不同风格的万维网文档,都能在因特网上的各种主机上显示出来,同时使用户清楚地知道在什么地方存在着链接"这一问题,万维网使用超文本标记语言(HyperText Markup Language),使得万维网页面的设计者可以很方便地用链接从页面的某处链接到因特网的任何一个万维网页面,并且能够在自己的主机品目上将这些页面显示出来。HTML与txt一样,仅仅是是一种文档,不同之处在于,这种文档专供于浏览器上为浏览器用户提供统一的界面呈现的统一规约。且具备结构化的特征,这是txt所不具备的强制规定。

  • 超链接:将多个网页连接起来,可以互相切换,可以指定各种网页,只需加入url地址
  • 发布:将制作好的网页上传到服务器供用户访问的过程,部署上云端,申请域名与IP地址映射,方便用户访问。

1.2 web版本

  1. Web1.0:以编辑为特征,网站提供给用户的内容是编辑处理后的,然后用户阅读网站提供的内容 这个过程是网站到用户的单向行为
  2. Web2.0:更注重用户的交互作用,用户既是网站内容的消费者(浏览者),也是网站内容的制造者 加强了网站与用户之间的互动,网站内容基于用户提供,网站的诸多功能也由用户参与建设,实现了网站与用户双向的交流与参与Web2.0特征 用户分享、以兴趣为聚合点的社群、开放的平台,活跃的用户

1.3 静态资源和动态资源

1.3.1 静态资源

静态资源指的是在服务器上保存的文件,其内容在请求和传输过程中不发生变化。 静态资源可以是图片、CSS样式表、JavaScript文件、HTML文件等。 静态资源的请求一般是通过URL直接访问,当客户端发送请求时,服务器直接将这些文件返回给客户端,不进行任何处理。

1.3.2 动态资源

动态资源则是在服务器端通过执行脚本或程序生成的内容,需要占用服务器的资源。 服务器会根据请求中的参数和数据,执行相应的脚本或程序来生成动态内容,然后将生成的内容返回给客户端。 动态资源可以是动态网页、API接口等。

1.3.3静态资源和动态资源区别总结

简单来说,静态资源就是不需要服务器的cpu(处理器)参与计算处理的资源,动态资源是需要cpu参与处理计算的资源

1.3.4 动态网页语言(4)

  • PHP
  • JSP
  • Pyrhon
  • Ruby

2. web相关工具

1.web开发语言(3)

  • html
  • css
  • javascript

html

Hyper Text Markup Language 超文本标记语言,编程语言,主要负责实现页面的结构

CSS:

Cascading Style Sheet 层叠样式表, 定义了如何显示(装扮) HTML 元素,比如:字体大小和颜色属性等。样式通常保存在外部的 .css 文件中,用于存放一些HTML文件的公共属性,从而通过仅编辑一个简单的 CSS 文档,可以同时改变站点中所有页面的布局和外观。

js

javascript,实现网页的动画效果,但实属于静态资源。

2. MIME

MIME : Multipurpose Internet Mail Extensions 多用途互联网邮件扩展

文件 /etc/mime.types ,来自于mailcap包

MIME格式:type/subtype 主要类型/次要类型

bash 复制代码
text/plain   
text/html  
text/css 
image/jpeg   jpg jpeg
image/png 
video/mp4 
application/javascript

通过指定MIME类型为text/html,服务器可以告诉浏览器接收到的数据是HTML格式的网页,浏览器会相应地解析和显示该网页

4.URI和URL

URI:

Uniform Resource Identifier 统一资源标识,分为URL 和 URN

URN:

Uniform Resource Naming,统一资源命名

列如:magnet:?xt=urn:btih:660557A6890EF888666(只是描述了资源的名字,并没有明确该资源在哪里

URL:

Uniform Resorce Locator,统一资源定位符,用于描述某服务器某特定资源位置

两者区别:

URN如同一个人的名称,而URL代表一个人的住址。换言之,URN定义某事物的身份,而URL提供查找该事物的方法。URN仅用于命名,而不指定地URL组成

URL示例

bash 复制代码
http://www.ylc.com:80/xxxxxx/xxxx
​
提供  http服务软件的根  不是操作系统真正的根
​
​
​
http      /var/www/html  
          /data/
          
          
http://apache.org/index.html#projects-list
​
https://list.jd.com/list.html?cat=670,671,672&ev=14_2&sort=sort_totalsales15_desc&trans=1

5.wget工具

css 复制代码
wget [OPTION]... [URL]...
diff 复制代码
-q 静默模式
-c 断点续传
-P /path 保存在指定目录
-O filename 保存为指定文件名,filename 为 - 时,发送至标准输出
--limit-rate= 指定传输速率,单位K,M等

6. curl

curl是基于URL语法在命令行方式下工作的文件传输工具,它支持FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE及LDAP等协议。

可以简单理解为curl是一个字符页面的网页浏览器

css 复制代码
curl [options] [URL...]
diff 复制代码
-A/--user-agent <string> 设置用户代理发送给服务器
-e/--referer <URL> 来源网址
--cacert <file> CA证书 (SSL)
-k/--insecure   允许忽略证书进行 SSL 连接
--compressed 要求返回是压缩的格式
-H/--header "key:value" 自定义首部字段传递给服务器
-i 显示页面内容,包括报文首部信息
-I/--head 只显示响应报文首部信息
-D/--dump-header <file>将url的header信息存放在指定文件中
--basic 使用HTTP基本认证
-u/--user <user[:password]>设置服务器的用户和密码
-L   如果有3xx响应码,重新发请求到新位置
-O 使用URL中默认的文件名保存文件到本地
-o <file> 将网络文件保存为指定的文件中
--limit-rate <rate> 设置传输速度
-0/--http1.0 数字0,使用HTTP 1.0
-v/--verbose 更详细
-C 选项可对文件使用断点续传功能
-c/--cookie-jar <file name> 将url中cookie存放在指定文件中
-x/--proxy <proxyhost[:port]> 指定代理服务器地址
-X/--request <command> 向服务器发送指定请求方法
-U/--proxy-user <user:password> 代理服务器用户和密码
-T 选项可将指定的本地文件上传到FTP服务器上
--data/-d 方式指定使用POST方式传递数据
-s --silent   Silent mode
-b name=data 从服务器响应set-cookie得到值,返回给服务器
-w <format> 显示相应的指定的报文信息,如:%{http_code},%{remote_ip}等
-m, --max-time <time> 允许最大传输时间

7. 压力测试工具

7.1 httpd的压力测试工具:

  • ab, webbench, http_load, seige
  • Jmeter 开源
  • Loadrunner 商业,有相关认证
  • tcpcopy:网易,复制生产环境中的真实请求,并将之保存

ab 来自httpd-tools包

css 复制代码
ab [OPTIONS] URL
diff 复制代码
-n:总请求数
-c:模拟的并发数
-k:以持久连接模式测试

二、HTTP

2.1 HTTP的概念

HTTP超文本传输协议是互联网上应用最为广泛的一种网络协议,它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务端进行数据传输的一种规则。

2.1.1 HTTP的版本

  • HTTP 0.9:1991,原型版本,功能简陋,只有一个命令GET,只能回应HTML格式,已被淘汰。

  • HTTP 1.0:每个TCP连接只能发送一个请求,发送数据完毕,连接就关闭,如果还要请求其他资源,就必须再新建 一个连接引入了POST命令和HEAD命令头信息

    是 ASCII 码,后面数据可为任何格式。服务器回应时会告诉客户端,数据是什么格式。

  • HTTP 1.1:持久连接,即TCP连接默认不关闭,可以被多个请求复用,不用声明Connection: keep-alive。对于同一个域名,大多数浏览器允许同时建立6个持久连接引入了管道机制,即在同一个TCP连接里,客户端可以同时发送多个请求,进一步改进了HTTP协议的效率

  • HTTP/2.0:完全多路复用,在一个连接里,客户端和浏览器都可以同时发送多个请求或回应,而且不用按照顺序一一对应。引入了头信息压缩机制,使用gzip或compress压缩后再发送。支持服务端推送,允许服务器未经请求,主动向客户端发送资源。

2.1.2 HTTP1.0和HTTP1.1之间的区别(5条)

  1. 缓存处理 在HTTP1.0中主要使用header里的If-Modified-Since,Expires来做为缓存判断的标准,HTTP1.1则引入了更多的缓存控制策略。例如Entitytag,If-Unmodified-Since,If-Match,If-None-Match等更多可供选择的缓存头来控制缓存策略。
  2. 带宽优化及网络连接的使用 HTTP1.0中,存在一些浪费带宽的现象,例如客户端只是需要某个对象的一部分,而服务器却将整个对象送过来了,并且不支持断点续传功能,HTTP1.1则在请求头引入了range头域,它允许只请求资源的某个部分,即返回码是206 (Partial Content) , 这样就方便了开发者自由的选择以便于充分利用带宽和连接
  3. 错误通知的管理 在HTTP1.1中新增了24个错误状态响应码,如409(Conflict)表示请求的资源与资源的当前状态发生冲突;410(Gone)表示 服务器上的某个资源被永久性的删除
  4. Host头处理 在HTTP1.0中认为每台服务器都绑定一个唯一的IP地址,因此,请求消息中的RZ并没有传递主机名(hostname)。但随着虚拟主机技术的发展, 在一台物理服务器上可以存在多个虚拟主机(Multi-homed web Servers),并且它们共享一个Ie地址。 HTTP1.1的请求消息和响应消息都应支持Host头域,且请求消息中如果没有inost头域会报告一个错误(400 Bad Request )
  5. 长连接 HTTP1.1支持长连接和请求的流水线处理,在一个TCP连接上可以传送多个HTT请求和响应,减少了建立和关闭连接的消耗和延迟。在HTTP1.1中默认开启connection:keep-alive,一定程度上弥补了HTTP1.0每次请求都要创建连接的缺点

2.2 HTTP工作机制及资源类型

一次http事务包括:

  • http请求: http request
  • http响应: http response

web资源: 一个网页由多个资源(文件)构成,打开一个页面,通常会有多个资源展示出来,但是每个资源都要单独请求。因此,一个"Web 页面"通常并不是单个资源,而是一组资源的集合

资源类型

  • 静态文件:无需服务端做出额外处理,服务器端和客户端的文件内容相同

常见文件后缀:.html, .txt, .jpg,.js,.css,.mp3, .avi

  • 动态文件:服务端执行程序,返回执行的结果,服务器端和客户端的文件内容不相同

常见文件后缀:.php, .jsp ,.asp

2.3 HTTP方法

HTTP 支持几种不同的请求命令,这些命令被称为 HTTP 方法(HTTP method)。

每条 HTTP 请求报文都包含一个方法, 告诉服务器要执行什么动作,包括:获取一个页面,运行一个网关程序,删除一个文件等。

最常用的获取资源的方法是 GETPOSTPUT

HTTP 方法 描述
GET 对服务器资源获取的简单请求
PUT 向服务器提交数据,以修改数据
DELETE 删除服务器上的某些资源
POST 用于发送包含用户提交数据的请求
HEAD 请求页面的首部,获取资源的元信息

2.3.1 GET请求

会向数据库发索取数据的请求,从而来获取信息,该请求不会产生副作用。无论进行多少次操作,结果都是一样的。

2.3.2 PUT请求

是向服务器端发送数据的,从而改变信息,无论进行多少次PUT操作,其结果并没有不同,与GET不同。

2.3.3 POST请求:

POST请求同PUT请求类似,都是向服务器端发送数据的,但是该请求会改变数据的种类等资源,几乎目前所有的提交操作都是用POST请求的

2.3.4 DELETE请求:

就是用来删除某一个资源的请求。

2.3.5 GET 和 POST 比较

GET 方法:

  • 从指定的服务器上获得数据
  • GET请求能被缓存
  • GET请求会保存在浏览器的浏览纪录里
  • GET请求有长度的限制
  • 主要用于获取数据
  • 查询的字符串会显示在URL后缀中,不安全

POST 方法:

  • 提交数据给指定服务器处理
  • POST请求不能被缓存
  • POST请求不会保存在浏览器的浏览纪录里
  • POST请求没有长度限制
  • 查询的字符串不会显示在URL中,比较安全

2.4 HTTP状态码

HTTP 状态码(HTTP Status Code)是用以表示网页服务器 HTTP 响应状态的 3 位数字代码,当浏览器请求某一 URL 时, 服务器根据处理情况返回相应的处理状态。

状态码首位 已定义范围 分类
1xx 100-101 信息提示
2xx 200-206 成功
3xx 300-305 重定向
4xx 400-415 客户端错误
5xx 500-505 服务器错误

2.4.1 HTTP 常见状态码:

状态码 功能描述
200 一切正常
301 永久重定向,将缓存记录在浏览器中
302 临时重定向,没有缓存,每次都要重定向
401 用户名或密码错误
403 禁止访问(客户端IP地址被拒绝)
404 请求的文件不存在
414 请求URL头部过长
500 服务器内部错误
502 无效网关
503 当前服务不可用
504 网关请求超时

2.5 HTTP连接请求:

用户在浏览器输入URL访问时,发起HTTP请求报文,请求中包括请求行、请求头、请求体,服务器收到请求后返回响应报文,包括状态行、响应头、响应体。

2.5.1 浏览器访问的过程

  1. DNS解析 简单来说就是解析域名得到服务端ip地址再返回给客户端解析访问
  2. TCP链接

三次握手,与客户端建立连接的过程

  1. HTTP请求(七步)

若需要访问HTTP访问,需要建立http连接

  1. 浏览器的渲染处理

构建DOM,CSSOM,渲染树,合成绘制

2.5.2 HTTP请求的完整过程(七步)

1.建立连接

客户端与服务端进行连接

2.接收请求

接收客户端请求报文中对某资源的一次请求的过程

3.处理请求

服务器对请求报文进行解析,并获取请求的资源及请求方法等相关信息,根据方法,资源,首部和可选的主体部分对请求进行处理

常用请求:GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS

4.访问资源

服务器获取请求报文中请求的资源web服务器,即存放了web资源的服务器,负责向请求者提供对方请求的静态资源,或动态运行后生成的资源

5.构建响应报文

一旦Web服务器识别除了资源,就执行请求方法中描述的动作,并返回响应报文。响应报文中 包含有响应状态码、响应首部,如果生成了响应主体的话,还包括响应主体

  1. 响应实体:如果事务处理产生了响应主体,就将内容放在响应报文中回送过去。响应报文中通常包括:

描述了响应主体MIME类型Content-Type首部

描述了响应主体长度的Content-Length

实际报文的主体内容:

  1. URL重定向web服务构建的响应并非客户端请求的资源,而是资源另外一个访问路径
  2. MIME类型: Web服务器要负责确定响应主体的MIME类型 。多种配置服务器的方法可将MIME类型与资源管理起来

6.发送响应报文

Web服务器通过连接发送数据时也会面临与接收数据一样的问题。服务器可能有很多条到各个客户端的连接,有些是空闲的,有些在向服务器发送数据,还有一些在向客户端回送响应数据。服务器要记录连接的状态,还要特别注意对持久连接的处理。对非持久连接而言,服务器应该在发送了整条报文之后,关闭自己这一端的连接。对持久连接来说,连接可能仍保持打开状态,在这种情况下,服务器要正确地计算Content-Length首部,不然客户端就无法知道响应什么时候结束

7.记录日志

记录此次访问的相关信息

2.5.3 请求报文

  • 请求行:请求行由请求方法、URL 以及协议版本三部分组成。
  • 请求头:请求头为请求报文添加了一些附加信息,由"名/值"对组成,每行一对,名和值之间使用冒号分隔。
  • 空行:请求头部的最后会有一个空行,表示请求头部结束,接下来为请求体,这一行非常重要,必不可少。
  • 请求体:请求体是请求提交的参数,GET 方法已经在 URL 中指明了参数,所以提交时没有数据。POST 方法提交的参数在请求体中。

常用的请求头:

2.5.4 响应报文

  • 状态行:状态行由协议版本,状态码,状态码描述三部分组成。
  • 响应头:响应头与请求头部类似,为响应报文添加了一些附加信息。
  • 空行:响应头部的最后会有一个空行,表示响应头部结束。
  • 响应体:服务器返回的相应 HTML 数据,浏览器对其解析后显示页面。

常见响应头:

三、httpd服务之Apache

3.1 常见的http服务器程序

  • httpd apache,存在C10K(10K connections)问题
  • nginx 解决C10K问题lighttpd
  • IIS .asp 应用程序服务器
  • tomcat .jsp 应用程序服务器
  • jetty 开源的servlet容器,基于Java的web容器
  • Resin CAUCHO公司,支持servlets和jsp的引擎
  • webshpere:IBM公司
  • weblogic:BEA,Oracle
  • jboss:RedHat,IBM
  • oc4j:Oracle3.1 Apache概述

3.2 Apache概述

Apache(音译为阿帕奇)是世界使用排名第一的Web服务器软件。 它可以运行在几乎所有广泛使用的计算机平台上,由于其跨平台和安全性被广泛使用,是最流行的Web服务器端软件之一。 快速、可靠并且可通过简单的API扩充,将Perl/Python等解释器编译到服务器中。

Apache HTTP Server 之所以受到众多企业的青睐,得益于其代码开源、跨平台、功能模块化、可灵活定制等诸多优点,不仅性能稳定,在安全性方面的表现也十分出色。

3.2.1 Apache的功能

  • 提供http协议服务
  • 多个虚拟主机:IP、Port、FQDN
  • CGI:Common Gateway Interface,通用网关接口,支持动态程序
  • 反向代理
  • 负载均衡
  • 路径别名
  • 丰富的用户认证机制:basic,digest
  • 支持第三方模块

3.2.2 Apache的特性

  • 高度模块化:core + modules
  • DSO:Dynamic Shared Object 动态加载/卸载
  • MPM:multi-processing module 多路处理

3.3 Apache中MPM多路处理模块的三种工作模式

MPM multi-processing module

MPM多处理模块

是 Web 服务器中负责处理并发请求的模块。它定义了服务器如何管理和处理同时到达的请求。MPM 模块的作用是允许多个请求同时被处理,从而提高服务器的性能和吞吐量

1.prefork MPM

多进程I/O模型,每个进程响应一个请求,CentOS 7 httpd默认模型一个主进程:生成和回收n个子进程,创建套接字,不响应请求多个子进程:工作 work进程,每个子进程处理一个请求;系统初始时,预先生成多个空闲进程,等待请求。

Prefork MPM预派生模式,有一个主控制进程,然后生成多个子进程,每个子进程有一个独立的线程响应用户请求,相对比较占用内存,但是比较稳定,可以设置最大和最小进程数,是最古老的一种模式,也是最稳定的模式,适用于访问量不是很大的场景

优点:稳定

缺点:慢,占用资源,不适用于高并发场景

2. worker MPM

复用的多进程I/O模型,多进程多线程,IIS使用此模型。 一个主进程:生成m个子进程,每个子进程负责生个n个线程,每个线程响应一个请求,并发响应请(即m*n)

worker MPM是一种多进程和多线程混合的模型,有一个控制进程,启动多个子进程,每个子进程里面包含固定的线程,使用线程程来处理请求,当线程不够使用的时候会再启动一个新的子进程,然后在进程里面再启动线程处理请求,由于其使用了线程处理请求,因此可以承受更高的并发。

优点:相比prefork 占用的内存较少,可以同时处理更多的请求

缺点:使用keep-alive的长连接方式,某个线程会一直被占据,即使没有传输数据,也需要一直等待到超时才会被释放。如果过多的线程,被这样占据,也会导致在高并发场景下的无服务线程可用。(该问题在prefork模式下,同样会发生)

3. event MPM

事件驱动模型(worker模型的变种),CentOS8 默认模型

一个主进程:生成m个子进程,每个子进程负责生个n个线程,每个线程响应一个请求,并发响应请求:m*n,有专门的监控线程来管理这些keep-alive类型的线程,当有真实请求时,将请求传递给服务线程,执行完毕后,又允许释放。这样增强了高并发场景下的请求处理能力

event MPMApache中最新的模式 ,2012年发布的apache 2.4.X系列正式支持event 模型. 属于事件驱动模型(epoll),每个进程响应多个请求,在现在版本里的已经是稳定可用的模式。它和worker模式很像,最大的区别在于,它解决了keep-alive 场景下,长期被占用的线程的资源浪费问题(某些线程因为被keep-alive ,空挂在哪里等待,中间几乎没有请求过来,甚至等到超时)。event MPM 中,会有一个专门的线程来管理这些keep-alive类型的线程,当有真实请求过来的时候,将请求传递给服务线程,执行完毕后,又允许它释放。这样增强了高并发场景下的请求处理能力event只在有数据发送的时候才开始建立连接,连接请求才会触发工作线程,即使用了TCP 的一个选项,叫做延迟接受连接TCP_DEFER_ACCEPT ,加了这个选项后,若客户端只进行TCP 连接,不发送请求,则不会触发Accept 操作,也就不会触发工作线程去干活,进行了简单的防攻击(TCP连接)

优点:单线程响应多请求,占据更少的内存,高并发下表现更优秀,会有一个专门的线程来管理keep-alive类型的线程,当有真实请求过来的时候,将请求传递给服务线程,执行完毕后,又允许它释放

缺点:没有线程安全控制

httpd-2.4 :event 稳定版centos7 以后默认

httpd-2.2 :event 测试版centos6 默认

3.4 Apache的配置文件位置

bash 复制代码
#主配置文件:
/etc/httpd/conf/httpd.conf
​
#子配置文件:
/etc/httpd/conf.d/*.conf
​
#模块加载的配置文件:
/etc/httpd/conf.d/conf.modules.d/
​
#检查配置语法:
httpd -t 或 apache2 -t
​
#服务单元文件
/usr/lib/systemd/system/httpd.service
​
#配置文件:
/etc/sysconfig/httpd
​
#服务控制和启动:
systemctl enable|disable httpd.service systemctl
{start|stop|restart|status|reload} httpd.service apachectl
start|stop|restart|configtest
​
#站点网页文档根目录:
/var/www/html
​
#模块文件路径:
/etc/httpd/modules
/usr/lib64/httpd/modules
​
#主服务器程序文件:
/usr/sbin/httpd
​
#主进程文件:
/etc/httpd/run/httpd.pid
​
#日志文件目录:
/var/log/httpd
access_log: #访问日志
error_log: #错误日志
​

3.5 httpd服务的安装和相关文件

3.5.1 安装httpd并启动httpd服务

版本说明: CentOS 7 以上,默认系统是httpd 2.4,CentOS 6 版默认为httpd 2.2

Ubuntu 18.04 默认 Apache/2.4.29

安装方式

  • 包安装: centos发行版,稳定,建议使用
  • 编译:定制或特殊需求

3.5.2 httpd-2.4 相关文件

bash 复制代码
#配置文件:
/etc/httpd/conf/httpd.conf 主配置文件
/etc/httpd/conf.d/*.conf 子配置文件
/etc/httpd/conf.d/conf.modules.d/ 模块加载的配置文件
#检查配置语法:httpd -t 或 apache2 -t
​
#服务单元文件:
/usr/lib/systemd/system/httpd.service
配置文件:/etc/sysconfig/httpd
​
#服务控制和启动
systemctl enable|disable httpd.service
systemctl {start|stop|restart|status|reload} httpd.service
apachectl start|stop|restart|configtest
service httpd start|stop|restart|configtest
​
#站点网页文档根目录:
/var/www/html
​
#模块文件路径:
/etc/httpd/modules
/usr/lib64/httpd/modules
​
#主服务器程序文件:
/usr/sbin/httpd

3.6 编译安装httpd(CentOS7)

less 复制代码
[root@centos7 ~]#yum -y install gcc make pcre-devel openssl-devel expat-devel
#下载源代码并解压缩:
[root@centos7 ~]#wget https://downloads.apache.org/apr/apr-1.7.0.tar.bz2
[root@centos7 ~]#wget https://downloads.apache.org//apr/apr-util-1.6.1.tar.bz2
[root@centos7 ~]#wget https://downloads.apache.org//httpd/httpd-2.4.46.tar.bz2
[root@centos7 ~]#ls
httpd-2.4.46.tar.bz2,apr-1.7.0.tar.bz2,apr-util-1.6.1.tar.bz2
[root@centos7 ~]#tar xvf apr-1.7.0.tar.bz2
[root@centos7 ~]#tar xvf apr-util-1.6.1.tar.bz2
[root@centos7 ~]#tar xvf httpd-2.4.46.tar.bz2
​
[root@centos7 ~]#mv apr-1.7.0 httpd-2.4.46/srclib/apr
[root@centos7 ~]#mv apr-util-1.6.1 httpd-2.4.46/srclib/apr-util
[root@centos7 ~]#ls httpd-2.4.46/srclib/
[root@centos7 ~]#apr apr-util Makefile.in
​
bash 复制代码
#!/bin/bash
#Description: httpd source code install
#下载源码包
target_dir=/usr/local/src
install_dir=/usr/local/httpd
download_url=https://mirror.bit.edu.cn/apache/httpd/httpd-2.4.46.tar.bz2
file_name=${download_url##*/}
uncompress_dir=${file_name%.tar*}
rpm -q wget || yum install -y wget
wget -O $target_dir/$file_name $download_url
#安装依赖包
yum install -y gcc make apr-devel apr-util-devel pcre-devel openssl-devel 
redhat-rpm-config
#添加apache用户
id apache &> /dev/null || useradd -r -u 80 -d /var/www -s /sbin/nologin apache
#解压源码包
tar xf $target_dir/$file_name -C $target_dir
cd $target_dir/$uncompress_dir
#编译安装
./configure --prefix=$install_dir --sysconfdir=/etc/httpd --enable-ssl
make -j`lscpu | grep "^CPU(s)" | awk '{print $NF}'` && make install
#设置环境变量
echo 'PATH='$install_dir'/bin:$PATH' > /etc/profile.d/httpd.sh
source /etc/profile.d/httpd.sh
​
#修改配置文件
sed -ri 's#(User )daemon#\1apache#' /etc/httpd/httpd.conf
sed -ri 's#(Group )daemon#\1apache#' /etc/httpd/httpd.conf
#启动httpd服务
cat > /lib/systemd/system/httpd.service << EOF
[Unit]
Description=The Apache HTTP Server
After=network.target remote-fs.target nss-lookup.target
Documentation=man:httpd(8)
Documentation=man:apachectl(8)
[Service]
Type=forking
ExecStart=/usr/local/httpd/bin/apachectl start
ExecReload=/usr/local/httpd/bin/apachectl graceful
ExecStop=/usr/local/httpd/bin/apachectl stop
KillSignal=SIGCONT
PrivateTmp=true
[Install]
WantedBy=multi-user.target
EOF
systemctl daemon-reload
systemctl enable httpd.service
systemctl start httpd.service
​

3.7 httpd常见配置

1.指定服务器名

python 复制代码
[root@localhost ~]#httpd -t
AH00558: httpd: Could not reliably determine the server's fully qualified domain name, using localhost.localdomain. Set the 'ServerName' directive globally to suppress this message
Syntax OK
​
[root@localhost ~]#vim /etc/httpd/conf/httpd.conf
​
#ServerName www.example.com:80
ServerName www.magedu.org
[root@localhost ~]#httpd -t
Syntax OK
​

2.包含其他配置文件(include)

说明:

  • Include和IncludeOptional功能相同,都可以包括其它配置文件
  • 但是当无匹配文件时,include会报错,IncludeOptional会忽略错误
lua 复制代码
Include file-path|directory-path|wildcard
IncludeOptional file-path|directory-path|wildcard
​

include 子配置文件

ini 复制代码
[root@localhost ~]#grep -i include /etc/httpd/conf/httpd.conf
Include conf.modules.d/*.conf
    #   Indexes Includes FollowSymLinks SymLinksifOwnerMatch ExecCGI MultiViews
# Possible values include: debug, info, notice, warn, error, crit,
    # If you include a trailing / on /webpath then the server will
    # To parse .shtml files for server-side includes (SSI):
    # (You will also need to add "Includes" to the "Options" directive.)
    AddOutputFilter INCLUDES .shtml
IncludeOptional conf.d/*.conf
[root@localhost ~]#
​

总目录

ini 复制代码
[root@localhost ~]#grep -i serverroot /etc/httpd/conf/httpd.conf
# with "/", the value of ServerRoot is prepended -- so 'log/access_log'
# with ServerRoot set to '/www' will be interpreted by the
# ServerRoot: The top of the directory tree under which the server's
# ServerRoot at a non-local disk, be sure to specify a local disk on the
# same ServerRoot for multiple httpd daemons, you will need to change at
ServerRoot "/etc/httpd"
​

3.监听地址

css 复制代码
Listen [IP:]PORT

说明:

  1. 省略IP表示为本机所有IP
  2. Listen指令至少一个,可重复出现多次
bash 复制代码
Listen   192.168.1.10:8080
Lsten    80
​
​
vim /etc/httpd/conf.d/test.conf
Listen 8080
​

4.隐藏服务器版本信息

yaml 复制代码
[root@localhost ~]#curl -I 192.168.1.10:80
HTTP/1.1 403 Forbidden
Date: Mon, 21 Aug 2023 10:55:05 GMT
Server: Apache/2.4.6 (CentOS)
Last-Modified: Thu, 16 Oct 2014 13:20:58 GMT
ETag: "1321-5058a1e728280"
Accept-Ranges: bytes
Content-Length: 4897
Content-Type: text/html; charset=UTF-8
​
yaml 复制代码
[root@localhost httpd]#vim conf.d/test.conf
Listen 8080
ServerTokens Prod
​
[root@localhost ~]#curl -I 192.168.1.10:80
HTTP/1.1 403 Forbidden
Date: Mon, 21 Aug 2023 10:59:38 GMT
Server: Apache
Last-Modified: Thu, 16 Oct 2014 13:20:58 GMT
ETag: "1321-5058a1e728280"
Accept-Ranges: bytes
Content-Length: 4897
Content-Type: text/html; charset=UTF-8
//不显示版本
​

5.持久连接

Persistent Connection: 连接建立,每个资源获取完成后不会断开连接,而是继续等待其它的请求完成,默认开启持久连接

断开条件:

  • 时间限制:以秒为单位, 默认5s,httpd-2.4 支持毫秒级
  • 请求数量: 请求数达到指定值,也会断开

副作用:对并发访问量大的服务器,持久连接会使有些请求得不到响应

折中:使用较短的持久连接时间

持久连接相关指令

bash 复制代码
KeepAlive On|Off
KeepAliveTimeout 15      #连接持续15s,可以以ms为单位,默认值为5s
MaxKeepAliveRequests 500  #持久连接最大接收的请求数,默认值100
​

测试方法

vbnet 复制代码
telnet WEB_SERVER_IP PORT
GET /URL HTTP/1.1
Host: WEB_SERVER_IP
​
​
GET /test1 HTTP/1.1
host: 1.1.1.1   
​
csharp 复制代码
[root@localhost httpd]#vim conf.d/test.conf
​
Listen 8080
ServerTokens Prod
MaxKeepAliveRequests 1
KeepAliveTimeout 15
​
​
另一台主机
telnet IP 端口
GET /URL HTTP/1.1
host:1.1.1.1
​

6. DSO (Dynamic Shared Object)

Dynamic Shared Object,加载动态模块配置,不需重启即生效动态模块所在路径: /usr/lib64/httpd/modules/

主配置 /etc/httpd/conf/httpd.conf 文件中指定加载模块配置文件

arduino 复制代码
ServerRoot "/etc/httpd"
Include conf.modules.d/*.conf

配置指定实现模块加载格式:

xml 复制代码
LoadModule <mod_name> <mod_path>

模块文件路径可使用相对路径:相对于ServerRoot(默认/etc/httpd)

bash 复制代码
#查看模块加载的配置文件
​
[root@localhost httpd]#ls /etc/httpd/conf.modules.d/
00-base.conf  00-dav.conf  00-lua.conf  00-mpm.conf  00-proxy.conf  00-systemd.conf  01-cgi.conf
​
[root@localhost httpd]#cat /etc/httpd/conf.modules.d/00-base.conf 
#
# This file loads most of the modules included with the Apache HTTP
# Server itself.
#
​
LoadModule access_compat_module modules/mod_access_compat.so
LoadModule actions_module modules/mod_actions.so
LoadModule alias_module modules/mod_alias.so
LoadModule allowmethods_module modules/mod_allowmethods.so
LoadModule auth_basic_module modules/mod_auth_basic.so
LoadModule auth_digest_module modules/mod_auth_digest.so
LoadModule authn_anon_module modules/mod_authn_anon.so
LoadModule authn_core_module modules/mod_authn_core.so
LoadModule authn_dbd_module modules/mod_authn_dbd.so
LoadModule authn_dbm_module modules/mod_authn_dbm.so
LoadModule authn_file_module modules/mod_authn_file.so
LoadModule authn_socache_module modules/mod_authn_socache.so
...............
​

查看静态编译的模块: httpd -l

查看静态编译及动态装载的模块: httpd -M

csharp 复制代码
[root@localhost httpd]#rpm -ql httpd|grep basic
/usr/lib64/httpd/modules/mod_auth_basic.so
[root@localhost httpd]#httpd -M|grep basic
 auth_basic_module (shared)
[root@localhost httpd]#vim 00-base.conf
#LoadModule auth_basic_module modules/mod_auth_basic.so
//将第10行注释
​
[root@localhost conf.modules.d]#httpd -M|grep basic
[root@localhost conf.modules.d]#
就看不到 auth_basic_module (shared)
​

7.MPM多路处理模块

httpd 支持三种MPM工作模式:prefork, worker, event

ini 复制代码
[root@localhost conf.modules.d]#vim /etc/httpd/conf.modules.d/00-mpm.conf
​
# Select the MPM module which should be used by uncommenting exactly
# one of the following LoadModule lines:
​
# prefork MPM: Implements a non-threaded, pre-forking web server
# See: http://httpd.apache.org/docs/2.4/mod/prefork.html
LoadModule mpm_prefork_module modules/mod_mpm_prefork.so
​
# worker MPM: Multi-Processing Module implementing a hybrid
# multi-threaded multi-process web server
# See: http://httpd.apache.org/docs/2.4/mod/worker.html
#
#LoadModule mpm_worker_module modules/mod_mpm_worker.so
​
# event MPM: A variant of the worker MPM with the goal of consuming
# threads only for connections with active processing
# See: http://httpd.apache.org/docs/2.4/mod/event.html
#
#LoadModule mpm_event_module modules/mod_mpm_event.so
//只能生效一种工作模式,所以其他要注释
​

8.prefork模式相关的配置

arduino 复制代码
StartServers       100
MinSpareServers   50
MaxSpareServers   80
ServerLimit     2560 //最多进程数,最大值 20000
MaxRequestWorkers    2560 //最大的并发连接数,默认256
MaxConnectionsPerChild  4000 //子进程最多能处理的请求数量。在处理MaxRequestsPerChild 个
请求之后,子进程将会被父进程终止,这时候子进程占用的内存就会释放(为0时永远不释放)
MaxRequestsPerChild 4000  //从 httpd.2.3.9开始被MaxConnectionsPerChild代替
​

9.worker和event 模式相关的配置

arduino 复制代码
ServerLimit         16  //最多worker进程数 Upper limit on configurable number of 
processes
StartServers        10  //Number of child server processes created at startup
MaxRequestWorkers  150  //Maximum number of connections that will be processed 
simultaneously
MinSpareThreads     25
MaxSpareThreads     75
ThreadsPerChild     25  //Number of threads created by each child process
​

10.定义Main server的文档页面路径

xml 复制代码
DocumentRoot   "/path"
<directory /path>
 Require all granted
</directory>

说明:

  • DocumentRoot指向的路径为URL路径的起始位置
  • /path 必须显式授权后才可以访问
ruby 复制代码
URL和磁盘路径的映射关系
http://HOST:PORT/test/index.html  --> /data/html/test/index.html

12.虚拟主机

httpd 支持在一台物理主机上实现多个网站,即多虚拟主机

网站的唯一标识:

  • IP相同,但端口不同
  • IP不同,但端口均为默认端口
  • FQDN不同, IP和端口都相同

多虚拟主机有三种实现方案:

  • 基于ip:为每个虚拟主机准备至少一个ip地址
  • 基于port:为每个虚拟主机使用至少一个独立的port
  • 基于FQDN:为每个虚拟主机使用至少一个FQDN,请求报文中首部 Host:www.ylc.com

12.1基于IP地址

sql 复制代码
[root@localhost conf.modules.d]#vim /etc/httpd/conf.d/test.conf
Listen 80
ServerTokens Prod
MaxKeepAliveRequests 1
KeepAliveTimeout 15
​
<VirtualHost 192.168.1.10:80>
    ServerAdmin support@jfedu.net
    DocumentRoot "/var/www/html/accp"
    ServerName www.accp.com
    ErrorLog "logs/www.accp.com_error_log"
    CustomLog "logs/www.accp.com_access_log" common
</VirtualHost>
​
<VirtualHost 192.168.1.100:80>
    ServerAdmin support@jfedu.net
    DocumentRoot "/var/www/html/index.html"
    ServerName www.web.com
    ErrorLog "logs/www.web.com_error_log"
    CustomLog "logs/www.web.com_access_log" common
</VirtualHost>
​
<Directory "/var/www">
    AllowOverride None
    # Allow open access:
    Require all granted
</Directory>
//注意指定不同ip地址,即服务器至少拥有两个ip地址
​

12.2基于端口

sql 复制代码
[root@localhost conf.modules.d]#vim /etc/httpd/conf.d/test.conf
Listen 80
Listen 8080
ServerTokens Prod
MaxKeepAliveRequests 1
KeepAliveTimeout 15
​
<VirtualHost 192.168.1.10:80>
    ServerAdmin support@jfedu.net
    DocumentRoot "/var/www/html/accp"
    ServerName www.accp.com
    ErrorLog "logs/www.accp.com_error_log"
    CustomLog "logs/www.accp.com_access_log" common
</VirtualHost>
​
<VirtualHost 192.168.1.100:8080>
    ServerAdmin support@jfedu.net
    DocumentRoot "/var/www/html/index.html"
    ServerName www.web.com
    ErrorLog "logs/www.web.com_error_log"
    CustomLog "logs/www.web.com_access_log" common
</VirtualHost>
​
<Directory "/var/www">
    AllowOverride None
    # Allow open access:
    Require all granted
</Directory>
​
//注意开头端口号要写下面配置中的两个,而且主配置文件中的端口设置要注释掉,否则冲突
​

12.3 基于域名

sql 复制代码
[root@localhost conf.modules.d]#vim /etc/httpd/conf.d/test.conf
Listen 80
ServerTokens Prod
MaxKeepAliveRequests 1
KeepAliveTimeout 15
​
<VirtualHost 192.168.1.10:80>
    ServerAdmin support@jfedu.net
    DocumentRoot "/var/www/html/accp"
    ServerName www.accp.com
    ErrorLog "logs/www.accp.com_error_log"
    CustomLog "logs/www.accp.com_access_log" common
</VirtualHost>
​
<VirtualHost 192.168.1.10:80>
    ServerAdmin support@jfedu.net
    DocumentRoot "/var/www/html/index.html"
    ServerName www.web.com
    ErrorLog "logs/www.web.com_error_log"
    CustomLog "logs/www.web.com_access_log" common
</VirtualHost>
​
<Directory "/var/www">
    AllowOverride None
    # Allow open access:
    Require all granted
</Directory>
​
//只需要指明ServerName为不同域名,用户访问哪个域名就会去到哪个首页,此方法最为广泛
​

四、Cookie和session

无状态协议是指协议对事物处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它应答就很快。

HTTP协议这种特性有优点也有缺点,优点在于解放了服务器,每一次请求"点到为止",不会造成不必要的连接占用,缺点在于如果为了保留状态,每次请求都会传输大量的重复信息内容。

可是随着 Web 的不断发展,很多业务都需要对通信状态进行保存.如果是一次性会话的过程: 打开浏览器 -> 访问一些服务器内容 -> 关闭浏览器但目前有很多WEB访问场景,并不是一次性会话,而是多次相关的会话,比如:

  • 登录场景

打开浏览器 -> 浏览到登陆页面 -> 输入用户名和密码 -> 访问到用户主页(显示用户名) -> 修改密码(输入原密码)-> 修改收货地址...

问题:在此处登录会话过程中产生的数据(用户会话数据)如何保存下来呢?

  • 购物场景

打开浏览器 -> 浏览商品列表 -> 加入购物车(把商品信息保存下来) -> 关闭浏览器打开浏览器-> 直接进入购物车 -> 查看到上次加入购物车的商品 -> 下订单 -> 支付

问题: 在购物会话过程中,如何保存商品信息?

以上场景都需要保留会话数据,需要会话管理机制。

会话管理: 管理浏览器客户端和服务器端之间会话过程中产生的会话数据。

为了会话管理,HTTP就需要传输大量重复信息内容的问题,造成大量的网络带宽消耗。于是 CookieSession 技术闪亮登场了,它们可以为用户进行会话管理,实现保存状态

1.cookie

类型为"小型文本文件",指某些网站为了辨别用户身份而储存在用户本地终端(Client Side)上的数据(通常经过加密)。Cookie 技术通过在请求和响应报文中写入 Cookie 信息来控制客户端的状态

Cookie基于HTTP协议,也叫Web Cookie或浏览器Cookie,是服务器发送到用户浏览器并保存在客户端本地的一小块数据,它会在浏览器下次向同一服务器再发起请求时被携带并发送到服务器上。

bash 复制代码
#第一次请求过程
浏览器第一次发送请求时,不会携带任何cookie信息
服务器接收到请求之后,发现请求中没有任何cookie信息
服务器生成和设置一个cookie.并将此cookie设置通过set_cookie的首部字段保存在响应报文中返回给浏
览器
浏览器接收到这个响应报文之后,发现里面有cookie信息,浏览器会将cookie信息保存起来
#第二次及其之后的过程
当浏览器第二次及其之后的请求报文中自动 cookie的首部字段携带第一次响应报文中获取的cookie信息
服务器再次接收到请求之后,会发现请求中携带的cookie信息,这样的话就认识是谁发的请求了
之后的响应报文中不会再添加set_cookie首部字段
​

Cookie主要用于以下三个方面

  • 会话状态管理(如用户登录状态、购物车、游戏分数或其它需要记录的信息)
  • 个性化设置(如用户自定义设置、主题等)
  • 浏览器行为跟踪(如跟踪分析用户行为等)

2.session

cookie和session的相同与不同

  • cookie通常是在服务器生成,但也可以在客户端生成,session是在服务器端生成的
  • session 将数据信息保存在服务器端,可以是内存,文件,数据库等多种形式,cookie 将数据保存在客户端的内存或文件中
  • 单个cookie保存的数据不能超过4K,每个站点cookie个数有限制,比如IE8为50个、Firefox为50个、Opera为30个;session存储在服务器,没有容量限制
  • cookie存放在用户本地,可以被轻松访问和修改,安全性不高;session存储于服务器,比较安全
  • cookie有会话cookie和持久cookie,生命周期为浏览器会话期的会话cookie保存在缓存,关闭浏览器窗口就消失,持久cookie被保存在硬盘,知道超过设定的过期时间;随着服务端session存储压力增大,会根据需要定期清理session数据
  • session中有众多数据,只将sessionID这一项可以通过cookie发送至客户端进行保留,客户端下次访问时,在请求报文中的cookie会自动携带sessionID,从而和服务器上的的session进行关联

cookie缺点:

  1. 使用cookie来传递信息,随着cookie个数的增多和访问量的增加,它占用的网络带宽也很大,试想假如cookie占用200字节,如果一天的PV有几个亿,那么它要占用多少带宽?
  2. cookie并不安全,因为cookie是存放在客户端的,所以这些cookie可以被访问到,设置可以通过插件添加、修改cookie。所以从这个角度来说,我们要使用sesssion,session是将数据保存在服务端的,只是通过cookie传递一个sessionId而已,所以session更适合存储用户隐私和重要的数据

session 缺点:

  1. 不容易在多台服务器之间共享,可以使用session绑定,session复制,session共享解决
  2. session存放在服务器中,所以session如果太多会非常消耗服务器的性能cookie和session各有优缺点,在大型互联网系统中,单独使用cookie和session都是不可行的
相关推荐
程序员大金2 分钟前
基于SpringBoot+Vue+MySQL的校园一卡通系统
java·javascript·vue.js·spring boot·后端·mysql·tomcat
布说在见17 分钟前
Spring Boot管理用户数据
java·spring boot·后端
zhangxueyi29 分钟前
超详图解 Apache HTTP Server(httpd)安装与验证
linux·http·vmware虚拟机
coder what36 分钟前
基于springboot的图书管理系统
java·spring boot·后端·图书管理系统
码农小旋风36 分钟前
一文详解大语言模型Transformer结构
后端
思禾1 小时前
Qemu开发ARM篇-3、qemu运行uboot演示
linux·arm开发·qemu·uboot
A乐神1 小时前
Django 基础之启动命令和基础配置
后端·python·django
玖石书2 小时前
ubuntu 20.04修改启动项默认等待时间
linux·运维·ubuntu
我写代码菜如坤2 小时前
ubuntu18.04升级到20.04
linux·运维·ubuntu
&黄昏的乐师2 小时前
Ubuntu以及ROS的一些方便设置及使用
linux·运维·ubuntu