LVS集群 - 技术栈

1.集群和分布式

系统性能扩展方式：

Scale UP：垂直扩展，向上扩展,增强，性能更强的计算机运行同样的服务
Scale Out：水平扩展，向外扩展,增加设备，并行地运行多个服务调度分配问题，Cluster

垂直扩展不再提及：

随着计算机性能的增长，其价格会成倍增长

1.1集群Cluster

Cluster：集群,为解决某个特定问题将多台计算机组合起来形成的单个系统

Cluster分为三种类型：

LB： Load Balancing，负载均衡，多个主机组成，每个主机只承担一部分访问请求
HA： High Availiablity，高可用，避免 SPOF（single Point Of failure）
HPC： High-performance computing，高性能

MTBF:Mean Time Between Failure 平均无故障时间，正常时间

MTTR:Mean Time To Restoration（ repair）平均恢复前时间，故障时间

A = MTBF /（MTBF+MTTR） (0,1)：99%,99.5%,99.9%,99.99%,99.999%

SLA：服务等级协议（简称：SLA，全称：service level agreement）。是在一定开销下为保障服

务的性能和可用性，服务提供商与用户间定义的一种双方认可的协定。通常这个开销是驱动提供服

务质量的主要因素。在常规的领域中，总是设定所谓的三个9，四个9来进行表示，当没有达到这

种水平的时候，就会有一些列的惩罚措施，而运维，最主要的目标就是达成这种服务水平。

1年 = 365天 = 8760小时

90 = (1-90%)*365=36.5天

99 = 8760 * 1% = 87.6小时

99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时

99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟

99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟

99.9999= (1-99.9999%)*365*24*60*60=31秒

#停机时间又分为两种，一种是计划内停机时间，一种是计划外停机时间，而运维则主要关注计划外停机时间。

#轮询（Round Robin）：将收到的访问请求按照顺序轮流分配给群集中的各节点，均等地对待每台服务器，而不管服务器实际的连接数和系统负载。

#加权轮询（Weighted Round Robin）：根据调度器设置的权重值来分发请求，权重值高的节点优先获得任务并且分配的请求越多，这样可以保证性能高的节点承担更多请求。

#最少连接（Least Connections）：根据真实服务器已建立的连接数进行分配，将收到的访问请求优先分配给连接数最少的节点。如果所有的服务器节点性能相近，采用这种方式可以更好地均衡负载。

#加权最少连接（Weighted Least Connections）：在服务器节点的性能差异较大的情况下，调度器可以根据节点服务器负载自动调整权重，权重较高的节点将承担更大比例的活动连接负载。

#IP_Hash根据请求来源的IP地址进行Hash计算，得到后端服务器，这样来自同一个IP的请求总是会落到同一台服务器上处理，以致于可以将请求上下文信息存储在这个服务器上

#url_hash 按访问url的hash结果来分配请求，使每个url定向到同一个后端服务器，后端服务器为缓存时比较有效。具体没研究过

#fair采用的不是内建负载均衡使用的轮换的均衡算法，而是可以根据页面大小、加载时间长短智能的进行负载均衡。也就是根据后端服务器时间来分配用户请求，响应时间短的优先分配

1.2分布式系统

分布式存储：Ceph，GlusterFS，FastDFS，MogileFS

分布式计算：hadoop，Spark

分布式常见应用

分布式应用-服务按照功能拆分，使用微服务（单一应用程序划分成一组小的服务，服务之间互相协调、互相配合，为用户提供最终价值服务）
分布式静态资源--静态资源放在不同的存储集群上
分布式数据和存储--使用key-value缓存系统
分布式计算--对特殊业务使用分布式计算，比如Hadoop集群

1.3集群和分布式

集群：同一个业务系统，部署在多台服务器上。集群中，每一台服务器实现的功能没有差别，数据和代码都是一样的。

分布式：</font>一个业务被拆成多个子业务，或者本身就是不同的业务，部署在多台服务器上。分布式中，每一台服务器实现的功能是有差别的，数据和代码也是不一样的，分布式每台服务器功能加起来，才是完整的业务。

分布式是以缩短单个任务的执行时间来提升效率的，而集群则是通过提高单位时间内执行的任务数来提升效率。

对于大型网站，访问用户很多，实现一个群集，在前面部署一个负载均衡服务器，后面几台服务器完成

同一业务。如果有用户进行相应业务访问时，负载均衡器根据后端哪台服务器的负载情况，决定由给哪

一台去完成响应，并且一台服务器垮了，其它的服务器可以顶上来。分布式的每一个节点，都完成不同

的业务，如果一个节点垮了，那这个业务可能就会失败

1.4集群设计原理

可扩展性---集群的横向扩展能力

可用性---无故障时间 (SLA service level agreement)

性能---访问响应时间

容量---单位时间内的最大并发吞吐量(C10K 并发问题)

1.5集群设计实现

1.5.1基础设施层面

- 提升硬件资源性能---从入口防火墙到后端 web server 均使用更高性能的硬件资源
- 多域名---DNS 轮询A记录解析
- 多入口---将A记录解析到多个公网IP入口
- 多机房---同城+异地容灾
- CDN(Content Delivery Network)---基于GSLB(Global Server Load Balance)实现全局负载均衡，如：DNS

1.5.2业务层面

- 分层：安全层、负载层、静态层、动态层、(缓存层、存储层)持久化与非持久化
- 分割：基于功能分割大业务为小服务
- 分布式：对于特殊场景的业务，使用分布式计算

1.6LB Cluster负载均衡集群

1.6.1按实现方法划分

硬件

F5 Big-IP（*F5*服务器负载均衡模块）

Citrix Netscaler

A10 A10

软件

lvs：Linux Virtual Server，阿里四层 SLB (Server Load Balance)使用

nginx：支持七层调度，阿里七层SLB使用 Tengine

haproxy：支持七层调度

ats：Apache Traffic Server，yahoo捐助给apache

perlbal：Perl 编写

pound

1.6.2基于工作的协议层次划分

传输层（通用）：DNAT 和 DPORT

LVS：

nginx：stream

haproxy：mode tcp

应用层（专用）：针对特定协议，常称为 proxy server

http：nginx, httpd, haproxy(mode http), ...

fastcgi：nginx, httpd, ...

mysql：mysql-proxy, mycat...

1.6.3负载均衡的会话保持

session sticky：同一用户调度固定服务器

Source IP：LVS sh算法（对某一特定服务而言）

session replication：每台服务器拥有全部session（复制）

session multicast cluster

session server：专门的session服务器（server）

Memcached，Redis

1.7HA 高可用集群实现

keepalived：vrrp协议

Ais：应用接口规范

heartbeat

cman+rgmanager(RHCS)

coresync_pacemaker

2.LVS介绍

LVS：Linux Virtual Server，负载调度器，内核集成，章文嵩（花名正明）, 阿里的四层SLB(Server Load Balance)是基于LVS+keepalived实现

LVS 官网：http://www.linuxvirtualserver.org/

阿里SLB和LVS：

https://yq.aliyun.com/articles/1803

https://github.com/alibaba/LVS

2.1LVS工作原理

VS根据请求报文的目标IP和目标协议及端口将其调度转发至某RS，根据调度算法来挑选RS。LVS是内核

级功能，工作在INPUT链的位置，将发往INPUT的流量进行"处理"

$root@localhost \~$ #grep -i -C 10 ipvs /boot/config-3.10.0-693.el7.x86_64

CONFIG_NETFILTER_XT_MATCH_CPU=m

CONFIG_NETFILTER_XT_MATCH_DCCP=m

CONFIG_NETFILTER_XT_MATCH_DEVGROUP=m

CONFIG_NETFILTER_XT_MATCH_DSCP=m

CONFIG_NETFILTER_XT_MATCH_ECN=m

CONFIG_NETFILTER_XT_MATCH_ESP=m

CONFIG_NETFILTER_XT_MATCH_HASHLIMIT=m

CONFIG_NETFILTER_XT_MATCH_HELPER=m

CONFIG_NETFILTER_XT_MATCH_HL=m

CONFIG_NETFILTER_XT_MATCH_IPRANGE=m

CONFIG_NETFILTER_XT_MATCH_IPVS=m

CONFIG_NETFILTER_XT_MATCH_LENGTH=m

CONFIG_NETFILTER_XT_MATCH_LIMIT=m

CONFIG_NETFILTER_XT_MATCH_MAC=m

CONFIG_NETFILTER_XT_MATCH_MARK=m

CONFIG_NETFILTER_XT_MATCH_MULTIPORT=m

CONFIG_NETFILTER_XT_MATCH_NFACCT=m

CONFIG_NETFILTER_XT_MATCH_OSF=m

CONFIG_NETFILTER_XT_MATCH_OWNER=m

CONFIG_NETFILTER_XT_MATCH_POLICY=m

CONFIG_NETFILTER_XT_MATCH_PHYSDEV=m

CONFIG_IP_SET_HASH_NET=m

CONFIG_IP_SET_HASH_NETPORT=m

CONFIG_IP_SET_HASH_NETIFACE=m

CONFIG_IP_SET_LIST_SET=m

CONFIG_IP_VS=m

CONFIG_IP_VS_IPV6=y

CONFIG_IP_VS_DEBUG is not set

CONFIG_IP_VS_TAB_BITS=12

IPVS transport protocol load balancing support

CONFIG_IP_VS_PROTO_TCP=y

CONFIG_IP_VS_PROTO_UDP=y

CONFIG_IP_VS_PROTO_AH_ESP=y

CONFIG_IP_VS_PROTO_ESP=y

CONFIG_IP_VS_PROTO_AH=y

CONFIG_IP_VS_PROTO_SCTP=y

IPVS scheduler 调度算法

CONFIG_IP_VS_RR=m

CONFIG_IP_VS_WRR=m

CONFIG_IP_VS_LC=m

CONFIG_IP_VS_WLC=m

CONFIG_IP_VS_LBLC=m

CONFIG_IP_VS_LBLCR=m

CONFIG_IP_VS_DH=m

CONFIG_IP_VS_SH=m

CONFIG_IP_VS_SED=m

CONFIG_IP_VS_NQ=m

IPVS SH scheduler

CONFIG_IP_VS_SH_TAB_BITS=8

IPVS application helper

CONFIG_IP_VS_FTP=m

CONFIG_IP_VS_NFCT=y

CONFIG_IP_VS_PE_SIP=m

IP: Netfilter Configuration

CONFIG_NF_DEFRAG_IPV4=m

CONFIG_NF_CONNTRACK_IPV4=m

2.2LVS集群类型中的术语

VS：Virtual Server，Director Server(DS), Dispatcher(调度器)，Load Balancer（lvs服务器）
RS：Real Server(lvs), upstream server(nginx), backend server(haproxy)（真实服务器）
CIP：Client IP（客户机IP）
VIP：Virtual serve IP VS外网的IP
DIP：Director IP VS内网的IP
RIP：Real server IP （真实IP）

访问流程：CIP <--> VIP == DIP <--> RIP

3.LVS工作模式和相关命令

3.1LVS集群的工作模式

- lvs-nat：修改请求报文的目标IP,多目标IP的DNAT
- lvs-dr：操纵封装新的MAC地址（直接路由）
- lvs-tun：隧道模式

3.2LVS工作模式总结和比较

	NAT	TUN	DR
优点	端口转换	WAN	性能最好
缺点	性能瓶颈	服务器支持隧道模式	不支持跨网段
真实服务器要求	any	Tunneling	Non-arp device
支持网络	private（私网）	LAN/WAN（私网/公网）	LAN（私网）
真实服务器数量	low (10~20)	High (100)	High (100)
真实服务器网关	lvs内网地址	Own router（网工定义）	Own router（网工定义）

4.LVS调度算法

ipvs scheduler：根据其调度时是否考虑各RS当前的负载状态

分为两种：静态方法和动态方法

仅根据算法本身进行调度

静态：

1、RR：roundrobin，轮询,较常用

2、WRR：Weighted RR，加权轮询,较常用

3、SH：Source Hashing，实现session sticky，源IP地址hash；将来自于同一个IP地址的请求始终发往第一次挑中的RS，从而实现会话绑定

4、DH：Destination Hashing；目标地址哈希，第一次轮询调度至RS，后续将发往同一个目标地址的请求始终转发至第一次挑中的RS，典型使用场景是正向代理缓存场景中的负载均衡,如: Web缓存

动态：

主要根据每RS当前的负载状态及调度算法进行调度Overhead=value 较小的RS将被调度

1、LC：least connections 适用于长连接应用

Overhead=activeconns*256+inactiveconns

2、WLC：Weighted LC，默认调度方法,较常用

Overhead=(activeconns*256+inactiveconns)/weight

3、SED：Shortest Expection Delay，初始连接高权重优先,只检查活动连接,而不考虑非活动连接

Overhead=(activeconns+1)*256/weight

4、NQ：Never Queue，第一轮均匀分配，后续SED

5、LBLC：Locality-Based LC，动态的DH算法，使用场景：根据负载状态实现正向代理,实现Web Cache等

6、LBLCR：LBLC with Replication，带复制功能的LBLC，解决LBLC负载不均衡问题，从负载重的复制到负载轻的RS,,实现Web Cache等