问题与挑战:某公司为了实现某马总造福全人类,红旗插遍全球的宏伟目标,为应对后续用户激增的问题。特别安排了一次针对全体用户的秒杀活动:于XXXX年XX月XX日XX时XX分XX秒开始的秒杀五毛钱一百个QQ币的活动。每个账户仅限一次,总数1000万个。公司董事会经过有关人员书面提议,大家集体开会讨论,经过慎重决策,确定该项目正式立项,成立项目管理委员会,开始项目招标流程。我们成功中标该项目。在相关项目合作手续办理完成以后,我们成立了QQApp五毛专用版项目组。
立项之初,我们分析了项目特点,认识到项目建设难度大。由于业主方是一个广受欢迎的社交大厂,可以预见到QQApp五毛专用版一旦发布,巨大的用户群体会引来海量用户注册、登录、秒杀,享受各种服务,包括不限于网上商城,QQ空间,QQ游戏,QQ博客等。因此甲方公司对于整体系统性能要求极高。我们必须在架构设计时保持严谨、正确、科学的设计方法,才能对项目的功能和质量目标起到保障作用。因此我们决定运用分布式存储,微服务,负载均衡,DNS等多种分布式架构理论及设计方法,结合分层设计的架构思想,力争实现业主方提出的1000万最大并发用户、3000万tps、延时最高不超过500ms的秒杀场景的质量需求。下文将从系统分层的角度,详述在该项目中如何实施分布式架构方法。
一、分布式存储
由于存储层的各项性能指标将决定整个系统的性能,因此存储层的架构设计至关重要。本项目对分布式存储数据进行了分区,分区方式有水平分区和垂直分区两种。本项目对分布式存储数据进行了分区,分区方式有水平分区和垂直分区两种。水平分区是按照一定的分布策略,将数据分布到不同的节点(库,表等)去存储,常见的策略有范围分区、列表分区(枚举分区)、hash分区。垂直分区是按照业务字段进行分类并拆分表格,分布存储到不同的节点。采用分区方案后,针对本项目读多写少,我们对每个存储节点设计成"主从集群"方式实现"读写分离"和数据的"多节点备份"。这样的设计方案适用于性能要求较高的大规模存储系统,既提升了系统的整体并发性、数据存储的高可靠性,又保证了数据的可靠性。
在该项目中,3000万tps的订单数量数据要高效地、可靠地保存到数据库,只靠单点集中式数据库是无法实现的。业务方要求性能的同时,也对存储服务的可用性、数据存储的可靠性提出了需求,例如可用性要达到99.9999%,数据丢失率要小于0.00001%,因此分布式存储的架构方案是该项目的不二之选。我们采取的措施如下:
(1)确定基础技术的选型。我们选用MySQL开源数据库作为基础构件,来搭建分区的每个节点。在每个节点使用两个MySQL组成"主从复制集群",通过MySQL的复制,保证两者数据的一致性。当主库出现问题时,自动化执行"主从切换",升级从库为主库,继续提供数据读写服务,保证两者数据的一致性。当主库出现问题时,自动化执行"主从切换",升级从库为主库,继续提供数据读写服务,保证可用性。
(2)确定分区策略。为了确保数据存储的均匀性,采用了hash的分布策略。对每一个订单的关键信息进行hash运算,并对节点数进行取模后,得到该订单应该归属的存储节点。
(3)确定分区数量。经过负载测试,我们得到每个存储节点上的MySQL主从集群在16核32G内存500G普通SSD磁盘的配置下,在可接受的延时范围内,能够达到3万的tps的性能指标。因此我们决定用1000个分区节点来达到3000万tps指标。
(4)确定透明性等级。为了让应用层更方面的访问数据库,我们选用了Sharing Proxy数据库代理构件,向应用层屏蔽了存储层的细节,达到了"分片透明性"登记。这样应用层访问分布式数据库时,就像访问单点数据库一样简单。
在落实这些策略以后,我们满足了客户所要求的数据存取性能指标,为整个系统的质量达标奠定了基础。
二、微服务化
"微服务化"主张将传统的单体应用拆分成一组小的服务,服务之间互相协作,实现务功能。每个服务运行在独立的进程中,采用轻量级的通信机制协作,保证了每个小服务的封装性、可重用性、易维护性、易扩展性,用以解决业务的复杂性问题。拆解出来的多个小服务有利于实现系统的高并发、高性能、高可用性。
应用层架构需要满足业主方提出的最大1000万并发用户指标。因此我们采用了微服务设计方案,微服务能提供服务的弹性扩展能力,以及并发的扩展能力。业务上我们选用Java的Spring框架,来实现面向用户的业务服务,把电子商城的订单、支付、防伪、溯源,封装成Web Service。在3000万tps的模拟用户压力测试下,不断调整和优化微服务的数量,让应用层的整体资源使用率保持在75%左右,由此确定了各业务微服务的集群数量。
三、负载均衡
通常接入层都会有一个Web服务器,它首先接受客户端的请求,然后将请求传递给应用层的某台服务器去处理。此时它就充当了"负载均衡"功能,决定如何选取应用服务器。
常见的负载均衡策略有轮询法、随机法、源地址哈希法等静态策略,还有最小连接数法、最快响应速度法动态策略。它对于整个系统的分布式架构具有"导流"的作用,也可以提供"限流""熔断"等高级负载均衡策略。
本项目中,应用层拥有庞大的应用层服务器,需要在接入层选用高性能的Web服务器,来充当负载均衡器。经过仔细研究分析和调研,我们最终选择了Nginx来担当Web服务器,并选取了最小连接数法作为负载均衡策略。这可以让每个应用层服务器获取平均网络连接数,使得每个服务的响应用户数基本相等,从而尽可能地提高应用层服务器的利用效率。
在该项目中,由于有秒杀业务压测的场景,所以为了避免单机房的流量瓶颈,更靠近用户来提供服务。由此,我们采用了建设多机房的方案,我们在北京,上海,武汉,深圳,贵阳五地建设了5个机房,分别服务华北、华东、华中、华南、华西的用户。每个机房都有两个接入IP,全部绑定同一个域名。DNS会将域名解析为离访问用户最近的IP地址,这样就可以把全国的用户按照地理位置分配给不同的机房,从而实现更高层面的"负载均衡"。
系统在测试过程中,我们使用漏扫工具发现不少的系统安全漏洞。因此,我们采取了一系列措施提升系统的安全性,例如采取支持HTTPS的传输协议,通过SSL链路实现数据防篡改、数据加密等功能。采用堡垒机监控平台的运维活动,审计所有的运维操作,实现操作系统、数据库、应用等日志统一采集和分析处理。同时充分将代码审查、漏洞扫描、渗透测试等安全检查工作贯穿于维护活动中。
得益于各层面分布式架构方案的综合实施,"QQ五毛"项目质量指标顺利达成。
问题:
-
如何保障该项目的商业收益?拉新与留存的思考?最重要的3个点?思考过程?
-
对于该设计您有什么好的想法?您认为最重要的3个点是什么?您是基于什么样的权衡层面来进行思考的,您的权衡过程是什么?
-
如何保证每个人只能薅一次羊毛?
-
这个系统的可靠性,安全性能有什么更好的方案,请详述最重要的3点,以及您是怎么思考的?
-
后续业务的挑战与演化的方向,以及应对最重要的3个点是啥?
-
马总,这个活动我们打算啥时候开展啊?2024年春节可以不?