云布道师
10 月 31 日,杭州·云栖大会,在阿里云网络技术分论坛,阿里云网络产品线负责人祝顺民带来《Leadership:简单易用的智能云网络------阿里云网络持续演进之路》的主题演讲,全面阐释阿里云飞天洛神云网络(下文简称洛神网络)的产品思考和能力升级。
以让网络更简单为核心,围绕着稳定、安全、性能、自适应弹性、深度可观测和全面自服务等 6 大架构设计理念,洛神网络此次带来全新的产品服务能力升级:
- 持续夯实高可用能力,多个网元产品 SLA 提升到 99.995%,并提供容灾演练,为用户提供更加稳定可靠的连接基座
- 私网连接支持访问 OSS,支持混合云网络加密等,持续夯实云上和上云的网络安全能力
- 单 VPC 默认容纳 IP 数量提升 5 倍,ENI 插拔速率提升 6 倍,TR 带宽提升 10倍,满足新型应用的极致性能要求
- 发布 ALB 固定 IP 模式并把 QPS 提升 10 倍,支持按量付费的自适应弹性能力提升,满足绝大多数业务弹性场景需求
- 网络智能服务 NIS 产品全网免费,提升用户上云全生命周期云网络运维管理能力
- 持续投入建设云网络自服务能力,VPC 发布 IPAM,云网络核心产品 100%接入Terraform,IaC 健壮性提升;高速通道即将发布新的 ECR 专线网关,灵活高效管理专线连接
- 通过技术升级普惠客户:简化核心产商品模型,每月免费赠送 10G 流量,全面支持按量付费,主动和客户分享规模和技术红利
如下是演讲全文(约 7000 多字)
感谢大家来参加云栖大会阿里云网络技术分论坛,很高兴又在一年一度的云栖大会跟大家见面,并跟大家汇报一下云网络的产品能力的构建思考和能力更新。
洛神网络从 2017 年开始就提出一个理念,让网络更简单;做网络的大家都懂,能够让网络更简单,也就意味着可以做得更稳定。但是,随着过去几年网络的产品服务不断完善,不断更新,产品的对象和概念其实越来越多;不经意间,网络慢慢变得复杂起来,而复杂是一切问题的根源。所以,今天我们又提出这个主题,打造简单易用的智能云网络,并通过洛神网络自身演进的历程来跟大家阐述这种理念。
云网络发展历程
围绕着企业上云,云网络在不断地发展,我们一起来看一下整个云网络发展的历程。
- 在 1.0 的阶段,云网络主要提供的是多租户之间的安全隔离的网络环境,在这个阶段,用户最关心的是安全、隔离、私有。
- 到了 2.0 阶段,当用户在云上部署的业务规模越来越大,并开展全球化业务,用户的关注点变成大规模和全球化的网络。
- 到了 3.0 阶段,云已经被大家越来越接受,成为整个云的部署方式,连接所有一切终端来实现各种业务的可能性,包括通过各种小程序来解决我们民生的一些问题,这些都基于云原生来构建。
经历这三个阶段之后,我一直在思考云网络构建的核心思路,我认为最终还是要回归初心,Back to Basic,让网络更简单,洛神网络这列车也是持续在围绕着这个理念高速演进。围绕这个理念,我今天演讲的主题就是打造更加简单易用的智能云网络。
洛神网络层次化产品体系,支撑云原生应用全生命周期部署
洛神网络历经十多年的演进,已经打造了一个丰富完整的云网络产品体系。
从最下面的云网络基础商品,有计费层面的 CDT 和 CU,这是支撑整个洛神网络产品体系的商业基座。再往上一层是全球化网络,企业可以基于这个部署全球化的业务,并连接分支、IDC 以及各种终端;再往上一层是数据中心网络,可以部署丰富的、复杂的、大规模高并发的业务;再往上是应用交付网络,主要做好云上应用负载的托管。
除此之外,我们还构建了云网络的智能管理和运维服务,可以给用户提供高效工具集,让用户更加简单地使用和管理网络;网络构建起来很容易,管好网络,用好网络实际上很难,同时也为了让用户能够更加简单和快速地发现网络故障和问题,这就是我们做智能管理运维这一块的初心。
阿里云网络持续创新之路
针对这些产品和服务,我将会围绕着稳定、安全、性能、自适应弹性、深度可观测和全面自服务来展开介绍洛神网络所做的一些工作。我们认为,这六种能力,代表了云网络产品构建的关键能力:
- 支撑业务的稳定运行
- 全方位的云网络安全
- 追求极致性能
- 面向任意应用负载,支持自适应弹性
- 基于云网络的深度可观测,帮助客户不断优化网络架构
- 以客户的自服务程度为目标,打造产品的易用性
01 支撑业务的稳定运行
"
IT基础设施的稳定是企业业务发展的基石,
随着云上应用持续增加,如何保障业务连续性成为重中之重,
而网络的稳定性,在其中扮演了最关键的角色...
------某头部互联网金融客户 云架构师
"
首先,看一下稳定,稳定永远是第一要素;尤其对于金融等客户来说,IT基础设施的稳定性是企业业务发展的基石,而网络的稳定性在其中又扮演了非常关键的角色,因为网络本质上是基础设施里面的基础设施。
所以,在过去很多年,洛神网络围绕着稳定、高可靠做了非常多的工作,可以说,对稳定性的敬畏,始终刻在云网络的产品基因中:
在全球化网络,我们对专线接入提供了多运营商双线接入的能力,来提升这个混合云链路的可靠性;在跨域连接上,我们提供了超大带宽能力;在数据中心网络,我们基于全分布式的和AZ互相备份的技术方案,来提升可靠性;在应用交付网络,我们通过多出口的多线的互联网接入和跨机房的多活转发能力,来提升应用交互的稳定性。
今年,不限于此,我们持续地深挖技术,夯实产品的可靠性。
首先,基于过去十多年对网元类产品的运营经验和能力沉淀,洛神网络将网元的线上架构再度进行了升级,支撑我们将更多网元产品,比如 ALB/NLB/NAT 网关等的 SLA 从原来的 99.95%提升到 99.995%,把业务的不可用时间缩短 5~10 倍。
除此之外,在公网这一块,我们将骨干网和公网打通,当一个地域的公网出现问题的时候,我们可以快速地将公网切换到另外一个地域的公网出口,这样就提升了公网接入的可靠性。
另外,在跨域网络,我们通过 ZooRoute 这个技术来提升跨域长传链路可靠性,降低不可用时间,ZooRoute 技术通过采用多路径的技术应对长传链路的抖动,并将整个丢包时间缩短了 75%,极大提升链路稳定性。
更进一步,洛神网络还可以和用户一起来主动提升它的应用稳定性
大家做基础设施运维的都知道,当你把基础设施构建起来之后,你心里就放心了吗?不是那么放心,你要经常做一些故障演练,因为你总是会担心问题会不会真的发生,万一发生的时候,你是不是真的可以从容地应对故障的发生。
那么故障的演练怎么进行?通过原来的控制台和 Open API, 把原来的这个组件对象全部改掉或者删掉?反而破坏了拓扑的稳定性。
今年,洛神云网络产品开始构建容灾演练的功能 ,可以让用户在不影响真实业务和组网的情况下,进行主动的有计划的容灾模拟演练,当前已经支持了 ALB/NLB 产品,EC 产品也即将支持,用户可以选择性的基于云网络产品能力开启容灾演练。
以 ALB 的容灾演练为例,ALB 在多个可用区都有 VIP 发布,每个可用区的 VIP 都会接受应用请求。用户可以主动选择关闭某个可用区的 VIP,然后这个时候流量和业务请求自然会切换到其他可用区,而用户就可以通过观察这个切换是否符合预期,来判断容灾架构是否强健;通过容灾回切计划,还可以重新把那个可用区的 VIP 恢复起来,这个就完成了整个容灾演练的过程。
更关键的是,我们把用户的操作,比如打开和关闭的时间,流量切换、转移和恢复的时间,都形成日志并提供给用户,用户可以自己去分析你的容灾演练的准确性。
02 全方位的云网络安全
"
在企业的业务场景中,我们需要做到安全边界清晰,
南北向互联网流量可防护、可溯源,东西向内网流量可管可控,
满足安全合规,例如金融行业的强管控要求...
------某头部互联网金融客户 运维总监
"
第二个是云网络安全,我们还是来看一个我们的客户对安全的理解,"在企业的场景中,我们要做到安全的边界清晰,南北向的互联网的安全,还有一个更关键的是内网安全的可管可控。"
围绕着云网络安全,在过去很长的一段时间,洛神云网络一直在构建丰富的安全能力:在跨域提供了全面的安全合规的跨域组网能力;在 VPC 提供了可选的孤岛VPC,以及安全组、子网 ACL、云防火墙的三层安全体系;在应用交互网络这一层,洛神云网络提供高防 EIP,负载均衡支持一键开通 WAF,提供便捷的业务安全能力开通。
今年,我们持续提升原有的安全能力,并覆盖更多产品。
第一个,私网连接访问 OSS 的能力。
原来的 OSS 发布给用户去连接的时候,都是通过一个共享的公用的 VIP 来给大家互相访问,我们认为这个安全性是不够的,所以我们这一次将 OSS 和 PrivateLink 结合在一起。每个用户可以为他的一个 VPC 里面去定制化一个 PrivateLink 的私网VIP,这个 VIP 只有指定的这个客户的这个 VPC 可以去访问,辅以源端的安全鉴权、访问控制、流量可视化、组网等相关特性,大幅提升访问 OSS 的安全性。
第二个,支持混合云网络的加密。
原来你要去拉一根专线,将你的 IDC 和公共云的 VPC 连接在一起的时候,你用的是运营商的一个专线,运营商这个专线也是私有的,也是让你构建一个私有的网络。这一次我们将 VPN 网关和我们的 EC 产品结合在一起,你就可以将专线链路上传输的流量进行加密,这样就形成了一个混合云自己的 IDC 的安全性。结合公共云的 VPC的安全性,以及中间传输链路的安全性,都可以做到整体的东西向的流量安全。
第三个,结合更多的网络安全合作伙伴,来一起构建更加完整的体系化的安全能力。比如,飞塔在国内首次发布 Flex-VM 的预授权模式,支持类似按量付费的能力,提供企业级的网络安全解决方案。
03 追求极致性能
"
由于RTA广告主需要实时接受大量请求,并结合自身信息
进行快速分析决策,因此他们对延迟、大带宽、
高并发QPS有严格苛刻的性能要求...
------某广告媒体客户 IT架构师
"
另一个是性能,性能是最基础的,也是最关键的网络需求,业务所需的低延迟、大带宽、高并发这些都对网络性能有着苛刻的要求。过去,洛神网络在性能这块也做了非常多的工作。
第一个是大带宽,我们最大的一个客户已经达到了 51.2T 的专线接入带宽,这是一个非常大的带宽;在单个VPC这一块,我们以前支持单个 VPC 6 万个 IP, 6 万个 IP 意味着可以承载六万多个虚拟机或者容器,也是一个非常大的算力规模;针对公网的 EIP,我们也提供 Tb 级的带宽,还有 NAT 200G 的带宽的吞吐能力。
今年,我们把这些能力再次进行大幅的提升。
首先,我们将单个 VPC 容纳的私网IP的数量提升到 30 万,从 6 万提升到 30 万,这是一个非常大的提升。我们认为洛神网络的能力已经大幅地超越了 30 万,因此完全可以给用户提供这么大的一个数量的 IP 能力,没有必要挤牙膏,今年 6 万,明年 7 万,我们选择一次性把这个能力做到 30 万,最大限度地让利客户,让客户尽早享受到云计算规模红利。
第二个,云原生已经被用户天然接受,其中容器的创建速度也成为一个非常关键的业务指标和挑战,决定了 K8S 到底能够做到多弹性。今天,我们将整个洛神网络从控制链路,到虚拟化层,到内核层,进行全面的优化升级。经过这个优化,我们将 ENI 创建的速度提升到每秒 900 个。
第三个,出海等全球化业务的快速发展,提出了构建全球网络的极致性能需求,在 TR 转发路由器上,我们基于过去十多年打造的网络转发和架构的能力,将 TR 的带宽提升到 100G,这也是一个非常大的带宽吞吐。
04 面向任意应用负载的自适应弹性
"
应对突变的流量模型,我们需要任意应用可以弹性发布,
无需关注负载均衡规格,随流量及连接数自适应。
我们在积极探索更简单稳定的网络架构、优化集群数量、
降低部署及维护成本,实现应用负载分发'零'负担...
------某消费电子集团 互联网业务开发部长
"
我们的一个客户曾经说过,他们在面对突发的流量模型的时候,需要应用可以弹性发布,无需关注负载均衡的规格,随流量和连接数自适应,这样客户的业务网络架构就可以更简单和更稳定,管理成本也可以大幅下降。这使得我们近几年一直在思考一个问题,就是关于性能和弹性------尤其是普遍可获取的,确定性的,自适应的弹性能力,我们认为这个能力是云构建的核心能力。
用户在云上部署业务,业务负载会有多高?其实挺难预测的。预测的保守了,可能会导致资源不够用,从而使业务受影响;预测的激进了,好像又用不到那么多,导致资源和成本浪费。那到底预测多少是合适的呢?其实,提前预测业务负载是个基本不可能完成的任务。
那么怎么解决这个问题,最核心的还是要云产品取消实例规格,而是采用自适应弹性的能力来自适应用户业务的增长和业务的突发。如果一个产品有规格,你一定需要考虑我有多少规格是合理的。
在业务刚开始部署的时候,你设了虚线这个规格,好像没事,业务也能正常运行。
第二个阶段,当业务开始增长的时候,你根据你的预测调整了规格,你就碰到第一个问题,叫做你预测乐观了;乐观的预测让你从容应对业务的增长,但会让你开销更大的规格,带来成本的浪费。
在第三个阶段,业务持续向好,又发生了再次叠加的快速增长。这时你对负载的预测过于保守了一些,可能是因为你觉得之前成本有浪费,预测保守一点,结果造成了业务受损。
几年前,洛神网络很多产品就开始提供自适应的弹性能力,即开即用,客户不用再去关注业务需要的规格到底是多大,只要关心业务如何增长。今年,自适应弹性的能力进一步优化和提升,以满足绝大多数弹性场景的需求。
首先,NLB 产品的自适应弹性并发能力提升到 1 亿个,这个弹性在面向海量物联场景时可以发挥关键作用。基于自动弹性的后台,对业务并发、新建、带宽等几个维度进行观测,并且后台实时地去决策,进行弹性伸缩。
第二个,ALB 发布固定 IP 的模式。当你的业务增长的时候,你的 ALB 在多个可用区都有 VIP,你认为这已经很好了,因为它去流量均匀的发散,但是你可能会碰到某些场景受限于 VIP 的增加。为此,我们把 ALB 固定(一个)VIP 的自适应弹性 QPS 提升到 50 万,一个直接的收益就是避免当 VIP 新增带来的域名相关的问题。
第三个,全面支持按量付费的能力,将洛神网络的 CDT 产品,GA 产品,CLB 产品全面支持按量计费的能力,按流量计费,进一步让利客户。
新功能发布:ALB 支持固定 IP 模式
下面,我详细介绍下 ALB 的固定 IP 模式背后的技术。
假设现在你有一个 ALB 实例开启了固定 IP 模式,当这个 ALB 实际的业务在增长的时候,你可以不用去扩容新的VIP,而是可以把请求继续压在这个 VIP 上,洛神网络后台会把这个 ALB 实例的转发集群进行扩容,提升 ALB 的业务的承载能力;
当业务更大了,还可以进行转发集群组内的横向的扩容(新增转发集群),横向纵向结合在一起的时候,就大幅提升了 ALB 的自适应弹性的能力。
而纵向、横向两个维度扩展,可能会带来资源不均衡的问题,增加实时弹性的技术难度,因此我们还提供了一个跨集群水位均衡的技术来平衡水位集群,时刻让整集群水位处在一个最适合弹性伸缩的状态。
05 基于深度可观测,客户网络架构不断优化
"
在网络的复杂环境中,我们亟需感知云上虚拟化网络,
并可视化呈现实时质量,快速的发现和定位网络问题,
以避免自己成为业务的瓶颈,减少被投诉...
------某国际零售巨头 运维总监
"
网络很复杂,网络的复杂度来自于网络对象特别多,对象的状态特别多,对象之间的协议特别多,这三个维度组合在一起,就给网络带来一个织网式的复杂度。网状的结构很容易出问题,而出了问题,能否快速地进行故障发现和解决,是一个很大的挑战。
所以,我们有一个客户就曾跟我们提出,"在网络的复杂环境下,我们其实急需感知云上的虚拟化的网络,并且可视化地呈现实时的质量",这个讲的就是网络的可观测能力。我们再往后看,"快速地发现和定位网络问题",这个讲的是网络故障的快速定位的能力,最后,"避免自己成为业务的瓶颈",也就是快速故障解决的能力,快速解决故障才能最大程度降低对业务的影响,从而减少来自业务的投诉。
今年,我们对网络智能服务 NIS 工具集进行了全新的功能升级,让网络管理效率更高,体验更好,并且现在是免费的。
第一个,NIS 提供了一个深度观测的能力,全场景的覆盖感知,网络的各个维度的用量,9 类指标,57 个观测项。并且这些观测是无侵入式采集的,不会消耗客户的资源来做观测这个能力。
第二个,如果我们发现已经有问题,或者阿里云后台自己发现问题,我们会对用户进行主动预警的事件推送,NIS 的事件中心功能支持 13 类的网络故障的主动推送;另外,还支持全面巡查网络健康,包括实例的健康、路径的连通性和产品关键事件。
目前,部分能力已经可以通过 OpenAPI 获得,并集成到客户自有运维监控系统,客户可以基于 NIS 的能力来构建自己业务网络全生命周期的高效的运维管理能力。
下面我们看一个实际的场景,以前客户要构建业务的云上网络时,涉及到选址、规划、配置、运行,故障等多个环节,大部分操作都是手动的,导致效率低,出现故障难以快速定位。
有了网络智能服务 NIS 工具集之后,用户上云网络的全生命周期就可以进行可视化,API 化的高效管理,包括选址层面的实时性能,大盘规划层面的拓扑的自动绘制能力,配置层面的配置检查和连通性验证,还有运行层面的会话级别的观测,以及故障层面的主动预警,自助诊断,定期巡检等能力。
我们以配置为例,路由配置错误是一个很常见的问题。NIS 可以对路由配置进行检查,如 IP 分配是否正确,合不合理等,NIS 都有类似的配置检查项;当发生故障的时候,你一定希望快速地知道问题的原因并解决问题;针对这类故障问题,NIS 也提供一键诊断的能力,能够让用户快速判断故障的来源和根因在哪里。基于 OpenAPI 用户可以不通过洛神网络的控制台,而是集成到自己的运维系统中,来融入到自己的业务系统里面,更加快速便捷的使用阿里云的网络。
06 客户的自服务程度,是衡量产品易用性的关键
"
在迁移上云的过程中,多团队多项目并发是常态,
网络自动化打通各个复杂环境的能力对我们非常重要,
同时,我们也在积极寻找让部署更简单的工具,
用于保障交付的高效性和流畅性,像 Terraform、FC...
------某 MNC 客户 IT 架构师
"
还有一个是自服务的能力,自动化、更简单易用是云用户的最基础的需求,这是为什么洛神网络一直投入建设云网络的自服务能力。
首先,洛神网络这一次发布 VPC 的 IPAM 功能,让客户更加方便快捷地管理 IP 地址。
第二个,强化用户的诊断能力,包括提供 9 大云网络产品,144 个诊断项的细粒度的诊断能力。
第三个,我们还提供更加健壮的 IaC 能力,可以让用户通过 Terraform 使用云网络产品。当前洛神网络的核心产品已经 100% 接入 Terraform。
我们前面提到真正复杂的是用网和管网,尤其是涉及到多场景的云网络;我们来看一下某头部游戏客户的运维难点,"大规模混合云网络很难管理,点到点互联配置复杂,人工维护静态路由成本高。"
网络最大的特点就是连线多,尤其混合云场景;通过对我们有专线建立混合云链路的用户的统计分析,我们发现平均每专线用户需要配置 2.5 个 VBR, 8.4 个 VPC,以及 21 次的互联配置,这个太复杂了,我们今天要简化它。
我们先来看一下专线接入这一块原来的架构。假设一个阿里云客户从 4 个地域接入了 4 根专线,建立了混合云的链路,它在 4 个地域有 VPC,要把这些全部打通起来,就要建立一个 full-mesh 的(类似于原来VPC peering)连接方式,这种方式最大的特点就是复杂,容易出错,尤其是每增加一个对象,出错等级就大幅地提升。
为了解决这个问题,洛神网络今年将会推出 专线网关ECR (Express Connect Router)。
ECR 可以将两端进行汇聚,然后所有的专线只需要和专线网关 ECR 进行互联,所有的 VPC 也只要跟 ECR 互联,不再采用 full-mesh 的组网方式,而是采用 hub-spoke 的组网方式,整个复杂度大幅地降低,并且整个网络架构也是分层的,从对接的 N 个点变成了中间 ECR 1 个点,路由管理上也大幅简化,并且还提供了 BGP 动态路由同步的功能;除此之外,ECR 还提供路由分组的能力,可以更进一步降低路由配置的复杂度。
"乾以易知,坤以简能"
简单的东西,运作才会高效,才更不容易出错。就像我开始提到的,云网络经过十多年的发展,产品的功能越来越多,计费的形态也越来越多,概念可能也越来越多,学习和理解云网络的成本和门槛越来越高,这一次我们将化繁为简,以技术创新推动用户成本节约,主动和我们的客户分享规模和技术红利。
我们将所有流量计费类的商品合并到公网 CDT,将跨域长传类的流量计费项统一到跨域 CDT,将 SLB、NAT、VPN 这些计费项统一到 CU,用户不需要再去理解新建、并发、带宽这些复杂的概念。
首先,统一了带宽的商品,对公网和跨域统一的计量、售卖和出账,并且 CDT 提供阶梯计费的方式,可以更大程度降低使用费用。同时,今年,我们将对每个用户提供每月 10G 的永久免费流量,我们将跨地域链接支持按量付费,这些都是我们期望给用户更多优惠,降低客户上云的成本。
其次,统一网元计费模型,将 NAT、SLB、TR、GA 这些产品统一到网元计费模型 CU,多个产品的计费规格单位,数据处理计量统一为 CU,并且支持按量付费。今年,CLB、GA 这两个产品新增支持按量付费,TR 作为第一个产品开始支持 Saving Plan,后续也会有更多的网元产品支持起来。对于原本突发型的业务,用户从原本的规格切换到按量付费,成本将会大幅下降,同时会获取到更强大的弹性能力。
END:让网络更简单,普惠千行百业
经过十多年的网络的技术积累,飞天洛神云网络在逐步的成长。围绕着"让网络更简单"这个信念,不断进行技术深耕,将复杂留给自己,将简单留给我们的客户,助力更多的客户上好云,用好云。
我们的 ALB/NLB 助力 TCL 构建了一张弹性智能的全球化物联网络;网易雷火作为知名的游戏制作商,通过 Terraform 使用我们的 TR/EIP 的产品,构建了敏捷安全的全球一张网,大幅提升全球游戏玩家体验;国泰产险基于我们的 CEN/GA/TR/SAG 等产品,构建了高性能弹性的企业级的云网络。
目前我们已服务全球 400 多万客户,1000 多万开发者,未来我们将不忘初心,持续创新,致力于打造更加简单易用的智能云网络。