云栖大会-简单易用的智能云网络

云布道师

10 月 31 日,杭州·云栖大会,在阿里云网络技术分论坛,阿里云网络产品线负责人祝顺民带来《Leadership:简单易用的智能云网络------阿里云网络持续演进之路》的主题演讲,全面阐释阿里云飞天洛神云网络(下文简称洛神网络)的产品思考和能力升级。

以让网络更简单为核心,围绕着稳定、安全、性能、自适应弹性、深度可观测和全面自服务等 6 大架构设计理念,洛神网络此次带来全新的产品服务能力升级:

  • 持续夯实高可用能力,多个网元产品 SLA 提升到 99.995%,并提供容灾演练,为用户提供更加稳定可靠的连接基座
  • 私网连接支持访问 OSS,支持混合云网络加密等,持续夯实云上和上云的网络安全能力
  • 单 VPC 默认容纳 IP 数量提升 5 倍,ENI 插拔速率提升 6 倍,TR 带宽提升 10倍,满足新型应用的极致性能要求
  • 发布 ALB 固定 IP 模式并把 QPS 提升 10 倍,支持按量付费的自适应弹性能力提升,满足绝大多数业务弹性场景需求
  • 网络智能服务 NIS 产品全网免费,提升用户上云全生命周期云网络运维管理能力
  • 持续投入建设云网络自服务能力,VPC 发布 IPAM,云网络核心产品 100%接入Terraform,IaC 健壮性提升;高速通道即将发布新的 ECR 专线网关,灵活高效管理专线连接
  • 通过技术升级普惠客户:简化核心产商品模型,每月免费赠送 10G 流量,全面支持按量付费,主动和客户分享规模和技术红利

如下是演讲全文(约 7000 多字)

感谢大家来参加云栖大会阿里云网络技术分论坛,很高兴又在一年一度的云栖大会跟大家见面,并跟大家汇报一下云网络的产品能力的构建思考和能力更新。

洛神网络从 2017 年开始就提出一个理念,让网络更简单;做网络的大家都懂,能够让网络更简单,也就意味着可以做得更稳定。但是,随着过去几年网络的产品服务不断完善,不断更新,产品的对象和概念其实越来越多;不经意间,网络慢慢变得复杂起来,而复杂是一切问题的根源。所以,今天我们又提出这个主题,打造简单易用的智能云网络,并通过洛神网络自身演进的历程来跟大家阐述这种理念。

云网络发展历程

围绕着企业上云,云网络在不断地发展,我们一起来看一下整个云网络发展的历程。

  • 在 1.0 的阶段,云网络主要提供的是多租户之间的安全隔离的网络环境,在这个阶段,用户最关心的是安全、隔离、私有。
  • 到了 2.0 阶段,当用户在云上部署的业务规模越来越大,并开展全球化业务,用户的关注点变成大规模和全球化的网络。
  • 到了 3.0 阶段,云已经被大家越来越接受,成为整个云的部署方式,连接所有一切终端来实现各种业务的可能性,包括通过各种小程序来解决我们民生的一些问题,这些都基于云原生来构建。

经历这三个阶段之后,我一直在思考云网络构建的核心思路,我认为最终还是要回归初心,Back to Basic,让网络更简单,洛神网络这列车也是持续在围绕着这个理念高速演进。围绕这个理念,我今天演讲的主题就是打造更加简单易用的智能云网络。

洛神网络层次化产品体系,支撑云原生应用全生命周期部署

洛神网络历经十多年的演进,已经打造了一个丰富完整的云网络产品体系。

从最下面的云网络基础商品,有计费层面的 CDT 和 CU,这是支撑整个洛神网络产品体系的商业基座。再往上一层是全球化网络,企业可以基于这个部署全球化的业务,并连接分支、IDC 以及各种终端;再往上一层是数据中心网络,可以部署丰富的、复杂的、大规模高并发的业务;再往上是应用交付网络,主要做好云上应用负载的托管。

除此之外,我们还构建了云网络的智能管理和运维服务,可以给用户提供高效工具集,让用户更加简单地使用和管理网络;网络构建起来很容易,管好网络,用好网络实际上很难,同时也为了让用户能够更加简单和快速地发现网络故障和问题,这就是我们做智能管理运维这一块的初心。

阿里云网络持续创新之路

针对这些产品和服务,我将会围绕着稳定、安全、性能、自适应弹性、深度可观测和全面自服务来展开介绍洛神网络所做的一些工作。我们认为,这六种能力,代表了云网络产品构建的关键能力:

  1. 支撑业务的稳定运行
  2. 全方位的云网络安全
  3. 追求极致性能
  4. 面向任意应用负载,支持自适应弹性
  5. 基于云网络的深度可观测,帮助客户不断优化网络架构
  6. 以客户的自服务程度为目标,打造产品的易用性
    01 支撑业务的稳定运行
    "
    IT基础设施的稳定是企业业务发展的基石,
    随着云上应用持续增加,如何保障业务连续性成为重中之重,
    而网络的稳定性,在其中扮演了最关键的角色...
    ------某头部互联网金融客户 云架构师
    "

    首先,看一下稳定,稳定永远是第一要素;尤其对于金融等客户来说,IT基础设施的稳定性是企业业务发展的基石,而网络的稳定性在其中又扮演了非常关键的角色,因为网络本质上是基础设施里面的基础设施。

所以,在过去很多年,洛神网络围绕着稳定、高可靠做了非常多的工作,可以说,对稳定性的敬畏,始终刻在云网络的产品基因中:

在全球化网络,我们对专线接入提供了多运营商双线接入的能力,来提升这个混合云链路的可靠性;在跨域连接上,我们提供了超大带宽能力;在数据中心网络,我们基于全分布式的和AZ互相备份的技术方案,来提升可靠性;在应用交付网络,我们通过多出口的多线的互联网接入和跨机房的多活转发能力,来提升应用交互的稳定性。

今年,不限于此,我们持续地深挖技术,夯实产品的可靠性。

首先,基于过去十多年对网元类产品的运营经验和能力沉淀,洛神网络将网元的线上架构再度进行了升级,支撑我们将更多网元产品,比如 ALB/NLB/NAT 网关等的 SLA 从原来的 99.95%提升到 99.995%,把业务的不可用时间缩短 5~10 倍。

除此之外,在公网这一块,我们将骨干网和公网打通,当一个地域的公网出现问题的时候,我们可以快速地将公网切换到另外一个地域的公网出口,这样就提升了公网接入的可靠性。

另外,在跨域网络,我们通过 ZooRoute 这个技术来提升跨域长传链路可靠性,降低不可用时间,ZooRoute 技术通过采用多路径的技术应对长传链路的抖动,并将整个丢包时间缩短了 75%,极大提升链路稳定性。

更进一步,洛神网络还可以和用户一起来主动提升它的应用稳定性

大家做基础设施运维的都知道,当你把基础设施构建起来之后,你心里就放心了吗?不是那么放心,你要经常做一些故障演练,因为你总是会担心问题会不会真的发生,万一发生的时候,你是不是真的可以从容地应对故障的发生。

那么故障的演练怎么进行?通过原来的控制台和 Open API, 把原来的这个组件对象全部改掉或者删掉?反而破坏了拓扑的稳定性。

今年,洛神云网络产品开始构建容灾演练的功能 ,可以让用户在不影响真实业务和组网的情况下,进行主动的有计划的容灾模拟演练,当前已经支持了 ALB/NLB 产品,EC 产品也即将支持,用户可以选择性的基于云网络产品能力开启容灾演练。

以 ALB 的容灾演练为例,ALB 在多个可用区都有 VIP 发布,每个可用区的 VIP 都会接受应用请求。用户可以主动选择关闭某个可用区的 VIP,然后这个时候流量和业务请求自然会切换到其他可用区,而用户就可以通过观察这个切换是否符合预期,来判断容灾架构是否强健;通过容灾回切计划,还可以重新把那个可用区的 VIP 恢复起来,这个就完成了整个容灾演练的过程。

更关键的是,我们把用户的操作,比如打开和关闭的时间,流量切换、转移和恢复的时间,都形成日志并提供给用户,用户可以自己去分析你的容灾演练的准确性。

02 全方位的云网络安全
"
在企业的业务场景中,我们需要做到安全边界清晰,
南北向互联网流量可防护、可溯源,东西向内网流量可管可控,
满足安全合规,例如金融行业的强管控要求...
------某头部互联网金融客户 运维总监
"

第二个是云网络安全,我们还是来看一个我们的客户对安全的理解,"在企业的场景中,我们要做到安全的边界清晰,南北向的互联网的安全,还有一个更关键的是内网安全的可管可控。"

围绕着云网络安全,在过去很长的一段时间,洛神云网络一直在构建丰富的安全能力:在跨域提供了全面的安全合规的跨域组网能力;在 VPC 提供了可选的孤岛VPC,以及安全组、子网 ACL、云防火墙的三层安全体系;在应用交互网络这一层,洛神云网络提供高防 EIP,负载均衡支持一键开通 WAF,提供便捷的业务安全能力开通。

今年,我们持续提升原有的安全能力,并覆盖更多产品。

第一个,私网连接访问 OSS 的能力。

原来的 OSS 发布给用户去连接的时候,都是通过一个共享的公用的 VIP 来给大家互相访问,我们认为这个安全性是不够的,所以我们这一次将 OSS 和 PrivateLink 结合在一起。每个用户可以为他的一个 VPC 里面去定制化一个 PrivateLink 的私网VIP,这个 VIP 只有指定的这个客户的这个 VPC 可以去访问,辅以源端的安全鉴权、访问控制、流量可视化、组网等相关特性,大幅提升访问 OSS 的安全性。

第二个,支持混合云网络的加密。

原来你要去拉一根专线,将你的 IDC 和公共云的 VPC 连接在一起的时候,你用的是运营商的一个专线,运营商这个专线也是私有的,也是让你构建一个私有的网络。这一次我们将 VPN 网关和我们的 EC 产品结合在一起,你就可以将专线链路上传输的流量进行加密,这样就形成了一个混合云自己的 IDC 的安全性。结合公共云的 VPC的安全性,以及中间传输链路的安全性,都可以做到整体的东西向的流量安全。

第三个,结合更多的网络安全合作伙伴,来一起构建更加完整的体系化的安全能力。比如,飞塔在国内首次发布 Flex-VM 的预授权模式,支持类似按量付费的能力,提供企业级的网络安全解决方案。

03 追求极致性能
"
由于RTA广告主需要实时接受大量请求,并结合自身信息
进行快速分析决策,因此他们对延迟、大带宽、
高并发QPS有严格苛刻的性能要求...
------某广告媒体客户 IT架构师
"

另一个是性能,性能是最基础的,也是最关键的网络需求,业务所需的低延迟、大带宽、高并发这些都对网络性能有着苛刻的要求。过去,洛神网络在性能这块也做了非常多的工作。

第一个是大带宽,我们最大的一个客户已经达到了 51.2T 的专线接入带宽,这是一个非常大的带宽;在单个VPC这一块,我们以前支持单个 VPC 6 万个 IP, 6 万个 IP 意味着可以承载六万多个虚拟机或者容器,也是一个非常大的算力规模;针对公网的 EIP,我们也提供 Tb 级的带宽,还有 NAT 200G 的带宽的吞吐能力。

今年,我们把这些能力再次进行大幅的提升。

首先,我们将单个 VPC 容纳的私网IP的数量提升到 30 万,从 6 万提升到 30 万,这是一个非常大的提升。我们认为洛神网络的能力已经大幅地超越了 30 万,因此完全可以给用户提供这么大的一个数量的 IP 能力,没有必要挤牙膏,今年 6 万,明年 7 万,我们选择一次性把这个能力做到 30 万,最大限度地让利客户,让客户尽早享受到云计算规模红利。

第二个,云原生已经被用户天然接受,其中容器的创建速度也成为一个非常关键的业务指标和挑战,决定了 K8S 到底能够做到多弹性。今天,我们将整个洛神网络从控制链路,到虚拟化层,到内核层,进行全面的优化升级。经过这个优化,我们将 ENI 创建的速度提升到每秒 900 个。

第三个,出海等全球化业务的快速发展,提出了构建全球网络的极致性能需求,在 TR 转发路由器上,我们基于过去十多年打造的网络转发和架构的能力,将 TR 的带宽提升到 100G,这也是一个非常大的带宽吞吐。

04 面向任意应用负载的自适应弹性
"
应对突变的流量模型,我们需要任意应用可以弹性发布,
无需关注负载均衡规格,随流量及连接数自适应。
我们在积极探索更简单稳定的网络架构、优化集群数量、
降低部署及维护成本,实现应用负载分发'零'负担...
------某消费电子集团 互联网业务开发部长
"

我们的一个客户曾经说过,他们在面对突发的流量模型的时候,需要应用可以弹性发布,无需关注负载均衡的规格,随流量和连接数自适应,这样客户的业务网络架构就可以更简单和更稳定,管理成本也可以大幅下降。这使得我们近几年一直在思考一个问题,就是关于性能和弹性------尤其是普遍可获取的,确定性的,自适应的弹性能力,我们认为这个能力是云构建的核心能力。

用户在云上部署业务,业务负载会有多高?其实挺难预测的。预测的保守了,可能会导致资源不够用,从而使业务受影响;预测的激进了,好像又用不到那么多,导致资源和成本浪费。那到底预测多少是合适的呢?其实,提前预测业务负载是个基本不可能完成的任务。

那么怎么解决这个问题,最核心的还是要云产品取消实例规格,而是采用自适应弹性的能力来自适应用户业务的增长和业务的突发。如果一个产品有规格,你一定需要考虑我有多少规格是合理的。

在业务刚开始部署的时候,你设了虚线这个规格,好像没事,业务也能正常运行。

第二个阶段,当业务开始增长的时候,你根据你的预测调整了规格,你就碰到第一个问题,叫做你预测乐观了;乐观的预测让你从容应对业务的增长,但会让你开销更大的规格,带来成本的浪费。

在第三个阶段,业务持续向好,又发生了再次叠加的快速增长。这时你对负载的预测过于保守了一些,可能是因为你觉得之前成本有浪费,预测保守一点,结果造成了业务受损。

几年前,洛神网络很多产品就开始提供自适应的弹性能力,即开即用,客户不用再去关注业务需要的规格到底是多大,只要关心业务如何增长。今年,自适应弹性的能力进一步优化和提升,以满足绝大多数弹性场景的需求。
首先,NLB 产品的自适应弹性并发能力提升到 1 亿个,这个弹性在面向海量物联场景时可以发挥关键作用。基于自动弹性的后台,对业务并发、新建、带宽等几个维度进行观测,并且后台实时地去决策,进行弹性伸缩。

第二个,ALB 发布固定 IP 的模式。当你的业务增长的时候,你的 ALB 在多个可用区都有 VIP,你认为这已经很好了,因为它去流量均匀的发散,但是你可能会碰到某些场景受限于 VIP 的增加。为此,我们把 ALB 固定(一个)VIP 的自适应弹性 QPS 提升到 50 万,一个直接的收益就是避免当 VIP 新增带来的域名相关的问题。

第三个,全面支持按量付费的能力,将洛神网络的 CDT 产品,GA 产品,CLB 产品全面支持按量计费的能力,按流量计费,进一步让利客户。

新功能发布:ALB 支持固定 IP 模式

下面,我详细介绍下 ALB 的固定 IP 模式背后的技术。

假设现在你有一个 ALB 实例开启了固定 IP 模式,当这个 ALB 实际的业务在增长的时候,你可以不用去扩容新的VIP,而是可以把请求继续压在这个 VIP 上,洛神网络后台会把这个 ALB 实例的转发集群进行扩容,提升 ALB 的业务的承载能力;

当业务更大了,还可以进行转发集群组内的横向的扩容(新增转发集群),横向纵向结合在一起的时候,就大幅提升了 ALB 的自适应弹性的能力。

而纵向、横向两个维度扩展,可能会带来资源不均衡的问题,增加实时弹性的技术难度,因此我们还提供了一个跨集群水位均衡的技术来平衡水位集群,时刻让整集群水位处在一个最适合弹性伸缩的状态。

05 基于深度可观测,客户网络架构不断优化
"
在网络的复杂环境中,我们亟需感知云上虚拟化网络,
并可视化呈现实时质量,快速的发现和定位网络问题,
以避免自己成为业务的瓶颈,减少被投诉...
------某国际零售巨头 运维总监
"

网络很复杂,网络的复杂度来自于网络对象特别多,对象的状态特别多,对象之间的协议特别多,这三个维度组合在一起,就给网络带来一个织网式的复杂度。网状的结构很容易出问题,而出了问题,能否快速地进行故障发现和解决,是一个很大的挑战。

所以,我们有一个客户就曾跟我们提出,"在网络的复杂环境下,我们其实急需感知云上的虚拟化的网络,并且可视化地呈现实时的质量",这个讲的就是网络的可观测能力。我们再往后看,"快速地发现和定位网络问题",这个讲的是网络故障的快速定位的能力,最后,"避免自己成为业务的瓶颈",也就是快速故障解决的能力,快速解决故障才能最大程度降低对业务的影响,从而减少来自业务的投诉。

今年,我们对网络智能服务 NIS 工具集进行了全新的功能升级,让网络管理效率更高,体验更好,并且现在是免费的。

第一个,NIS 提供了一个深度观测的能力,全场景的覆盖感知,网络的各个维度的用量,9 类指标,57 个观测项。并且这些观测是无侵入式采集的,不会消耗客户的资源来做观测这个能力。

第二个,如果我们发现已经有问题,或者阿里云后台自己发现问题,我们会对用户进行主动预警的事件推送,NIS 的事件中心功能支持 13 类的网络故障的主动推送;另外,还支持全面巡查网络健康,包括实例的健康、路径的连通性和产品关键事件。

目前,部分能力已经可以通过 OpenAPI 获得,并集成到客户自有运维监控系统,客户可以基于 NIS 的能力来构建自己业务网络全生命周期的高效的运维管理能力。

下面我们看一个实际的场景,以前客户要构建业务的云上网络时,涉及到选址、规划、配置、运行,故障等多个环节,大部分操作都是手动的,导致效率低,出现故障难以快速定位。

有了网络智能服务 NIS 工具集之后,用户上云网络的全生命周期就可以进行可视化,API 化的高效管理,包括选址层面的实时性能,大盘规划层面的拓扑的自动绘制能力,配置层面的配置检查和连通性验证,还有运行层面的会话级别的观测,以及故障层面的主动预警,自助诊断,定期巡检等能力。

我们以配置为例,路由配置错误是一个很常见的问题。NIS 可以对路由配置进行检查,如 IP 分配是否正确,合不合理等,NIS 都有类似的配置检查项;当发生故障的时候,你一定希望快速地知道问题的原因并解决问题;针对这类故障问题,NIS 也提供一键诊断的能力,能够让用户快速判断故障的来源和根因在哪里。基于 OpenAPI 用户可以不通过洛神网络的控制台,而是集成到自己的运维系统中,来融入到自己的业务系统里面,更加快速便捷的使用阿里云的网络。

06 客户的自服务程度,是衡量产品易用性的关键
"
在迁移上云的过程中,多团队多项目并发是常态,
网络自动化打通各个复杂环境的能力对我们非常重要,
同时,我们也在积极寻找让部署更简单的工具,
用于保障交付的高效性和流畅性,像 Terraform、FC...
------某 MNC 客户 IT 架构师
"

还有一个是自服务的能力,自动化、更简单易用是云用户的最基础的需求,这是为什么洛神网络一直投入建设云网络的自服务能力。
首先,洛神网络这一次发布 VPC 的 IPAM 功能,让客户更加方便快捷地管理 IP 地址。

第二个,强化用户的诊断能力,包括提供 9 大云网络产品,144 个诊断项的细粒度的诊断能力。

第三个,我们还提供更加健壮的 IaC 能力,可以让用户通过 Terraform 使用云网络产品。当前洛神网络的核心产品已经 100% 接入 Terraform。

我们前面提到真正复杂的是用网和管网,尤其是涉及到多场景的云网络;我们来看一下某头部游戏客户的运维难点,"大规模混合云网络很难管理,点到点互联配置复杂,人工维护静态路由成本高。"

网络最大的特点就是连线多,尤其混合云场景;通过对我们有专线建立混合云链路的用户的统计分析,我们发现平均每专线用户需要配置 2.5 个 VBR, 8.4 个 VPC,以及 21 次的互联配置,这个太复杂了,我们今天要简化它。

我们先来看一下专线接入这一块原来的架构。假设一个阿里云客户从 4 个地域接入了 4 根专线,建立了混合云的链路,它在 4 个地域有 VPC,要把这些全部打通起来,就要建立一个 full-mesh 的(类似于原来VPC peering)连接方式,这种方式最大的特点就是复杂,容易出错,尤其是每增加一个对象,出错等级就大幅地提升。

为了解决这个问题,洛神网络今年将会推出 专线网关ECR (Express Connect Router)。

ECR 可以将两端进行汇聚,然后所有的专线只需要和专线网关 ECR 进行互联,所有的 VPC 也只要跟 ECR 互联,不再采用 full-mesh 的组网方式,而是采用 hub-spoke 的组网方式,整个复杂度大幅地降低,并且整个网络架构也是分层的,从对接的 N 个点变成了中间 ECR 1 个点,路由管理上也大幅简化,并且还提供了 BGP 动态路由同步的功能;除此之外,ECR 还提供路由分组的能力,可以更进一步降低路由配置的复杂度。

"乾以易知,坤以简能"

简单的东西,运作才会高效,才更不容易出错。就像我开始提到的,云网络经过十多年的发展,产品的功能越来越多,计费的形态也越来越多,概念可能也越来越多,学习和理解云网络的成本和门槛越来越高,这一次我们将化繁为简,以技术创新推动用户成本节约,主动和我们的客户分享规模和技术红利。

我们将所有流量计费类的商品合并到公网 CDT,将跨域长传类的流量计费项统一到跨域 CDT,将 SLB、NAT、VPN 这些计费项统一到 CU,用户不需要再去理解新建、并发、带宽这些复杂的概念。

首先,统一了带宽的商品,对公网和跨域统一的计量、售卖和出账,并且 CDT 提供阶梯计费的方式,可以更大程度降低使用费用。同时,今年,我们将对每个用户提供每月 10G 的永久免费流量,我们将跨地域链接支持按量付费,这些都是我们期望给用户更多优惠,降低客户上云的成本。

其次,统一网元计费模型,将 NAT、SLB、TR、GA 这些产品统一到网元计费模型 CU,多个产品的计费规格单位,数据处理计量统一为 CU,并且支持按量付费。今年,CLB、GA 这两个产品新增支持按量付费,TR 作为第一个产品开始支持 Saving Plan,后续也会有更多的网元产品支持起来。对于原本突发型的业务,用户从原本的规格切换到按量付费,成本将会大幅下降,同时会获取到更强大的弹性能力。

END:让网络更简单,普惠千行百业

经过十多年的网络的技术积累,飞天洛神云网络在逐步的成长。围绕着"让网络更简单"这个信念,不断进行技术深耕,将复杂留给自己,将简单留给我们的客户,助力更多的客户上好云,用好云。

我们的 ALB/NLB 助力 TCL 构建了一张弹性智能的全球化物联网络;网易雷火作为知名的游戏制作商,通过 Terraform 使用我们的 TR/EIP 的产品,构建了敏捷安全的全球一张网,大幅提升全球游戏玩家体验;国泰产险基于我们的 CEN/GA/TR/SAG 等产品,构建了高性能弹性的企业级的云网络。

目前我们已服务全球 400 多万客户,1000 多万开发者,未来我们将不忘初心,持续创新,致力于打造更加简单易用的智能云网络。

相关推荐
首席数智官8 小时前
阿里云AI基础设施全面升级,模型算力利用率提升超20%
人工智能·阿里云·云计算
圣圣不爱学习10 小时前
阿里云kafka消息写入topic失败
阿里云·kafka
【D'accumulation】1 天前
配置RHEL和centOS的阿里云镜像源
linux·阿里云·centos
阿里云大数据AI技术2 天前
对接开源大模型应用开发平台最佳实践
人工智能·阿里云·llm·opensearch
Java码农杂谈2 天前
浅谈Tair缓存的三种存储引擎MDB、LDB、RDB
java·redis·分布式·后端·阿里云·缓存
Jasonakeke2 天前
本地镜像发布到阿里云
阿里云·云计算
奔跑的蜗牛fzq2 天前
阿里云专业翻译api对接
阿里云·云计算
风清已存在2 天前
阿里云OSS与IOT使用详解
物联网·阿里云·云计算
阿里云视频云2 天前
信通院发布首个《大模型媒体生产与处理》标准,阿里云智能媒体服务作为业界首家“卓越级”通过
阿里云·云计算·媒体
阿里云视频云3 天前
直播标准权威发布,阿里云RTS获首批卓越级评估认证
阿里云·云计算