华为云Stack的学习(二)

三、华为云Stack产品组件

  • FunsionSphere CPS

提供云平台的基础管理和业务资源(包括计算资源和存储资源)。采用物理服务器方式部署在管理节点。可以做集群的配置,扩容和运维管理。

  • Service OM

提供云服务的运维能力,采用虚拟化方式部署在管理节点。可以做资源管理。

  • FusionCare

作为健康检查和信息收集的运维工具。健康检查提供一键式检查相关节点健康状态的能力,并生成健康检查报告。信息收集 提供快速收集日志的能力,简化运维人员的信息收集工作,方便故障定位。还可以做高阶服务的测试。

  • CloudNetDebug

面向运维人员的,针对Neutron+组网的虚拟网络领域的自动化并行抓包工具。可以做断流检测,无法做丢包检测。

  • eSight

提供服务器、存储设备和网络设备的统一管理。可以做硬件检测。

  • LVS

Linux服务器集群系统,为混合云公共服务提供一级负载均衡。

  • Nginx

为云服务Console页面提供反向代理,实现业务和数据在各个Console节点的负载均衡,达到流量分发的目的。云服务的请求会通过LVS下发,转发到 Nginx,Nginx把相应云服务的请求转发到云服务 Console。

  • HAProxy

对云服务提供从Console节点到Service节点的负载均衡。云服务请求由Console下发到HAProxy, HAProxy根据相应的请求转发到对应云服务的Service节点。

1.FusionSphere OpenStack方案介绍

FusionSphere是华为面向多行业客户推出的云操作系统解决方案。FusionSphere基于开放的OpenStack架构,并针对企业云计算数据中心场景进行设计和优化,提供了强大的虚拟化功能和资源池管理能力、丰富的云基础服务组件和工具、开放标准化的API接口。可以帮助客户水平者恒数据中心物理和虚拟资源,垂直优化业务平台。

特点:

  • **开放性:**FusionSphere基于Mitaka版本的OpenStack构建,消除了厂商锁定,实现了计算、存储、网络等方面的开放性。同时提供标准的OpenStack API接口,方便与第三方厂商产品进行对接和集成。
  • **灵活性:**FusionSphere采用SOA(Service Oriented Architecture)服务化架构,以方便根据用户需求进行功能的扩展和裁剪。
  • **高可靠:**管理服务均以主备或负荷分担模式部署,以消除单点故障;管理数据采用主备方式存储,并定期备份,以确保数据可靠性;将物理网络划分为多个逻辑平面,并采用VLAN方式进行隔离,以保证数据传输的可靠性和安全性。

**CBS:**云启动服务,在OpenStack部署阶段安装操作系统(UVP = EulerOS + KVM),没有操作界面。

**CPS:**云发放服务,通过PXE服务帮助每一个节点安装OpenStack组件。

2.FusionSphere CPS介绍

Cloud Provisioning Service(CPS)负责IaaS的云平台层的部署和升级,是IaaS层中真正面向硬件设备,并将其池化软件化的部件。从外部看,CPS的作用就是完成IaaS层的各种部署、配置、升级。

  • **部署:**软件按照置顶版本安装,装在指定的位置,实例数复合语气,服务的IP符合规划。
  • **配置:**软件按指定的配置项,并满足软件对OS及硬件的依赖(rabbitmq/kafka的磁盘分区,小型化场景的资源隔离等)。
  • **升级:**灰度升级到指定版本。

同libvirt/nova的关系类似,UVP、LVM等软件提供单机的能力,CPS封装后提供跨主机的软件管理和配置能力。

2.1 CPS的功能

CPS的功能分为两类,一类是同底层的工具强相关的,另一类更多是编排和管理。

2.2 CPS部署模式

CPS产品为C/S架构,CPS Server组件部署在控制节点上,运行模式为一主两备,用于接收来自CPS Web Portal或CLI的消息。

CPS Client组件部署在所有节点,每个节点都为主用,用于接收来自CPS Server的消息,并把消息生效到节点里

2.3 CPS界面

CPS的登录地址可在暗转阶段使用自动化安装工具HCSD到处表里获取,由于CPS权限过高,随意操作参数可能导致上层业务问题,所以CPS系统默认只有一个admin用户,且同时只有一个用户可以登录。华为Stack安装完毕,会自动配置单点登录SSO功能,通过运维中心账号可登录CPS,如果手动取消了SSO,便可使用CPS自身的admin密码进行登录。

3.Service OM介绍

Service OM是资源池(计算、存储、网络)以及基础云服务(ECS、EVS、VPC等)的管理工具,管理员使用Service OM对资源池及基础云服务进行管控和配置。

OM的功能

1.流量监控

主页可以对主机状态、虚拟机状态、磁盘状态进行监控,及资源的使用情况进行监控。

2.系统管理

例如进行对接、查看日志、分配任务等操作。

3.资源管理

管理所有的软硬件资源。

4.资源审计

对资源池内的所有资源进行审计。

4.ManageOne服务中心介绍

服务中心(Service Center)是ManageOne面向租户和运营管理的入口,提供云服务的运营集成能力,支持多种云服务集成到ManageOne。通过Console Home集成各云服务Console,为用户提供统一的云服务使用界面入口。通过服务编排将各个云服务能力编排成适合用户申请的云服务,并在服务目录中进行统一展示。

服务中心是对企业IT架构及IT运营模式的重构,将企业IT服务从被动服务变成主动服务和自动服务。

  • 服务供给侧改革,使得IT管理员彻底从繁杂、重复的配置工作中解脱出来,将主要精力聚焦于为业务提供高效率、高质量的服务上来。

  • 服务消费侧运营流程建设,业务人员自助在线订阅服务,让业务部门真是体会到云带来的效率提升。

4.1 ManageOne服务中心逻辑架构

4.2 ManageOne服务中心部署组件逻辑图

4.3 ManageOne服务中心界面

服务中心的登录地址可在安装阶段使用自动化安装公开HCSD到处表里获取,默认系统会创建bss_admin运营管理员账号,管理员课通过bss_admin登录界面创建其他运营管理员账号,或创建VDC管理员。

用户通过运营管理员和VDC管理员登录服务中心界面会有差异。

  • 运营管理员登录服务中心显示的主页
  • VDC管理员登录服务中心显示的主页

运营管理员登录服务中心显示的主页有首页、服务、资源、组织、报表、系统;VDC管理员登录服务中心显示的主页有首页、资源、应用、报表、系统。

5.ManageOne运维中心介绍

运维中心Operation Center是ManageOne运维管理的唯一入口,提供云服务运维管理的能力,实现对云服务端到端的监控能力,包括云服务自身、租户资源和云服务所依赖的基础设施(计算、存储、网络)。运维中心收集并展示上述监控对象的告警信息,同时基于这些监控和告警数据提供报表、大屏以及高级运维数据分析能力。同时运维中心也提供各云服务运维系统的集成能力,将多个云服务的常用配置集成进来,实现运维统一入口。

5.1 ManageOne运维逻辑架构

5.2 ManageOne运维中心部署组件逻辑图

5.3 ManageOne运维中心界面

运维中心的登录地址可在安装阶段使用自动化安装工具HCSD到处表里获取,默认系统会创建admin账号,管理员课通过admin登录界面创建管理员账号。华为Stack安装完毕,会自动配置单点登录SSO功能,通过运维中心账号课登录CPS、Service OM、FusionCare、CloudNetDebug等产品。

6.ManageOne运维指挥中心介绍

运维指挥中心(Operation Command Center)是华为混合云面向政企客户新推出的混合云大脑,宝珠客户构建成本、效率、风险、合规全方位的IT智慧运营分析决策体系,与ManageOne服务中心(SC)和运维中心(OC)三位一体协同联动,为客户提供"实时可视、联动指挥、智慧运营"的全场景平台解决方案。

6.1 ManageOne OOC逻辑架构

6.2 ManageOne OOC部署场景

1.中央集权IT

集团总部部署了SC、OC、OOC、CAC,由集团总部管理了所有的Region。

2.分散型IT

集团总部部署了OCC、CAC,其他分支结构部署了SC、HCS、OC。

3.联邦制IT

两级运维,各个分支机构运维自己的资源池,通过OCC进行整体把控。

6.3 ManageOne OCC部署架构

部署OCC需要十六台虚拟机,使用到微服务架构,有三个应用集群,OCC上的所有逻辑组件代码都部署在上面;两台OCCAR,用于提供Console框架;OCC_DN为数据节点,OCC_CN为协调节点,用于完成大数据的数据加工;SMP负责OCC相应微服务生命管理和服务治理。

6.4 四室联动协同IT数字化运营

指挥室:重大事件实时指挥决策。

值班室:日常值班事件跟踪,问题派发。

分析室:制作报表大屏呈现。

制作室:一站式的数据分析制作。

6.5 OCC开放的生态扩展架构

可以做插件化的数据源集成扩展、在线流程定义、五码化数据开发和可视化操作。

6.6 ManageOne OCC界面

7.CPS、Service OM与ManageOne的关系

Manage One是在Service OM尾项的更大的云管平台。

Manage One提供高级运维能力

  • 面向数据中心的监控人员,提供扩产品的集中监控、问题定界和故障处理能力。
  • 提供综合分析能力,支撑云系统管理人员的规划和设计工作。
  • 作为华为云Stack公共运维能力的统一入口。

Service OM提供IaaS的基础运维能力

  • 提供全量的资源/业务的运维能力(配置、操作、监控、故障处理、信息采集)。
  • 提供IaaS的公共运维能力的统一入口。

CPS具备OpenStack层的基本运维能力

  • 在CPS的基础上基线增强

  • 云服务运维能力需要通过Agent机制建设

8.eSight产品介绍

eSight是ManageOne系统的组件,提供对云服务所依赖的基础设施的全方位监控,收集基础设施的告警、性能等监控数据,并汇聚上报至运维中心;同时支持通过北向接口SNMP、FTP、HTTPS协议与客户侧运营支撑系统OSS进行对接,也支持邮件、短信息等进行消息推送。

8.1 eSight产品架构

8.2 eSight产品功能

**资源管理:**分组式资源管理、简化设备管理复杂度。

**拓扑管理:**一体化拓扑管理,多方位信息呈现。

**告警监控:**7*24小时告警监控,做途径实时通知。

**性能监控:**主动性能监控,提前发现可能存在的问题。

**报表:**智能报表平台,辅助决策优化。

**网络诊断:**网络质量感知,面向业务体验的网络诊断。

**流量分析:**精细化网络流量分析,洞察网络流量构成。

**WLAN管理:**WLAN全生命周期管理,高效管理无线网络。

**服务器管理:**全方位服务器管理,保障服务器稳定运行。

**存储管理:**一体化存储网络,存储空间利用最大化。

**视频监控管理:**端到端视频监控管理,故障快速定位定界。

**GPON网络管理:**GPON网络监控和部署,助理全光园区便捷运维。

8.3 eSight产品界面

8.4 eSigth部署模式

eSight在华为云Stack方案中,主备模式部署运行在eSight-group01、eSight-group02管理虚拟机上。

eSight-group01、eSight-group02管理虚拟机运行在控制节点上,可以在Service OM里查看该虚拟机详细信息。

9.FusionSphere OpenStack、eSight与ManageOne的关系

  • Service OM负责采集计算、存储、网络等软件资源池信息。比如告警、性能数据等等。
  • eSight负责采集硬件(服务器、存储、交换机、路由器等)信息,比如告警、性能数据等等。
  • Service OM和eSight同时将采集到的信息上报到ManageOne运维中心OC,并通过统一的界面对用户进行呈现。

10.FunsionCare工具介绍

FunsionCare提供健康检查和信息收集功能。健康检查部分能够一键式检查相关节点的健康状态,并生成健康检查报告;方便技术支持工程师和维护工程师快速了解系统的健康状况。信息收集部分能够使技术支持工程师和维护工程师快速收集日志,简化了技术支持工程师和维护工程师的信息收集工作,也方便华为研发人员定位故障。

10.1 FusionCare工具巡检实现原理

云服务巡检:各云服务向APIGateway注册巡检接口,从而通过FusionCare实现各云服务的统一巡检能力,致辞基础云平台、基础云服务和技术中台与AI数据中台服务。

底座巡检:FusionCare调用各底座产品自有的接口进行巡检。

10.2 FusionCare日志收集实现原理

FusionCare工具通过PAI平面调用OpenStack中Info-collection-server发送巡检请求信息,并通过OM平面接收各个节点Info-collect-client上传来的日志,因此需要同时与API及OM平面通信。

10.3 支持FusionCare工具巡检的服务

10.4 FusionCare工具界面

10.5 FusionCare部署模式

  • FusionCare在华为云Stack方案中,单机模式部署,运行在PUB-SRV-03管理虚拟机上。
  • PUB-RV-03管理虚拟机运行在控制节点上,可在Service OM里查看该虚拟机详细信息。

11.CloudNetDebug工具介绍

面向运维人员,实现界面自动化抓包和拨测的运维工具。CloudNetDebug集成了拨测和装包两个功能,用于处理数据中心内可能出现的各种网络问题,通过拨测功能可自动化检测业务网络是否出现断流,是否出现丢包,通过抓包功能可实现自动化抓包,支持基于业务流的多点协同抓包,支持灵活的单点虚拟机网卡抓包和主机网卡抓包。

11.1 CloudNetDebug工具架构

CloudNetDebug包括Server和Agent两部分

  • Server部署在控制节点的一台虚拟机上,Server里部署了拨测/抓包Server,HawkEye Controller,HawkEye Analyzer和Redis组件。
  • Agent部署在计算节点和网络节点。

11.2 拨测基本原理

①根据管理员输入的五元组,判断流量类型,识别流量的注入点,中间监测点和终结点,获取流量的源Mac和目的Mac地址。

②CloudNetDebug识别流量注入点所在的agent,在网关业务口或者计算节点ply网桥注入模拟报文,模拟报文带染色标记。

③报文注入后,虚拟网元(host,网关)在流量路径的中间监测点识别是否带有染色标记的流量进过,识别到流量后会吧流量统一复制之后发送到CloudNetDebug的server端。

④物理交换机收到染色报文后,匹配交换机的ACL规则,把染色报文镜像发送到远端的CloudNetDebug的server端。

⑤终结点的agent识别到染色报文,把报文统一复制一份到CloudNetDebug的server端,并且做流量的终结。

⑥CloudNetDebug的server端根据agent和交换机发过来的报文,做路径分析、丢包检测、时延检测,给出分析结果。

11.3 CloudNetDebug工具特性规格清单

11.4 CloudNetDebug工具适用场景

  • 业务不通,网络断流问题

目标:判断流量断流的文职,定界是虚拟网络还是物理网络,断流发生在虚拟网络的那个网元。

**措施:**可以使用拨测工具和抓包工具,首先推荐使用拨测工具,如果拨测工具还未支持此业务场景,可以使用业务流抓包工具;如果业务流抓包工具还未支持此业务场景,可以使用灵活的虚拟机网卡抓包和主机网卡抓包来定界定位。

  • 应用交互异常类问题

**目标:**查找应用交互异常的证据,为故障定位提供依据。

**措施:**通过虚拟机网卡抓包,选择一个抓包点记性双向抓包,通过wireshark分析应用交互报文,查找应用交互异常点,工具不支持业务交互类异常问题定位,但是可以为此类问题提供论证支持(排除其他网络类问题来说明是业务交互类问题)和问题依据(提供抓包文件支撑定位)。

  • 网络时断时续,网络丢包问题

**目标:**定界发现丢包的位置,是虚拟网络还是物理网络,丢包发生在虚拟网络的哪个网元。

**措施:**可以使用拨测工具和抓包工具,首先推荐使用拨测工具,如果拨测工具还未支持此业务场景,可以使用业务流抓包工具;如果业务流抓包工具还未支持此业务场景,可以使用灵活的虚拟网卡抓包和主机网卡抓包来定界定位。

  • 网络时断时续,网络时延大问题

**目标:**定界发现时延大的位置,时延大的问题发生在虚拟网络的哪个网元。

**措施:**未来拨测工具支持。

11.5 CloudNetDebug工具界面

11.6 CloudNetDebug部署模式

  • CloudNetDebug在华为云Stack方案中,单机部署,运行在名为CloudNetDebug管理虚拟机上。
  • CloudNetDebug管理虚拟机运行在控制节点上,可在Service OM里查看该虚拟机详细信息。
相关推荐
翼龙云_cloud20 小时前
阿里云渠道商:如何手动一键扩缩容ECS实例?
运维·服务器·阿里云·云计算
AKAMAI1 天前
基准测试:Akamai云上的NVIDIA RTX Pro 6000 Blackwell
人工智能·云计算·测试
China_Yanhy1 天前
AWS EKS三种类别,如何选择
云计算·aws
xybDIY1 天前
亚马逊云 Organizations 组织 Link 账号关联与解绑自动化解决方案
运维·自动化·云计算·aws
倪某某1 天前
阿里云无影GPU部署WAN2.2模型
阿里云·云计算
倪某某1 天前
阿里云ECS GPU部署WAN2.2
人工智能·阿里云·云计算
小白考证进阶中1 天前
阿里云ACA认证常见问题答疑
阿里云·大模型·云计算·阿里云aca证书·阿里云aca·aca认证·入门证书
可爱又迷人的反派角色“yang”1 天前
k8s(四)
linux·网络·云原生·容器·kubernetes·云计算
可爱又迷人的反派角色“yang”1 天前
k8s(二)
linux·运维·docker·云原生·容器·kubernetes·云计算
翼龙云_cloud1 天前
阿里云渠道商:阿里云弹性伸缩有哪几种
服务器·阿里云·云计算