职业探索-运维体系-网络运维相关01

参考来源:

书籍:国之重器-园区网络架构与技术

书籍:网络运维从入门到精通 (作者:樊胜民)

传统的网络运维

传统的网络运维多数以设备为中心,需要登录单个设备进行维护或者通过网管集中管理多个设备,主要依赖设备本身提供的数据进行运维。网管只具备直接呈现数据或进行基础加工后呈现数据的功能,还需要对数据进行人工分析,耗时耗力,同时对操作人员的能力要求高,运维成本高。

例如,在传统运维场景中,客户或者员工投诉网络存在看视频卡顿、无法认证、不能上网等问题,运维人员需要马上登录设备、查看日志,如果问题已经持续了较长时间,还要下载历史日志,**在一堆历史日志中翻阅数据**。即使有网管生成日志,日志也只是一条条数据的集合,管理员不一定能通过查看日志、统计就定位所有问题,还需要进一步分析数据才能确认问题的根因,这就要求运维人员**对系统处理流程**比较熟悉。同时,随着后续园区网络的扩容,海量的分支网络也必须统一管理。**分支网络没有运维人员**,需要总部统一维护,单纯依靠少数人凭经验来维护庞大的网络,对于运维人员来说无疑是一种灾难性的工作。

此外,园区网络无线化程度 日渐提高,手机、Pad、打印机、电子白板等大量的无线终端 接入园区网络,无线网络的移动性和空口干扰会给园区网络带来新的运维问题。在无线环境中如何界定问题、如何快速恢复、如何保障体验 ,这些问题是园区的网络运维面临的新挑战。在万物互联的网络模型下,设备数量众多,数据更是海量,而传统的运维方式自动化和智能化能力严重不足,已经无法支撑用户对网络运维的需求。所以,在网络运维领域引入AI技术,利用网络产生的大量数据进行自动分析、智能处理,这是业界应对网络运维挑战的最佳思路。

7.1初识智能运维

智能运维解决方案颠覆了传统聚焦资源状态的监控方式,将AI应用于运维领域,基于已有的运维数据(设备性能指标、终端日志等数据),通过大数据分析、AI算法及更多高级分析技术,将网络中的用户体验数字化,将网络运行状态可视化,辅助管理员及时发现网络问题,预测网络故障,保障网络的良好运行,改善用户体验。

7.1.1以体验为中心的主动运维

传统的网络运维是一种"救火式"运维,都是在出现业务异常、有用户投诉后,才会去查找问题、解决问题

传统的运维方式主要存在如下问题。

·故障被动响应:

传统网络主要依赖设备告警或者用户投诉来发现异常或者故障,一般都是等故障发生了再做处理,网络运维人员需要随时被动响应,如果遇到重大节日或重要活动,更是需要24小时严阵以待

·故障恢复慢:

传统运维模式下出现业务异常时,运维人员一般第一时间查看网络拓扑,通过命令行登录设备定位故障。60%以上的故障还需要到达故障现场进行排障。针对已经消失的故障,需要等待故障再次出现或者尝试对故障进行复现。同时,无线化进一步加剧了故障修复的难度,因为无线环境的复杂导致90%以上的问题需要现场定位。然而面向生产和客户服务的数字化业务越来越多,客户对故障恢复时间的容忍度也远远低于普通的办公业务,比如医疗行业的自动分药系统、商业场所的无人支付系统、物流仓储的AGV等。这对传统的网络故障处理也是巨大的挑战。

·业务体验难感知:

传统的网管具备设备管理、拓扑管理、告警配置等功能,运维人员通过网管监控网络拓扑、告警来获知网络的异常。然而,网络设备的正常运行不一定代表网络承载的业务运行良好、用户体验流畅。随着移动需求的激增以及物联网的发展,会有海量终端接入网络,而且终端类型、操作系统类型、业务类型、流量模型也变得复杂多样,设备运行状态无法反映用户体验的问题会愈加凸显。

智能化的网络运维

以用户体验为中心。

基于预测性和智能化的网管提升用户的业务体验,打破了传统的依靠人工的、滞后的数据分析的方式和运维模式。SDN控制器提供了一种智能化、自动化的主动网络分析系统,融入大数据分析能力、AI计算能力,可以对故障进行预测,提前对网络进行调整,降低故障的发生概率。

智能网络运维能为客户带来的价值

相对于传统的网络运维,智能网络运维能为客户带来的价值主要体现在如下几个方面。

1.故障识别和主动预测自动识别故障:

通过大数据和AI技术,自动识别连接类、空口性能类、漫游类、设备类和应用类等问题,提高潜在问题的识别率。发现潜在问题:利用机器学习历史数据,生成动态基线,通过和实时数据对比分析来预测可能发生的故障。

智能运维的故障识别和主动预测功能,基于大数据的分析,可以提前预测网络中的某些故障,进行故障预警。

例如,现在的网络大量使用光纤链路进行通信,使用光纤时必须要用光模块连接链路和设备,但光模块容易受到灰尘污染和静电的影响,造成光模块的链路损耗增大,不正确的插拔也会导致光模块的故障,影响业务。

SDN控制器中的光链路故障预测功能,可以呈现全网的光模块状态,结合大数据和机器学习算法对光链路进行故障检测以及故障预测,先于业务受影响前识别出光链路异常,实现对网络故障的主动预测

2.故障定位和根因分析快速定位故障:

基于网络运维专家系统和多种AI算法,智能识别故障类型以及影响范围,协助管理员定位问题。

智能根因分析:基于大数据平台,分析问题可能发生的原因并给出修复建议。网络运维人员的主要职责是看护好网络,维持网络正常的运行,当出现问题时,要能快速识别故障原因、解决问题。传统的问题定位方式,主要依靠人工分析海量的数据及个人经验,故障定位困难。以传统方式处理时,多数情况下需要查看上线日志记录或者抓包,定位比较耗时。同时,用户的接入过程是非常复杂的,不同认证方式的接入过程相差很大,一般的运维人员难以掌握具体的接入流程,出现用户无法接入的问题时,要专业的工程师协助定位问题,同时还需要用户现场复现问题,处理难度进一步加大。

SDN控制器基于协议回放,实现用户接入问题的故障根因定位,以图形化的方式展示用户接入的每一个过程,成功或失败的状态直接在界面展示,能帮助运维人员迅速定位问题协议回放实现用户接入3个阶段(关联、认证、DHCP)全流程可视,通过统计各个协议交互阶段的结果与耗时,提供用户接入过程的精细化分析,快速获取用户接入的异常点,从而实现问题的精准定位。运维人员接到用户反馈认证失败的信息以后,根据用户MAC信息查找该用户的会话记录,成功和失败的次数一目了然。运维人员根据失败的记录点,查看失败的详细记录,详细展示用户接入认证的流程,便可以确认在哪个流程出现问题,并根据给出的故障修复建议修复故障3.体验可视SDN控制器可以真正地帮助运维人员感知网络,将网络的运行状态实时呈现给运维人员。基于Telemetry的实时传输技术,按业务所需的数据采集点和基于硬件的精确时刻下的数据采集,真实精准地呈现网络状态,从用户体验、应用真实的运行状态感知网络状态,对网络进行多维度的运维。

在传统的网络运维中,很难主动感知到用户的体验变差,运维人员无法知晓网络的真实运行情况,不能对网络做出实时的优化。同时针对用户体验变差的问题也难以定位根因。SDN控制器基于历史KPI数据,使用动态学习算法学习指标劣化的阈值,判定用户是否为质差用户(体验质量差的用户),可以显示全网的质差用户,并基于大数据对每一个质差用户的参数进行分析,自动识别出影响用户质量的关键指标,给出质差的原因,帮助运维人员解决网络的问题。

系统自动分析全网用户,并给出质差用户的具体数据。发现质差用户时,可以查看该用户的数据,查看其质差时间及引起质差的原因。

###可视化质量评估体系

7.1.2 可视化质量评估体系

随着企业的快速发展,业务可能遍布全球。企业的网络也需要在全球范围内部署,传统的运维方式没有统一的管理手段和呈现结果的

方式,这可能会让运维人员整日疲于奔命,必须时刻关注全球各地的网络状况。

SDN控制器可以建立一套可视的网络系统,提供从整体网络、分支网络到具体设备,甚至用户及应用的质量可视的网络评估、监控系统,直观地呈现网络的运行状态,并针对故障进行自动故障分析、问题根因定位。

SDN控制器采用基于硬件数据采集的Telemetry上报机制,通过芯片采集数据,数据采集时间点可以精

准到微秒级别。同时结合业务的需要,能够定制硬件的数据采集,从时效、数据满足度上建立最优的大数据支撑体系,实现智能化的运维。

3.可视化质量评估体系

SDN控制器根据设备提供的数据,建立可视化的园区用户体验质量评估体系。基于接入体验、漫游体验、吞吐体验、
网络可用性四大类指标
的质量评估体系,直观地呈现全网整体质量,帮助运维人员"看网识网"、提升运维效率和用户体验。

7.2 智能运维的关键技术

结合eMDI(enhanced-Media Delivery Index,增强型

媒体传输质量指标)技术对音视频业务进行监控、质量感知,保证音

视频业务的用户体验。

7.2.1 智能化运维的架构

1.智能运维逻辑架构

SDN控制器通过Telemetry等机制采集网络设备的丢包、流量、状态、配置等信息,结合动态基线、高斯过程回归等AI算法,以及华

为多年运维经验建立的故障库,通过机器学习自动建立故障基线,利用算法提升效率。

通过场景化的持续学习和专家经验,构建业务流、转发路径、网络服务的多层次关联分析能力 ,将运维人员从大量的告警和噪声中解放出来,结构化地为用户显示应用行为以及网络质量,使运维更加自动化和智能化,从而主动评估网络服务状态。

2.SDN控制器的智能分析系统的逻辑架构

1)数据采集:SDN控制器的智能分析系统通过南向接口与设备的对接,完成对设备的管理。支持的南向接口类型包括采用基于

Telemetry的HTTP2+ProtoBuf协议(即Google ProtocolBuffer,指的是谷歌公司内部的混合语言数据标准)、SNMP、Syslog协议。

2)数据分析:大数据分析平台基于分布式数据库、高性能消息分发机制、分布式文件系统等,构建满足每分钟百万次数据采集的

大数据分析能力。分布式数据库可以对海量实时数据进行分布式计算、汇聚、存储,具备秒级的多维度检索及统计查询能力。

(3)业务服务:SDN控制器的智能分析系统根据园区网络典型的运维排障场景,提供了大量的数据分析应用服务。例如,连接类、
空口性能类、漫游类及设备类4类问题的智能识别
,连接类问题以及空口性能类问题分析,用户旅程回放,AP详情分析,音视频业务的质

量感知等。

7.3 智能运维应用

网络部署完成、开始运行后,运维管理员就开始负责网络的运维工作,保证网络的可用性,出现问题要及时修复。对网络的运维主要

包括日常的监控运维和网络发生故障时的快速诊断、恢复。日常的监控运维是指网络管理员通过监控网络设备的状态和运行指标,来了解

整个网络的运行情况,可以通过简单的网络评估,实时掌握网络的健康状况,以便对网络进行及时调整。

日常的监控运维并不是网络出现问题时才会执行的动作,而是一个日常、例行的工作,防患于未然,通过对网络的诊断提前发现潜在异常,并且对网络进行持续优化。

日常的监控运维只是对网络的运行状态做一个整体的了解,识别并发现一些常见的问题。对于系统性的问题或者流程性的问题,还需

要专业人员介入,进行专门的故障分析

运维人员角色

从运维的角度看,运维人员一般可以分为如下几类角色

·ASP/CSP:ASP(Authorized Service Partner,授权服务伙伴)和CSP(Certified Service Partner,认证服务伙伴)是工程承

包商,项目初期负责辅助安装设备或直接安装设备,后期还需要进行项目运维。

·网络安装/检修工程师:现场的安装施工人员,对于规模大的工程,ASP/CSP会找专门的施工队,对于规模小的工程,由ASP/CSP

的员工直接安装或客户自己安装,他们一般只在开局与替换设备时参与,主要负责网络物理设备的部署、连线。

用服:设备/系统服务商的专业技术服务人员。较大规模的工程需要用服人员到现场支持,较小规模的工程就由ASP/CSP的员工直接

负责。

·客户的网管:客户的网管一般只对本地设备进行简单的维护,可以解决常见的问题,对于比较难处理的异常和故障,则需要ASP/CSP

解决或者求助用服人员。

专业的技术运维人员如用服、部分ASP/CSP运维人员,维护技能高,维护工具也齐全,但租户的维修人员或者网络维护/检修工程师,

一般专业技能不高,也缺乏维护、检测工具。

网络运维人员要具备的技能

来源:书籍:网络运维从入门到精通 (作者:樊胜民)

作为一名合格的网络工程师,需要全面掌握网络数通交换方面的技能,同时还需精通网络安全,及时加强企业出口防火墙安全策略配置等工作,保障企业内网安全高效运行。企业发展对网络依赖越来越高,这就要求

运维人员知识储备丰富,在故障出现时,能根据故障现象,快速定位及时解决。

一、熟练掌握数通技能以及常见网络协议与网络架构

网络运维最基本的要求是保障网络畅通以及网络安全

如何规划无线网络也是运维人员必须掌握的技能。网络设备远程管理配置 telnet/ssh 协议是网络运维基础,在日常网络运维中,检查交换机以及其他网络设备都是远程登录到设备进行,而不是直接到现场处理。

二、 善于使用 ping、tracert、ipconfig、arp、nslookup 命令,以及Wireshark 抓包等软件排除故障

在日常运维中,ping 以及 tracert 两个命令使用非常多,ping 命令用来检查网络是否通

畅,tracert 命令用于跟踪路由信息,可以查出数据从本地到目标主机经过的路径。Wireshark

抓包软件通过抓取不同位置报文来分析故障,在工作中经常使用。

网络丢包是运维中比较棘手的问题,硬件故障、配置问题都有可能引发该故障,比如网络环路、IP地址冲突等。

通过在交换机上配置聚合技术,解决由于数据流量大导致处理不及时而丢包的故障。

网络运维人员应该善于总结经验,熟练掌握处理问题的方法与思路,不断学习新的网络架构,比如 SDN 等新技术,同时要具备编写网络规划方案的能力。

运维必备的10个核心技术

来源:(来自马哥教育的微信公众号文章)

1.Linux系统基础

熟悉Linux/Unix系统操作,理解网络协议、网络拓扑、路由等概念。能够进行服务器的配置、安装、调优以及故障排查。Linux是基础,如果Linux都不会那真的不能算是运维,

2.网络服务

服务有很多种,每间公司都会用到不同的,但基础的服务肯定要掌握,LAMP利LNMP必须要熟练,nginx利apache熟悉

3.Shell脚本和编程语言shell是运维人员必须具备的,不懂这个连入职都不行,另一个脚本语言是可选的,一般是3P,即python,perl和php,我个人建议学python会比较好

4.sed利awk工具

在掌握这两个工具同时,还要掌握正则表达式

5.文本处理命令

sort,tr,cut,paste,uniq,tee等

6.数据库

首选MySQL,增删改查必学,特别要学熟查

7.防火墙防火墙也算是个难点,要弄懂规则

8.监控工具这个十分重要,个人建议学cacti,nagios,zabbix.,企业用的最多的是nagios,zabbix。

9.集群和热备

集群工具有很多,最好学是LVS,最好也学学nginx集群反向代理,还有热备

10.数据备份

要把RAID的原理弄懂,特别是企业最常用的1+0或0+1

相关推荐
Michaelwubo30 分钟前
Docker dockerfile镜像编码 centos7
运维·docker·容器
好像是个likun1 小时前
使用docker拉取镜像很慢或者总是超时的问题
运维·docker·容器
fantasy_arch2 小时前
CPU性能优化-磁盘空间和解析时间
网络·性能优化
cominglately4 小时前
centos单机部署seata
linux·运维·centos
CircleMouse4 小时前
Centos7, 使用yum工具,出现 Could not resolve host: mirrorlist.centos.org
linux·运维·服务器·centos
是Dream呀4 小时前
Python从0到100(七十八):神经网络--从0开始搭建全连接网络和CNN网络
网络·python·神经网络
Karoku0664 小时前
【k8s集群应用】kubeadm1.20高可用部署(3master)
运维·docker·云原生·容器·kubernetes
木子Linux4 小时前
【Linux打怪升级记 | 问题01】安装Linux系统忘记设置时区怎么办?3个方法教你回到东八区
linux·运维·服务器·centos·云计算
kaixin_learn_qt_ing4 小时前
了解RPC
网络·网络协议·rpc
mit6.8245 小时前
Ubuntu 系统下性能剖析工具: perf
linux·运维·ubuntu