
实验室摘要
针对城域网自动化运维水平低、人力成本高、无法摆脱重复运维劳动的现状,探讨了目前实现城域网自动化运维的重点和难点,结合运维实际情况和一些新技术、新方向,提出了完整的、可实现的自动化运维应用体系和应用思路。同时针对典型应用案例给出了相应的解决方案,从而彻底改变传统运维质量低、效率低的困境。
1背景
随着近年来移动运营商城域网业务的快速发展,特别是随着国家“宽带中国”战略的稳步推进,有线家庭宽带网络建设在三大运营商中后来居上,客户市场份额的竞争日趋激烈。随着公司5G网络业务的接入,城域网承载的业务类型越来越多。包括宽带互联网业务、宽带电视业务、CDN业务、IMS语音业务、专用互联网接入业务、TR069业务、WLAN业务、网络管理业务和5G业务等。业务的复杂度越来越高,网络规模呈指数级增长,这使得城域网的运维面临诸多问题和挑战:
(1)自动化运维水平有限。目前自动化运维仅局限于网络设备的自动巡检和备份,以及家宽和客服的自动配置,仅占全部运维工作的20%左右。在资源的自动收集和归档、拓扑的自动发现、资源的自动扩展、网络故障的自动排查和修复、安全加固、网络产业协作等方向,还有很多重复的、优化的人工运维工作。要通过提高自动化运维水平,进一步提高运维效率。
(2)运维人员数量与网络规模发展不匹配。近年来,为了降本增效,公司裁减了所有第三方维修人员。在自身人员数量无法及时补充、自动化运维水平有限的情况下,依靠传统运维手段的自有网络运维人员通常身兼数职,包括业务配置、安全加固、指标管控、链路拓展、质量分析等。而且时间总是有些短。维护人员数量与网络规模不匹配的问题日益突出。如果他们长时间高强度工作,他们将不得不努力工作。
(3)运维能力下降与网络复杂度增加的矛盾突出。数字通信专业通常具有很强的技术和专业特色。一个成熟的数字通信传统运维人员,基本需要学习一年才能掌握各类协议内容、办公数据配置规范内容和网络故障排除,具备独立支撑网络运维的能力。同时,由于数据链的操作人员跳槽率相对较高,如果操作人员梯度没有得到很好的培养,就很容易出现“青黄不接”的局面。随着网络规模和业务复杂度的不断增加,按照传统的运维模式,运维能力的下降必将成为网络支撑的重要短板并不断加剧。
综上所述,全面实现自动化运维是解决传统城域网运维问题的理想方案,尤其是在降本增效、人力资源有限、影响因素众多的情况下,城域网全生命周期的自动化运维将成为必然的发展趋势。
2 .讨论
标准化是实现自动化资源管理和运维的基础,尤其是各厂商设备局数据配置规范的标准化,包括端口、VLAN等资源配置规范和业务配置模板规范的标准化。在自动化运维过程中,不可避免地要按照定制的规范对历史局的数据进行标准化处理。而业务逻辑复杂、风险较高的标准化整改仍需人工完成,整改后的结果需要程序高效验证。只有标准化,才能保证办公数据的透明和业务逻辑的清晰,构建统一的CMDB,让自动化运维程序更容易掌握、理解和操作数据。
2.2工艺标准化的重要性
城域网全生命周期的自动化运维涉及多个流程,包括资源请求和分配流程、业务自动配置和激活流程、故障管控流程和业务验证流程等。每个过程可能涉及多个系统和模块之间的调度协调。流程的标准化保证了自动化运维的可行性、稳定性和安全性,有效避免了自动化过程中可能出现的流程堵塞,保证了自动化运维流程的高效推进。
2.3新技术优势的整合
自动化运维在规范和流程标准化的基础上,还应融合大数据、机器学习、云计算、NFV等新技术优势,使数据分析、关联挖掘、风险识别更加科学、合理、高效,实现数据价值最大化、风险操作最小化和成本使用最优化,充分发挥高效、高能自动化运维的优势。
2.4可操作性和安全保证
城域网全生命周期的自动化运维要有很强的可操作性和安全保障。可操作性是指平台建设要符合简单、实用、高效的目的,能够有效解决当前运维工作中存在的重复性劳动、高数据价值工作等痛点,突破业务系统、网管系统、数据配置系统之间的壁垒,合理构建系统之间的耦合,保证自动化运维任务的可执行性和准确性。同时,虽然自动化运维可以提高生产效率,但是如何保证自动化运行的安全性,尤其是涉及到局数据配置的操作时,业务逻辑必须严谨,关键环节的授权必须严格控制,日志审计可追溯,返回操作的响应要快捷,自动化运维的相关应急预案要完备,否则误操作会对网络业务造成严重影响。
3自动化运维的应用方向
3.1自动化运维应用系统设计
城域网全生命周期的自动化运维应涵盖资源管理、告警监控、故障修复、业务配置、安全保护和网络产业协调等。从而实现全自动化,彻底解放传统运维劳动力,节约人力成本,提高生产效率。针对城域网运维中存在的痛点,需要自动解决并能实现的关键应用如下图1所示:
图1自动化运维应用系统
3.1.1资源管理自动化的应用方向
实现资源管理的自动化是整个自动化运维的基础和保障。只有建设统一的数据仓库,保证基础数据的准确性,实现自动化运维平台对资源的透明管理,才能推广其他自动化运维应用。
对3.1.1.1基础资源自动化管理应用的思考
基础资源的自动化管理重点是基础硬件资源和IP资源的管理。基本硬件包括设备、板和链路以及IP资源维护等信息
拓扑的生成和变化要依靠标准化的端口描述、业务逻辑、设备的Vlan信息来自动发现和渲染拓扑,改变传统的手工输入和更新系统资源来形成拓扑的方案,实现拓扑的自动化和精细化管理,包括主备业务趋势、负载均衡等。这些都体现在拓扑自动化管理的应用中。
自动资源配置在3.1.1.3应用的思考
在实现基础资源自动化管理的基础上,实现资源的自动分配相对简单,重点是分配逻辑规则的实现,如VLAN资源分配规则、跨板捆绑的港口资源分配规则等。同时要做好资源分配冲突检测,作为资源分配的最后保护底线。资源冲突检测可以通过自动化程序在设备上进行在线监控,例如ping来监控IP冲突,或命令来检查端口占用情况。
对3.1.1.4资源自动预警应用的思考
自动资源告警的应用重点实现了四个核心网络关注点:链路利用率、端口占用率、地址资源占用率、流量负载不均衡。通过自动计算形成统计预警报告,自动向网络管理员发送通知,协调扩容工作,充分为网络扩容等工作提供提前预警支持。
自动资源扩展在3.1.1.5应用的思考
自动资源扩展包括板卡、链路和地址池的扩展,其中板卡的扩展相对简单,只需要设备执行简单的加载指令保证正常加载状态即可完成扩展;地址池扩展和链路扩展相对复杂,涉及到资源的自动分配、脚本的自动生成、服务的验证。同时,链路扩展还涉及链路调试等多个环节。城域网侧的联调,重点要通过机器人实现与工程跳线的自动调试。
3.1.2报警监控的智能化应用
监控告警的智能应用不仅着眼于告警的发现,还需要通过自动学习和分析,进一步识别和解决存在的异常问题,如挖掘流量突变原因、判断OLT故障、告警自动压缩等。以告警压缩自动化为例,无效告警的压缩要依靠自动化手段来提高压缩质量和效率,主要是利用机器学习,通过对历史数据的监督和学习,利用告警频率、厂商是否压缩的建议、告警重要性等级、告警影响程度、是否有相关告警等标记数据进行学习和建模。最后,通过告警压缩模型,告警自动化可以被高效地压缩,如图2所示:
图2无效警报压缩
3.1.3故障应急修复的智能应用
城域网的关键业务主要涉及家庭宽带、电视和客运专线。当网络出现故障时,由于端到端的链路较长,城市和省公司之间由不同的节点设备负责,故障排查过程中的信息交换往往需要较长的时间,因此人工分析判断故障点或完成业务抢通速度较慢。建立自动故障排除和快速处理能力是提高故障排除效率和客户满意度的关键能力。
端到端智能故障排除在3.1.3.1的应用思路
当单个用户投诉或者基本没有具有接入汇聚特性的分散投诉时,可以做端到端ping测试,根据投诉业务的类型快速确定故障节点,但前提是根据中继链路的分类对每个业务的趋势进行分类,保证每个业务都能准确关联到端到端链路,从而保证自动排查的可行性和结果的准确性。比如针对单个电视业务投诉,首先自动故障排除功能模块会对中继链路BNG-CR-BR上的CR和BR的环回地址发起分段ping测试,确保中继链路无物理中断和链路丢包;然后根据故障类型,如果是地址池问题,可以ping DHCP服务器的地址;如果是文章问题,可以ping组播汇聚节点RP的地址;如果看不到电子节目单,可以ping EPG服务器,这样根据ping测试结果的丢包情况,就可以快速确定故障点,无需联系省公司的运维人员。
3.1.3.2企业自愈应用思路
服务自愈包括中断自愈和质量自愈。城域网扁平化组网改造后,所有业务基本实现了自动切换的能力,包括温备和热备。所以自动化运维的服务自愈最实际的场景就是质量自愈。这里以OLT上行CRC对电视屏幕的影响为例,主要收集OLT上行CRC数据错误的链路端口,然后识别链路配对信息。尤其是配对链路的峰值利用率信息,并根据该数据完成切换前的科学评估。最后,智能决定是否执行切换指令,并向设备下发配置指令,实现投诉前的快速切换处理。
3.1.4业务配置自动化应用
自动配置激活是实现自动化的第一个应用。2016年宽带配置基本实现自动配置激活。2019年,MAN也开始研究专线自动配置激活。在整个应用测试过程中,专线自动开通失败原因统计如下图3所示:
图3专线自动开通失败原因统计
根据统计结果,不难发现,由IP和VLAN资源配置失败或冲突导致的开放失败是主要原因。此外,专线自动开通所涉及的业务开通系统和配置激活系统中的程序bug的百分比达到了12%,由于局数据配置不规范而本应执行的任务的百分比也达到了11%。因此,从专线自动开通的测试经验来看,要保证自动申请的可行性,首先要加强自动资源分配的可执行性,重点解决IP、VLAN等资源的分配逻辑和冲突检测;其次,对局数据实施规范整改,整改过程尽量依靠自动化代替人工,保证整改的准确性;最后,系统程序的健壮性也是自动应用的重要保障,避免系统本身的漏洞影响功能应用。
虽然组态自动化的应用已经开展,但其应用范围相对有限。要想真正实现自动化运维,就要在保证其可实施性的前提下,最大限度的应用自动化。在自动服务配置方面,不同厂商的设备应该统一构建各种服务配置模板。目前,城域网的业务配置模板包括家庭范围业务配置模板、客户收集业务配置模板、WLAN业务配置模板、网络管理业务配置模板和业务收集配置模板。各种服务配置模板要尽可能细化,以充分适应自动服务配置的各种场景。
3.1.5安全保护自动化应用
随着互联网业务的蓬勃发展,网络安全防护中的管理漏洞越来越突出。运营商在建网初期严格遵守“三同步”原则,避免设备“带病进网”。与此同时,网络安全防护管理的部署也越来越细化。随着城域网网络规模的不断增大,安全防护的任务越来越艰巨。往往同样的安全加固内容,需要所有设备登录,逐一添加配置,比如电视服务的安全加固;同样,专线引流也只是登录相应ACL的简单操作,但人工操作的效率相对较低。对于这种操作简单、风险低的安全配置,应该是自动化运维的重点内容。
3.1.6网络产业的协同智能应用
随着城域网(MAN)业务规模和网络规模的不断发展,以及市场业务发展的不确定性,如果没有对网络规划、建设和扩容进行科学的预测和分析,盲目新增资源可能会造成MAN资源的浪费,不利于后期的网络优化和调整。因此,做好网络行业间的智能协作尤为重要,包括客户满意度分析中的服务质量差和网络质量差的分析。只有做好它们之间的智能协作,才能做到高效和精准。
3.1.6.1资源协同应用与市场发展的思考
资源投放和市场开发系统可以结合城镇网格化、市场规划和开发数据或预增加用户数据以及城镇现有网络设备承载数据,通过各种业务预测模型的计算,对新增容量需求做出准确的评估和预测,并最终输出评估后的现有和新增容量对比图,使每个城镇所需的扩容需求一目了然,轻松实现资源的合理规划和科学投放。自动化实现方案如下图4所示:
图4自动化评估模型
3.1.6.2满意度协同分析的应用
客户满意度分析也是自动化运维的一个重要应用点。通常情况下,对顾客满意度的分析基本上是基于调查数据。为了避免引起客户反感,调查数据基本都是简单的询问,调查结果可能是片面的。因此,只有依靠系统自动化,才能更全面地挖掘出质量差的原因,实施相关的改善措施。由于客户满意度涉及多个方面,通常包括网络质量差、安装维护质量差和业务服务质量差,要全面挖掘和改善质量差,需要增强服务质量差和网络质量差的协同分析能力。通过机器学习解决协同分析问题主要有三个步骤:
第一步,建立网络质量差、安装维护质量差、服务质量差的分类器,将每个BNG下的投诉用户数据输入分类器模型进行预测。最后统计所有分类的预测结果,按质量差异类别对每个BNG下的用户进行分类;
第二步:使用Apriori关联规则算法,确定网络质量差、维护质量差、业务服务质量差的关联原因。
第三步:利用第一步实现的每个BNG的详细质量差异原因分类,结合第二步的相关质量差异原因,给出每个BNG设备覆盖业务的质量差异分析报告和整改方向。
4系统架构
结合大数据处理和小数据柔性处理方案,构建城域网自动化运维平台。平台设计主要通过四层架构实现,如下图5所示:
图5平台架构
(1)数据源:主要实现数据采集功能,包括网管数据、办公数据、DPI数据、服务数据、投诉数据等多维度基础数据。
(2)数据平台:主要实现
(4)功能应用:应用层主要实现智能告警监控、自动资源管理、智能应急抢修、自动安全防护、自动业务配置、智能网络协作等六大功能。
5摘要
传统运维由人工运维向自动化运维转变将成为必然趋势。本文提出的全生命周期自动化运维包括资源管理、告警监控、故障修复、业务配置、安全防护、网络产业协同等多个场景应用。同时给出了当前城域网运维中需要解决或改进的典型应用问题的解决方案,为城域网自动化运维的推广奠定了基础。实现城域网全生命周期自动化运维,将给网络运维带来全面降本增效,也实现了自动化运维向智能化。
审计福冈江









