监控及自动化系统
SDN介绍
从2007年提出SDN以来,SDN对应网络架构及信息产业的影响越来越广泛,SDN的概念也更加泛化。从2009年斯坦福大学Clean Slate小组,发布可以满足SDN网络转控分离架构的标准OpenFlow 1.0开始,SDN在业界不同流派努力下不断演进。2013-2016年,以网络厂商和运营商为代表的IETF针对BGP、PCEP、NETCONF/YANG等南向协议进行标准化,完成SDN控制面演进的重要工作。2017年又启动了SRv6(Segment Routing over IPv6) 的具有更强编程能力、更加兼顾控制面和转发面的实现方式。
SDN主要特征
网络开放可以编程:SDN采用新的网络抽象模型,提供一套完整的通用API。用户可以在控制器上编程,实现对网络的监控、配置、控制和管理。
逻辑上的集中控制:对分布式的网络状态进行集中统一控制,为SDN网络架构提供基础。
控制平面和数据平面分离:控制平面和数据平面实现解耦,遵循统一开放的接口进行通信,二者可以独立演进。
咨元云网SDN解决方案
网络虚拟化覆盖层(Overlay)技术,实际上是给网络增加了一个逻辑层,从而可以对当前网络拓扑进行抽象,网络控制平面与数据平面分离,扩展了传统网络功能。 网络架构形成底层Underlay、覆盖层Overlay和用户(租户)三层结构。随着Overlay逻辑层技术如MPLS、VXLAN、SR-TE不断演进和在数据中心、云资源池的应用,为SDN逻辑抽象和集中控制提供了网络技术架构。 而逻辑上的集中控制又为网络开放可编程提供了SDN基础架构。开发可编程才是SDN的核心能力。
由于咨元科技长期与华为、思科等主流网络厂商和运营商合作,因此我们SDN控制器重点研发和采用BGP控制面,SDN解决方案涉及5G传输网、城域网、互联网、云专网、公私云网络。 SDN控制平台和业务编排平台遵循ONAP架构。
咨元云网SDN方案包括SPN网络监控与业务影响分析、基于SDN的IP工作台、异构云SDN网络运维管理;采用低代码/无代码开发平台,支撑业务开通、运维场景的开发和编排。
1. 咨元SDN控制器
可编程的网元设备作为SDN网络的基本组成要素,需要提供控制平面和管理平面API接口。SDN控制器通过这些API接口收集拓扑信息、资源信息、流量信息, 基于这些信息SDN控制器通过能力信息(网络模型等)对网络进行抽象;并根据应用场景和运维场景进行仿真、调度和监控。 上层自动化编排系统通过SDN控制器的北向API接口操纵网络模型
完成对网络业务的编排工作。SDN控制器与可编程设备的基本模型如右图所示。
1.1 SDN网络监控与分析
SDN信息采集器和分析器。这类接口是网络设备向控制器提供信息的接口,这些信息通常被整合成一个更大的网络视图。
能力信息(网络模型与适配Yang):提供可编程或者可控制信息,包括元数据(有关控制架构组织方式的信息)以及网络设备向控制器呈现信息的方式
资源信息(CLI、SNMP、LLDP):提供网络资源基础信息包括物理连接等信息
拓扑信息(IGP、BGP-LS):提供网络设备链路状态信息,包括链路带宽等信息
测量信息(Telemetry):提供运行状态、计数器以及网络当前状态等信息,包括可用带宽、队列深度、延迟和抖动等
传统IP Ping、Traceroute、TWAMP、SMNP Trap等OAM(故障管理FM和PM性能管理)功能
1.2 SDN网络配置与控制
SDN南向配置和控制接口是控制器向网络设备推送信息的接口,至少包括以下三类接口
FIB(转发信息库):直接访问交换设备转发数据包时所用表格的接口,如Openflow
RIB(路由信息库):直接访问建立FIB时所用表格的接口,涉及原分布式协议相关的表(如内部RIB或拓扑表)等接口,如IGP/BGP等
TE(SR、MPLS流量工程数据库):SDN控制面工程数据库,通过信息发布组件RIB获取链路状态、标签等,并信令组件为FIB提供选路、流量调优。如BGP-LS、PCEP等
交换路径:访问转发参数的接口,这些参数与转发表无关,但直接影响数据包的处理(如QoS)
对于数据中心和云资源池VXLAN控制面,其控制平面实现方式分为3类:
自学习模式:利用泛洪/广播机制来实现VXLAN网络建立
基于SDN 控制器集中式模式:SDN 控制器作为控制面,通过下发流表指导VTEP的转发
路由协议扩展模式:通过扩展ISIS(类EVI)、BGP(EVPN)协议来实现VXLAN网络的建立
对于IP网络,SR(Segment Routing)段路由是基于源路由理念而设计的在网络上转发数据包的一种技术架构。其主要特点:
* 简化协议,基于现有协议进行拓展
拓展后的IGP/BGP具有标签分发能力,因此网络中无需LDP,实现协议简化。
引入了源路由机制:通过在头端节点实例化转发策略为标签列表,控制业务流量的转发路径。
* 由业务来定义网络
由应用提出需求(时延、带宽、丢包率等),控制器收集网络拓扑、带宽利用率、时延等信息,根据业务需求计算显式路径。
* SRv6可用通过多个IPv6的拓展头部来实现
1.3 SDN控制器与编排平台
咨元SDN平台采用低代码/无代码开发平台,网络专业人员能够对各种开通、运维场景进行各种开发和编排。平台架构如右图所示。
2. 咨元SPN网络监控与业务影响分析
2.1 SPN集中管理背景分析
为了满足用户超大带宽、超低时延、海量连接及多业务统一承载的需求,移动运营商提出了切片分组网(SPN)技术,简化资源配置, 提供业务应用的切片隔离和智能适配,优化云网及多云资源协同,支撑算力高效运用,打造可编程、确定性、可感知、业务随选和智能化的算网,实现算网灵活、敏捷、高效供给。 针对5G和算力网络场景多样、资源异构的新特点,以及给服务模式、商业模式、网络运维带来的新变化。
SPN网络通常由多个厂家设备组网而成,在实际运维过程中,一个具体的业务往往会涉及跨多个厂家SDN网管的资源、告警的数据分析, 并且缺乏基于业务的端到端的全路径还原、监控、业务影响分析。
2.2 端到端业务路径管理目标
通过厂家SDN网管的北向接口,实现SPN设备网元、端口、链路的基础信息同步,实现网络资源基础采集管理,支持SPN网络的整体网络资源管理、SPN的4G/5G业务拓扑还原、设备监控、 连通性监控、链路性能分析、网络流量监控及告警影响分析。
按业务切片SPN业务标签,在PWE3的业务数据库,识别4G、5G业务标签数据,并对业务路径进行同隧道分析,主备(工作-保护)隧道分析,结合业务名称标识,还原形成4G/5G业务传输的端对端拓扑路径。
按需要及时通过北向接口实现网络资源与链路数据的更新,通过引入业务路径数据基线的处理方式,实现业务路径更新及业务变更的拓扑处理。
2.3 SPN监控与业务影响分析
业务影响分析通过对各种业务和相关传输资源、IT资源、云资源的梳理,构建业务影响模型,并通过告警事件的关联,图形化呈现故障影响的范围和级别,固化工程师的维护经验, 实现故障的快速定位及自动化处理。
业务影响分析四个主要组成:
* 告警影响计算:
影响计算显示中断对CI,业务,告警和告警组的严重程度
告警生成时,使用影响规则和CI关系等因素来计算严重度
告警严重性显示在影响树,业务视图和仪表板上
* 计算中断的总体影响因素:
影响规则
相关告警的数量
受影响的配置项的过去历史
确定与业务相关的配置项之间的关系
包含网络路径
CI是否处于维护中。当配置项处于维护状态时,有关配置项的告警将从影响计算中排除
* 影响规则:根据受影响的配置项估计中断的严重程度或严重性,影响规则包含显示适用的配置项,业务服务和影响设置的影响规则。以下默认影响规则可用:
基于网络路径向上传递
影响传递系数,例如为100%,80%,60%,40%,20%
同一级别CI传递值相加,但最高为100%
* 影响树:显示配置项与每个子项配置项的相对百分比影响之间的关系,表示带有服务配置项关联表中的配置项的服务映射,使用严重性颜色查找包含告警的配置项:
严重(红色):需要立即采取行动。资源不是功能正常的,就是迫在眉睫的问题
重要(橙色):严重损害了主要功能或性能下降
轻微(黄色):发生了部分非关键性功能损失或性能下降
警告(蓝色):即使资源仍在运行,也需要注意
正常(绿色):创建告警,该资源仍在运行
小结
咨元SPN网络监控与业务影响分析,支持集客/政企专线、家宽、4G/5G业务拓扑还原与可视化展现,基于告警、性能分析,实现故障的快速定位、根因分析。
3. 咨元基于SDN的IP工作台
3.1 IP工作台统一管理需求
传统企业WAN的部署和调整过程涉及交换、路由、安全和广域优化等多个网络技术领域,技术复杂度高,且由人工手动操作,因而耗时长、效率低、容易出错,难以实现对上层应用与业务的弹性响应。
SDN是一种新型网络架构,它倡导业务、控制与转发三层分离,支持网络抽象,实现网络智能控制、业务灵活调度,加速网络能力开放,是运营商向“互联网+”时代转型的重要支持技术。其中,SDN编排器是实现自动部署和敏捷运营的关键技术,可支持跨域、跨层以及跨厂家的资源自动化整合,有助于提升网络能力的开放性以及服务的端到端自动化水平,为客户带来更好的用户体验。
IP工作台需要基于跨厂商的IP网络实现统一的管理。
3.2 IP工作台建设思路
云网协同和SDN技术的出现,将整个物理网络抽象并简化为“单一”逻辑网络资源池,并通过软件定义用户业务的自动化流程,实现多个系统联动、多个域网络联动,完成业务端到端快速自动部署。
咨元SDN控制器与IP工作台采用云化、微服务架构,满足ONAP规范,提供可视化业务(能力)编排与流程设计、动态资源管理,无/低代码实现,满足编排、IP控制器、SDN控制器、IP网络资源采集与管理、业务自动开通、故障智能诊断和预处理、智能巡检等业务场景功能需求,实现业务功能的快速部署、敏捷交付、能力复用,提升业务响应能力和网络自智能力。
基于SDN架构搭建一个通用的应用平台,既满足老旧设备的管理
又能适应新的SDN网络控制器的替代,平台既支持当前全新的Telemetry、OpenFlow、NETCONF等协议,同时也保留对SNMP、telnet、ssh等协议的支持;平台拥有对网络设备管理、监控等能力的同时也能通过API接口调用三方应用或者被调用提供三方服务。
3.3 IP工作台方案介绍
咨元基于SDN的IP工作台主要提供以下六大类功能与能力:
统一资源采集能力
智能资源管控能力
可视化的编排设计和管理能力
多类业务场景的自动开通能力
提供隐患识别、告警监控、故障定位、告警自动处理等IP网络智能运维能力
提供流量调度、路由监控、隧道配置管理与自动化运维的能力
3.3.1 MPLS、SRV6环境下L2VPN、L3VPN业务开通
基于系统资源数据及可视化流程编排设计,提供互联网专线、语音专线、VPN专线、VPDN专线等多类应用场景的业务自动开通,支持自北向接口中接收业务配置工单,支持全网各网元专线业务配置脚本的自动生成、核验及下发。
支持多类型隧道技术(MPLS-BE LDP,SR-TE,SR Policy,SRv6 Policy)的配置管理,包括创建、修改或删除隧道,支持自动或人工设置方式进行隧道配置。
3、为地市运维人员提供有效支撑带宽业务排障、故障分析能力的指标和报表支撑手段
3.3.2 流量调度
提供CMNET省网、城域网、云专网、IDC网络等多网络专业IP流量自动调度和隧道路径调整功能,根据全网的拓扑、带宽、流量、 链路质量等信息,分析计算最优业务路径,实现网络流量智能管理,避免局部拥塞,提高网络质量和网络利用率。
3.3.3 自动化运维监控
* 路由监控
提供IGP/BGP路由信息采集和分析能力,对网络中设备路由运行状态进行实时监控和分析,根据设定的路由告警规则进行路由分析和告警输出,并进行路由告警根因定位分析。
* 隐患识别
基于隐患识别规则和现网/存量数据,自动对各类潜在的网络隐患和业务隐患进行感知、预测、预警,并派发工单通知。
* 智能告警处理
基于现网实时数据及告警识别、聚合、压缩、关联规则,实现告警识别及根因定位,自动产生告警工单并关联告警自愈处理流程(通过可视化编排进行设计),实现告警自动处理和恢复。
小结
咨元基于SDN的IP工作台,支撑网络资源采集、可视化业务编排、业务自动开通、故障智能诊断和预处理、流量调度、智能巡检等业务场景,提升业务响应效率和网络自智能力。
4. 异构云SDN网络运维管理
随着IT云资源池规模及应用系统的快速增长,以及SDN和NFV等新技术的应用,网络运维的难度和复杂性日益加剧,同时对于网络隐患的发现困难,故障无法快速定位。因此,需要提升虚拟网络的运维监控与可视化能力。
基于以上问题,引入异构SDN网络数据仓智能运维系统实现异构SDN网络配置、告警、数据集中化管理与全局可视化监控系统。通过数据采集、数据分析、标准化模型结合算法建模,自动生成Underlay和Overlay网络的对应关联关系与拓扑呈现。包含业务层展示、逻辑层展示、链路层展示、物理层展示、流量展示等,实现网络全局数据仪表展示能力。通过自动化运维能力与异构SDN网络全局告警和异常性能指标分析,实现网络集中监控能力和智能运维能力。
4.1 异构SDN网络管理要求
SDN网络管理包含以下几个模块和功能:
4.1.1 异构SDN网络统一管理
随着SDN/NFV技术推广与应用,使虚拟网络的运维与故障定位带来复杂性和不可见的问题,通过对于异构SDN网络的统一管理与自动化建设,实现异构SDN网络的资源统一管理、系统统一运维、业务资源全局可视化,提升系统平台高效运维。
4.1.2 网络资源管理
具备异构SDN网络的整体网络资源管理、设备监控、连通性监控(例如:ICMP探测、端口探测、应用探测等)、链路性能分析、网络流量监控及分析。
具备IP地址生命周期管理能力,管理每一个IP地址的状态、设备所属位置等。
具备异构SDN网络的分布式块存储设备进行采集配置与管理。通过界面可配的采集配置管理或API调用功能,包括采集数据配置、数据保存时长配置、监控指标增删、指标下发、指标范围配置等内容。
4.1.3 SDN网络监控管理
云平台信息采集:北向支持主流云管平台,获取租户VPC及子网信息;获取租户逻辑拓扑;获取pod、租户信息、VPC等信息(子网信息、服务器、防火墙、负载均衡、DCI互通等)。
SDN控制器监控分析:支持华为、华三、锐捷、中兴等异构SDN控制器统一纳管、监控和告警上报。支持获取全网流表、ARP、路由及VXLAN并发隧道数量等信息、overlay网络拓扑,通过信息比对形成统一监控与告警;支持underlay和overlay关联关系形成多维度监控统计与呈现;监控运行参数超过阈值时,能在拓扑图上根据用户定义阈值以醒目颜色显示,提供对历史性能数据进行统计分析功能。
SDN告警分析:通过协议接口、日志等方式对接异构厂家SDN网络与告警上报,全面展示SDN网络健康状况。
网络路径自动化诊断:自动学习云平台的资源拓扑、采集并分析虚拟网络中的网元配置和流量信息,实现虚拟网络端到端的诊断能力。支持查看任意网元之间每一段链路的性能指标和流量详情,结合告警基线设置,及时发现潜在风险。展示对应逻辑网络和物理网络链路的网络数据指标详情及性能分析。
4.2 异构SDN网络数据分析与智能运维
IT云异构SDN网络的资源管理与监控涉及多个维度监控、多个管理平面以及多套控制器网络设备运维。完成对现网异构SDN控制器统一维护与数据聚合,构建智能化运维能力,形成立体式动态监控与运行数据实时呈现。
4.2.1 SDN网络数据分析
* 将网络平台的网元能力抽象形成统一的数据仓库,对网元进行混合调用时,有清晰的流程和日志过程,包括交换路由、防火墙、负载均衡等设备相关系统指标和运行指标等。
* 支持多种设备数据抽象与聚合:提供细粒度数据复制与采集,通过业务流程及南北向接口数据管理实现数据聚合。
北向接口:Openstack插件、Web界面、RESTful API。
南向接口:防火墙接口、负载均衡接口、交换机接口、异构SDN控制器接口、IPS/IDS/WAF等接口。
网络配置:防火墙、负载均衡、交换机等配置模块,每个配置模块支持IPv6地址配置。
4.2.2 SDN网络自动化运维
通过业务数据的自动化与报表输出,实现数据可视化和报表自定义生成,为运维人员提供运营管理依据。同时支持定期(日、周、月)自动化巡检,输出到平台统一管理,并支持每日通过邮件发送给指定运维人员。
配置备份:支持全局配置按日/周/月/季度等自定义周期自动备份系统;操作回退时根据备份数据进行业务网络的系统恢复。
配置对比:异构SDN网络控制平面的网络配置对比与一致性稽核。
服务链自动化编排:提供对防火墙、负载均衡、出口安全设备的业务服务链编排。满足安全服务链编排对每个服务节点进行策略、监控等一系列自动化配置与动态嵌入,保证业务流量按需在服务链动态嵌入与透明穿越
小结
咨元异构云SDN网络运维管理系统,针对异构SDN网络,实现网络配置、告警、数据集中化管理与全局可视化监控的智能运维。