• 客服热线:400-670-0056

大数据分析系统

总目录

一、CDN/Cache运维管理质量分析系统

二、有线互联网端到端质量分析系统

三、网络流量分析系统

1、CDN/Cache运维管理质量分析系统

1.1 面临的问题

互联网内容资源业务的链条长、节点多、分布广,如何对互联网业务的质量进行有效管理、快速故障定位,仍然存在难点。其具有以下特点:

由不同厂商建立,缺乏统一的管理体系和标准

现有的分析手段不足以支撑精细化运维的需要,且对厂商的依赖较大

故障发生后,缺乏精准的故障定位方法和调度还原机制

1.2 传统的解决方法存在较多问题

传统的缓存问题分析方法依靠拨测、厂商网管、投诉发现问题,通过问题重现并进行抓包和数据的提取,对提取的数据进行分析后得出结论和解决方案,最终通过拨测评估优化效果。该方法存在的问题如下:

问题的发现过程比较被动。通常发现的问题都是已严重影响到用户而产生的客户投诉,缺乏主动的监控指标体系对业务质量进行监控;

问题的重现、抓包和后期数据分析过程繁琐。1、厂商的管理软件不支持跨厂商管理,且厂商软件仅能提供基础指标,并不能针对故障场景进行分析。2、日志数量巨大,人工分析耗费大量的人力成本和时间成本;

效果评估手段匮乏。对问题进行优化处理后,只能依靠拨测进行效果评估,没有全量数据支撑,优化效果缺乏说服力。

1.3 建设目标

内容资源可视、质量精细化分析、故障分析与定位与业务调度联动

1、通过日志采集,实现质量监测:通过日志采集引擎实时采集不同厂商的缓存日志,梳理缓存业务的管理指标体系,通过监测指标的数据,衡量业务的质量,实现主动性质量监测。

2、实现故障的分析和定位:通过对异常数据指标的呈现,以及使用指标关联分析的方法,帮助维护人员及时发现并进行原因分析,实现故障的分析和定位。

3、实现业务调度联动:通过对缓存系统、DNS系统的对接,基于合理的调度 规则,实现业务配置的联动,最终解决问题。

1.4 整体思路

从域名挖掘、质量监测、异常分析、调度优化四个环节做到缓存业务的闭环管理

基于DPI的抽样数据进行域名挖掘,筛选出“可缓存域名”清单

采集各业务厂商的缓存日志文件,梳理字段信息,实现监控指标体系,衡量域名质量

对异常指标进行深度分析,筛选出“不可缓存域名”清单,例如带有https的域名;回源率较高的域名

对接Cache系统、DNS系统,通过调度配置规则,将“不可缓存域名”从配置中删除

1.5 应用场景一:建立缓存业务主动性监控平台

突破黑盒子,通过多维度的监控指标集实现缓存业务质量的分析与评估

基于资源维度:域名缓存命中率、域名访问成功率、域名下载速率的峰值和均值、域名下载流量统计、域名HTTP状态返回码等;

基于缓存服务器或服务器群组维度:大小文件下载速率、总流量统计、缓存命中率、域名数、访问用户数、访问成功率、服务器CPU利用率、服务器内存利用率、服务器网卡吞吐量等;

基于地理位置维度:对各地市的关键质量指标进行排行,找出业务质量的质差区域;

基于业务维度:如有线家宽、4G、WLAN等业务状态下的业务质量统计;

基于统计排名维度:热门资源访问排行;域名访问成功率排行;HTTP状态码占比统计;缓存命中率排行;TCP访问时延排行;大文件下载速率排行;小文件响应时延排行、各地市缓存质量排行。

 

1.6 应用场景二:缓存业务规划和流量引导

支撑资源引入:定期对大流量业务、点击热点业务及重点热点网站进行分析,分类整理各流量流向,分析流量及排名,输出资源引入分析报告,支撑互联资源引入工作;

引导地市流量下沉:定期输出资源引入需求报告,对各地市出网流量、点击量较大的业务及地市热点网站进行分析,支撑地市资源引入、流量下沉等工作。

1.7 应用场景三:异常分析与数据追溯

缓存命中率较低

追踪域名信息,定位故障

对比指标波动

识别异常资源

1.8 应用场景四:故障定界

实现CDN与源站故障定位定界  

 

1.9 适用范围

行业:运营商

网络及业务:内容资源

管理的设备:CDN、Cache服务器

1.10 客户

  贵州移动

2、有线互联网端到端质量分析系统

2.1 需求分析

 随着家庭宽带用户的持续增长,家宽业务成为移动有力的业务增长点,如何主动提升用户体验、快速定位网络质量问题,有效减少客户投诉,成为亟待解决的问题。

2.2 解决方案

 通过大数据、机器学习等技术,实现对内容资源、省干、城域、接入四层体系指标采集分析与建模(综合数据网管、投诉、资管、DPI探针、拨测、Radius、GPON、DNS等系统数据)、对各层面异常数据指标分析与呈现,通过机器学习线性回归、决策树算法,实现宽带质差用户的定界定位,帮助维护人员清晰明了的掌握网络质量情况,实现端到端的网络质量分析,以助于快速提升互联网用户感知。

2.3 方法一:全面分析评估四维度数据

  围绕家客等不同用户群,细分网站、域名、服务器IP,全面采集评估DPI、DNS、拨测及投诉四个维度的数据,实时跟踪指标、及时发现劣化。

2.4 方法二:定界质差问题

  4步定界:以浏览和视频为主要业务,全量分析四维度关键指标数据,从用户、网元和内容三个环节,通过4个步骤开展质差问题的粗定界,定界质差内容服务器、质差域名等。

  四个步骤:性能指标监控、劣化维度判定、横向对比分析、纵向关联分析四个步骤;

  工作进展:实时监控HTTP网页及视频类业务的性能指标,掌握热点内容质量变化趋势;区分内容资源落地点,按用户地域归属与网元归属2条主线,逐级下钻分析呈现各环节质差点。

2.5 方法三:定位质差原因

  5段定位:聚焦定界结果,关联拨测、网管等监测数据,全方位分析质差原因,定位调度错误、ICP资源受限等5段问题。

2.6 方法四:协同优化

  针对定位结果,一一制定优化措施,与总部、兄弟省份、重点ICP等开展协同优化,实施闭环管理。

2.8 建设支撑手段一:主要功能-热点分析功能

  切合DPI信令、DNS、投诉数据,分析全网用户质量感知和挖掘用户访问热点。

1、按业务类型,通过BRAS获取全网实时在线用户数,根据全网用户分析用户质量,获取用户质量感知

2、按网站域名、视频,通过DPI分析和爬虫资源探测,发掘TOP点击域名及资源访问质量溯源,获取点击热点

  将用户访问热点、用户投诉焦点作为样本纳入仿真拨测,建立拨测样本更新机制,确保样本紧贴用户访问行为

2.9 建设支撑手段二:质量分析功能

  通过在城域网NE5000到防火墙部署DPI探针,实时监测端到端网络与业务质量,支撑端到端问题定位。

1、在网络层面,通过采集不同网络层级的网络数据,掌握从城域网、省网、网内到网外各段落网络性能趋势情况,及时发现端到端各段落的网络短板问题

2、在业务层面,结合用户观测的真实体验(视频卡顿、游戏掉线等),构建差异化的KQI指标体系践行端到端业务质量评估,重点针对省内已引入或缓存的资源加大测试频次,提高省内内容网络掌控能力

  从网络和业务两个维度设定宽带业务故障告警,对接集中故障管理平台,实现自动派单至相关维护部门。

2.10 创新点1-基于机器学习的用户感知分析

  通过训练的决策树分类模型可以很准确地辨别用户是否发生质差, 采用随机森林分类模型可以利用已知的历史信息,在3类原因中较为精确地断定出是哪一种原因导致用户上网异常,方便进一步对家宽业务资源、网络 、终端进行检测和维护,已达到快速预测和判断问题点。

2.11 创新点2-质差用户定界定位

  基础网络指标:TCP建链响应时延、TCP建链确认时延、TCP建链成功率、TCP上下行重传率

  网络系统智能:拨号成功率、DNS解析成功率、DNS解析时延

  业务质量指标:HTTP首包时延、页面范文成功率、下载速率

2.12 创新点3-用户仿真模拟路径还原算法

  从宽带DPI探针数据找到质差与故障ONU,定位用户后,根据探针推送的用户网络报文数据(源IP、用户侧ONU信息、访问目的IP),通过关联各层次资源数据,类似tracert,还原用户端到内容访问源的完整路径,包含网元、链路、访问内容等。从路径中快速过滤质差与故障告警。

2.13 创新点4-底层算法改进

  系统精准度持续提升:通过底层数据指标算法持续验证与优化,指标定义更加合理,基础数据准确率提升至90%以上;通过加强质差定界指标细化分解,完善云端、网络、终端关键指标定义,提升质差定界准确率至80%,有效支撑运维工作开展。

1、质量指标算法改进:

  优化并验证常规业务算法11个

  指标算法:通过将HTTP响应时延指标上下行分离,有效的区分了用户侧、内容侧质差

  采集算法:通过对内容侧大文件区分,大幅提高质差资源判断准确率。

2、质差定界流程

  四个步骤:性能指标监控、劣化维度判定、横向对比分析、纵向关联分析四个步骤

  工作进展:实时监控HTTP网页及视频类业务的性能指标,掌握热点内容质量变化趋势;区分内容资源落地点,按用户地域归属与网元归属2条主线,逐级下钻分析呈现各环节质差点。

2.14 价值

  实现运维闭环:通过将有线互联网端到端平台故障告警关联至省内EOMS系统,实现端到端质量保障流程闭环管理。截止6月共计派发性能类工单70张,支撑维护人员处理质差资源769个,质差小区31个,质差OLT12个,质差ONU 25个,端到端互联网质量得到较大提升。

1、质差资源:

  截止6月份共定位并解决质差资源769个,有效提高了互联网资源访问质量。

2、质差小区

  截止10月份共计处理质差小区31个,主要原因为高峰时期,网络拥塞导致,通过扩容解决。

2.15 适用范围

  (1)行业:运营商

  (2)网络及业务:从用户接入终端——接入网——城域网、核心网——内容资源

  (3)管理的设备:PON、省干路由器、交换机、DNS、缓存服务器、DPI

2.16 客户

  贵州移动

3、网络流量分析系统

3.1 客户需求分析

  IP 网承载业务越来越多,业务流量增长也非常快速,我们需要清晰掌握不同区域、不同业务的流量状况,便于对用户进行有针对性的业务分流。目前在IP 网出口已经通过DPI提取了所有流量信息,但是仅仅分析出口流量并不能满足需求,并且一些流量不通过出口,造成无法统计。

3.2 解决方案

  基于Flow技术,实现由传统的以链路为对像的流量监控,向基于链路内业务数据流量的认别、提取、统计与分析能力的转变,结合城域网、承载网的IP地址信息,确定流量发起源的归属区域,从而确定从某地(区县)到某业务的访问流量,为业务流向分析与故障定位提供支撑手段;目前已有解决方案:VPN流量分析系统、CMNET网流量分析系统。

3.3 产品特点

  (1)实现IP网络骨干链路各种业务的流量统计,支撑网络优化

  (2)对各种业务通道实现预警,保障网络业务安全

  (3)实现对各种业务流量趋势的科学预测,支持工程建设

  (4)通过故障处理工具,协助疑难故障处理

3.4 应用价值

  (1)基于业务的网络流量统计:在网络流量均衡优化时,往往面临修改路由参数就会造成全部流量单边承载的窘境,通常使用的方法是通过复杂的策略路由逐渐调整,该方法不但周期长,而且效果无法预知;通过应用实现基于业务的网络流量统计功能,可以为网络优化提供有力的数据支撑,简单地调整网络边缘接入方式就可以高效的实现流量的均衡。

  (2)实现业务通道预警:传统模式的流量预警,只能通过链路整体流量的异常变化产生告警,这种方式无法感知具体业务流量的异常变化;而本系统通过在链路上设置每种业务最低和最高流量阀值,可以有效的实现在每种业务流量发生异常变化时产生告警。

  (3)实现业务通道流量科学预测:本系统通过针对每种业务流量的统计,应用马尔可夫链的离散数学模型,科学地预测每种业务的流量,从而得出全网流量变化趋势。

  (4)路由故障自动定位:减少了部门间的交互、实现了自动化排查,大大缩短了故障排查历时。

  (5)报文转发回溯核查:为网络转发平面疑难故障分析提供了新的核查手段,大大提高了故障定位的效率

  (6)分析用户价值:通过系统分析到某区县通过X业务访问Y目标业务的流量,以及在总流量中的占比,同时导入每个区县的用户量,将用户量与流量对比,分析每个区县用户价值,以及根据流量大小做相应的路由优化、流量牵引。

3.5 适用范围

  (1)行业:运营商

  (2)网络及业务:IP承载网、CMNET网

  (3)管理设备:路由器

3.6 客户

  四川移动

  贵州移动

  山西移动

  辽宁移动

咨       询                                申请试用