一、概述:
中国某客户服务中心(XXXXX网)是服务客户的重要窗口,集成了全路客货运输信息,为社会和铁路客户提供客货运输业务和公共信息查询服务。客户通过登录XXXXX网站,可以查询旅客列车时刻表、票价、列车正晚点、车票余票、售票代售点、货物运价、车辆技术参数以及有关客货运规章。
随着XXXXX网业务区网络的日益扩大,应用规模也越来越大,网络异常、应用故障问题也日益突出。当前在IT运维工作中使用传统基础网管软件能够监控链路上总体流量的大小,但对流量的通信信息无法进行进一步的分析,并且不能对流量的趋势进行预测,在分析深度上已经不能满足日益复杂的IT运维需求,在监控范围上也已经不能满足现在的管理需求。
同时,现有的运维管理方式缺乏对业务故障问题的有效分析手段和方法,造成业务故障出现时无法及时、快速定位和解决问题,给业务的高效、稳定运行造成诸多困难。
基于上述情况,信息网的流量数据分析,快速的了解网络质量、识别各种应用服务以及关联业务系统,提升网络整体化、精细化、智能化管理水平,并高效的提供服务就成为信息化建设工作的重中之重。
二、需求分析:
当前XXXXX网对于网络流量分析和业务性能监控运维管理方面存在较多不足之处,体现在网络运维工作目前依然普遍依赖于传统基础网络管理系统,这些传统运维管理方式能监控网络中各条链路的流量大小和通断情况,但无法对网络流量的深层通信信息(如IP会话、应用占比、业务性能)进行深层次透视化分析。传统的网络管理手段粒度较粗,仅能满足基本网络管理需要,无法做到精细化,会为运维工作带来以下几个方面的困扰:
①无法精细掌握业支系统各功能区域的流量趋势和规律,难以主动、科学的进行规划和策略调整,网络管理处于被动状态;
②缺乏对各业务传输端口、带宽占用的监控和梳理能力,不能有效掌握各业务流量的运行情况,难以区分业务流量成分,无法为网络优化、安全策略等工作提供准确的数据依据。
③缺乏对业务系统关键应用访问质量、访问状态的有效监控手段和科学的指标性依据。不能够第一时间掌握关键应用的访问性能,不能够第一时间发现关键应用的异常状态,运维工作比较被动,往往是业务部门发现问题后运维人员救火式的进行排障。
④业务系统的关键应用出现问题(如运行缓慢或意外中断时),由于没有历史网络通信数据,仅凭经验解决,难以分析问题根本原因并加以解决,问题可能成为系统运行的隐患;
⑤业务系统出现问题时网络、业务等运维部门之间缺乏快速界定故障层次、判定问题责任的科学依据。
针对目前XXXXX网在运维管理方式上的难点和不足,为有效地提高业务系统的运维质量,我们需要全面的部署基于原始数据包采集分析系统与业务性能监控系统,实现对全网数据的长期实时监测分析能力,提供更加主动的故障分析、性能监测功能。具体的需求如下:
①关键业务节点部署。在业务系统的关键的网络节点和网络链路上部署分析设备,对重要业务流量进行有效的监测分析,快速定位导致业务系统访问异常的原因。
②远程集中监控分析能力。对关键节点的网络流量实现集中的监控分析,要求具备统一集中的监控分析控制台,实现远程集中监控分析,警报数据的集中收集和展现,从而提高管理效率。
③分析系统必须具备数据包级的分析能力,必须能够通过对网络通讯的7层协议分析发现异常网络行为的行为特征,系统需提供网络中所有通讯数据包的细化分析能力,从而实现多角度,多层面的分析网络通讯数据,发现异常通讯流量,才能实现全面的异常监测分析能力。
④实时的行为异常监测和告警能力。提供对流量异常、网络行为异常的实时监测功能,能通过多种技术方式对网络流量进行深入的实时分析,如流量实时统计、主机流量实时统计检测、应用定义和流量实时分析、连接层数据统计和检测、通讯特征的监测分析、通讯内容的监测分析等,实现在实时分析的基础上根据实际需要设定异常告警,在出现流量异常时和行为异常是能自动发现,主动告警。
⑤系统要具备长期的通讯数据保存分析能力。能够实现长期流量监控与分析,为网络带宽规划、业务流量梳理提供数据依据。
⑥基于时间、重点通讯对象的数据回溯挖掘能力。当系统监测到异常的流量和异常的网络访问行为时,有能力对当时的流量数据报文进行提取和分析,提供进一步分析的依据,这要求系统能够提供对网络流量数据的长期保存功能,当发现问题时,提供一定时间范围内的回溯分析,提供分析取证的依据。
因此,就当前XXXXX网网络流量分析与业务性能监控状况,建议评测科来网络回溯分析系统与网络应用性能管理整体解决方案,以满足当前运维部门对流量分析、业务关键性能分析及故障排查的需求。
三、目标及收益:
3.1目标
建设目标针对各个核心区域、关键节点、网络边界进行深度网络流量采集和可视化管理,并协助网络部门全面掌握全网网络状态、各类业务的应用系统运行情况,提高网络智能化运维能力和保障水平。
3.1.1精细化业务系统中各个应用功能区域的网络趋势
通过对网络通讯的7层协议分析,提供网络中所有通讯数据包的细化分析能力,以物理网络为对象的运维模式提升至以业务系统网络为对象的运维模式, 实现以业务系统为核心部署分析设备及制定分析策略,并面向业务主动分析。系统提供图形化、图表化的方式呈现各业务的运行状态,让网络管理者随时了解每个业务系统的运行质量。
3.1.2对各应用网络性能进行监测和梳理能力
对各种应用的精确识别、特征标记、分类,掌握各应用网络的运行网络性能情况,区分各种应用的网络成分,为网络精细化、关联性、整体化等提供准确的数据依据。理清网络中各种应用系统的流量,建立可视化的流量监控,掌握网络资源使用情况,从而及时发现异常流量和新上线的业务情况,提高网络运维智能化能力。
3.1.3多种应用的服务器性能监测
对应用的服务器指标访问情况、性能参数、网络性能质量等关键参数进行实时监控,一旦出现异常即可及时发现并分析原因。为不同的业务可视化提供更加主动的可视化监控分析手段。
3.1.4针对网络运行异常的主动发现,增强网络运维的主动性
能够主动发现影响网络正常运行的异常网络行为,同时能够及时发现流量的异常,做到及时的发现异常流量并主动分析异常流量,从而做到问题早发现、早分析、早解决,避免运行故障风险。
3.1.5流量监控分析能力
实时长期的数据包级网络监控分析,网络各种异常行为的主动分析发现,网络运行趋势和规律分析。通讯数据包级的长期保存,通过分析大量的网络通讯行为,可以帮助用户清晰目前的网络问题;规划未来的网络利用、业务系统的应用和选择,提供了充足的参考依据。
3.2项目效益
网络及网络应用性能管理项目的建设能够提高网络及业务管理和运维工作的主动性,在保障网络运维正常运行方面发挥重要作用,项目建设带来的效益如下:
3.2.1合理进行带宽容量规划,避免资源浪费
通过网络及网络应用性能管理项目的实施,能够有效的对网络关键链路带宽资源以及资源占用情况进行监测分析,从而提供科学有效的扩容决策依据,避免不必要的浪费。同时能够有效的发现分析带宽资源的占用趋势,为带宽扩容提供科学依据,避免出现突然的网络带宽不足造成的业务系统损失。
3.2.2实时监测网络,快速发现、定位网络故障
针对网络故障的特殊性,性能管理系统根据故障发生的时间,快速进行故障还原,重现网络故障现象,变被动为主动,分析故障发生的原因,避免相同故障的再次发生。
3.2.3减少关键应用的网络宕机时间
目前很多业务系统运行在网络基础之上,并且越来越多的核心业务系统会运行在网络中,网络宕机会给业务带来直接的损失,网络及网络应用性能管理项目的建设能够主动有效的对这些问题进行分析,避免由于异常网络行为造成的网络宕机,同时当网络出现问题时,能够快速分析定位问题点,从而把业务系统的损失降到较低点。
3.2.4提高网络性能质量
网络的服务质量直接影响业务应用的运行性能,目前越来越多的对外业务都是基于网络运行的,通过网络及网络应用性能管理项目的实施能有效提高网络运维水平,保证网络服务质量,从而避免由于网络性能下降带来的业务系统运行性能下降。
3.2.5科学合理界定网络故障
通过网络及网络应用性能管理项目的实施,能够为判定问题是由于网络还是应用系统引起的提供有效的科学的数据依据,从而提高问题解决的效率,避免一旦出现问题后部门间相互扯皮的现象。
3.2.6应用的网络流量监测
通过网络及网络应用性能管理项目的实施,能掌握应用的网络质量,并了解应用的流量、访问量、延时、丢包、重传、连接成功示意图等。
3.2.7应用服务的识别、标记
通过网络及网络应用性能管理项目的实施,对网络流量进行数据包级的分析,能快速精确识别、标记和分类不用的应用,全面掌握网络中的运行情况,为关联关系系统提供支持。
3.2.8不同系统间建立业务应用关联图
通过网络及网络应用性能管理项目的实施,可以把分散的系统进行整合,了解不同系统中的数据传输的过程。
四、网络及业务性能管理整体解决方案(相关产品:明网网络性能与故障分析解决方案):
4.1方案介绍
随着网络规模的日益增大和网络问题的日趋复杂,单一的网络分析终端将无法有效胜任对整网的全面分析。网络及网络应用性能管理采用分布式远程管理和历史数据回溯分析的方法解决便携式网络分析系统的不足。它采用自主设计研发的第二代网络分析引擎,提供万兆网络流量数据采集、存储,历史数据挖掘与回溯分析,并支持与便携式网络分析系统进行联动,对挖掘的网络数据进行精细化诊断与分析。
网络及网络应用性能管理为提供长期的网络通讯数据采集记录,并提供基于时间的数据挖掘分析系统。该系统通过实时的数据包捕获,监测到真实用户访问的完整过程,拥有独特的网络分析能力,实现了数据的海量存储及快速的历史数据回溯分析功能,使网络分析突破时间的限制,在数据挖掘、追踪定位、会话性能分析以及安全取证等方面更精确、高效,从而帮助用户解决传统网管手段无法解决的网络问题。
作为业务性能管理解决方案中集中统计和展示的数据分析系统,网络应用性能管理为运维管理实现从以物理网络为对象的运维模式提升至以业务网络为对象的运维模式, 实现了让用户以图形化、图表化的方式呈现各业务的运行状态,让网络管理者随时了解每个业务的运行质量。在网络应用性能管理的业务集中监测页面中,使用图形直观展示出每个业务的运行状态,用户可以快速发现状态异常的业务;可以根据自身业务的关系自定义业务逻辑图,当业务中某个应用出现故障时,会在业务逻辑图中高亮显示,实现快速定位故障点。系统提供针对单个应用的多段分析视图,当应用出现分段丢失、重传问题时,能够提取监测该应用的所有前端的数据进行对比分析。
性能管理解决方案能够有效满足用户对网络及业务层面的故障分析、性能监测等重要需求,能够简化用户繁重的运维工作,为运维工作提供强有力的技术支持。
4.2系统组成
网络及业务性能管理整体系统构架示意图如下所示:
网络及网络应用性能管理主要由网络应用性能管理与明网分析系统两部分组成。
4.2.1网络应用性能管理
核心业务的发展和支撑业务系统的网络系统的发展都很迅速,这种发展相互促进,同时互相影响,系统也在发展中变得越来越庞大,越来越复杂。支撑核心业务系统的网络系统的运维工作,包括网络基础设施、相关的应用系统、数据库以及安全保障系统的运维已经变成一个至关重要的工作,网络系统的运维终将和企业的核心业务活动完全融合起来。
网络及网络应用性能管理是真正的基于业务网络的性能管理系统,能让网络的运维和业务的保障紧密结合起来,全面监测业务系统各环节服务质量、快速发现并定位影响关键业务性能及稳定性问题,以较大提升业务网络的运维效率和故障处置能力围绕客户的业务网络提供以业务为核心的网络支撑环境梳理、实时性能监测和快速故障定位的分析功能。
网络应用性能管理集中收集分布式部署在网络各个节点的明网分析系统的实时分析数据,以图形化、图表化的方式为运维人员直观呈现业务系统各个环节的工作状况。
4.2.2明网分析系统
明网分析系统主要负责所处网段的流量采集、分析和存储,通过对各网络对象进行详细的数据统计,让管理者实时掌握网络态势。
明网分析系统是能够长期记录存储网络通讯数据,并提供基于时间的数据挖掘分析系统。传统基于事件的网管系统只能监控到设备或网络链路的状态,无法监控网络用户访问的传输层到应用层的细节。与传统网管软件相比,明网分析系统通过实施的数据包捕获,能够监控到真实用户访问的完整过程,拥有独特的网络管理能力,实现了数据的海量存储及快速的历史数据回溯分析功能,使流量分析突破时间的限制,在数据挖掘、追踪定位、会话性能分析以及安全取证等方面更精确、高效;
明网分析系统对采集的数据进行分析的同时还可以建模,实现特征模型的数据分析能力。从而帮助用户解决传统网管手段无法解决的网络问题。
4.3分布式部署设计
通过对各重要区域的交换机/路由器进行旁路端口镜像,进行多节点分段分析,避免了由于单点故障对网络运行环境的冲击,在不影响网络链路正常通讯的背景下对需要采集的数据端口以网络分路器(TAP)的方式进行数据包抓取。实时监测网络流量、实时显示不同网络参数的趋势图,对不同应用和节点实时监测,分析流量并计算出网络延时、丢包、抖动等网络性能参数及精准识别流量中的应用协议并分类,对流量特进行特征标记;
网络流量采集示意图如下:
分布式和单独流量采集示意图
4.4部署实施
◆ 本次明网分析系统采用端口镜像旁路部署的方式,并且其流量分析方式为完全的旁路式接入,因此不会对原有网络产生任何影响。在业务访问区域网络上部署明网分析服务器,主要采集并分析网络中的关键链路及应用节点传输流量,部署网络应用性能管理采用带内方式连接明网系统对业务性能进行监控。
◆ 当前网络中镜像流量峰值不大,通过交换机In/Out两个方向镜像流量进行分析。采集存储镜像全流量,无需进行选择性过滤,帮助我们全面详细地分析网络中业务流量情况与故障问题。
◆ 明网分析系统监控的链路共计3条,包括互联网出口、核心交换机A与核心交换机B三条链路。
◆ 网络应用性能管理对1个关键业务进行了预定义,以实现集中业务性能监控,预定义的业务包括:XXXXX手机客票业务。
◆ 在监控机房运维管理PC上通过内部网络远程访问管理设备,通过安装明网分析控制台软件访问明网分析服务器,监控和分析服务器采集到的数据;通过WEB浏览器登录访问网络应用性能管理,管理和监控业务性能相关信息
五、网络应用性能管理系统简述
网络业务性能管理方案能够实现针对网络关键节点的长期实时分析能力。部署明网分析系统和网络网络应用性能管理将使网络运维管理能力大大提高,填补网络管理系统在应用质量监测、应用识别、应用特征标记、应用问题分析和网络实时流量、趋势、异常行为回溯、分析取证方面的欠缺,使技术人员对网络异常情况的应对能力大大提高,提高网络管理的主动性,从而能更好的保证关键业务应用的正常运行,具体产品功能特性体现在如下方面:
5.1网络应用性能管理系统
网络应用性能管理系统是一款能够全面监测应用系统各环节服务质量、快速发现并定位影响关键应用性能及稳定性问题的网络性能管理产品。 网络应用性能管理以较大提升应用网络的运维效率和故障处置能力为研发目标,围绕应用网络提供以应用为核心的网络支撑环境梳理、实时性能监测和快速故障定位的分析功能。网络应用性能管理集中收集分布部署在网络各个节点的明网分析系统的实时分析数据,以图形化、图表化的方式为运维人员直观呈现业务系统各 个环节的工作状况。
5.2网络性能监测界面
网络性能监测中默认分组的路径状态,通信路径正常时为绿色,其它颜色表示该路径通信状态存在异常。可以单击某一路径,进入该路径的路径分析页面,进行该路径的详细分析。页面最上面为时间轴,拖动时间轴来回溯分析时间段的流量发生情况。如下图网络性能监测界面
网络性能监测界面
5.3网络流量趋势占用分析
流量占用分析中包括趋势图、Top主机和Top应用信息,趋势图中的指标包括比特率、流量、数据包、TCP数据包、利用率、警报、数据包大小分布、IP广播流量、IP组播流量、应用Top5、应用Top10和应用Top15统计。网络应用性能管理 具有强大的性能分析能力,系统能够第一时间发现网络性能下降,并快速分析出影响性能的原因。如下图。
网络趋势
5.4网络流量态势感知
趋势分析时,可以模拟未来一段时间内指标在指定时间点的运行趋势,为网络的扩容、规划和预测提供参考,趋势分析支持按天和按周进行,系统默认按天分析。
网络流量态势图
5.5应用的精准识别和分类
明网分析系统集成了网络分析系统的强大网络分析功能,提供直到数据包级的精细分析能力,提供直观的数据包协议解码分析视图,提供2500多种各类网络通讯协议的解码分析能力,实现应用的精准识别。下图应用识别及分类。
应用识别及分类
5.6应用的特征标记
明网分析系统支持用户根据IP地址、通讯端口、通讯特征、URL等条件自定义应用,实现精准的业务通讯识别与统计;帮助用户梳理业务流量,掌握网络中各类业务的流量构成,并实现针对业务应用的精细化管理。如下图应用的标记
应用的标记
5.7应用全集性能监测
应用全局性能监测中,展示了所有业务节点的网络性能状态及警报等信息。如下图应用全局性能监测
应用全局性能监测
5.8全路径全流量业务指标分析
业务性能分析提供对业务的整体性能分析。业务性能分析中,系统按用户在业务配置中配置的业务逻辑关系,显示选中时间范围内的业务运行状况,能在网络路径和节点上查看已触发警报的数量(警报为设置的网络质量参数)。如下图业务性能分析
业务性能分析
5.9综合应用指标可视化监测(单个应用)
业务指标分析主要是对应用监测指标、该应用的服务器指标、客户端指标进行查询,以及指标之间的对比查询和图形化展示。选择单个应用节点观察单一应用的指标趋势。指标150+项目,如下图单应用综合指标分析
单应用综合指标分析
5.10自定义告警设置
网络应用性能管理提供了预定义警报模板功能,在创建业务警报时,可以直接选择已创建好的警报模板。系统默认已经创建了5种警报分类,包括应用监控警报、网段客户端警报、任意客户端警报和单个客户端警报。添加警报时可以通过“与”“或”关系关联多个触发条件,形成组合告警,可选指标项达到70多种,可以制定出丰富的告警组合。如下图预定义警报模板功能
预定义警报模板功能
5.11自定义报表输出
在报表中,您可以通过不同的组件自定义报表内容。可以输出择探针上的指标趋势图、网段指标趋势图、流量评估概要、TOP应用、TOP主机、TOP IP会话、TOP网段;某个业务的应用指标趋势、服务器指标趋势、客户端指标趋势、TOP服务器、TOP客户端等。如下图自定义报表输出
自定义报表输出
六、明网分析系统(相关产品:明网网络性能与故障分析解决方案)
明网分析系统是能够长期保存网络通讯数据,并提供基于时间的数据挖掘分析系统。传统基于事件的网管系统只能监控到设备或网络链路的状态,无法监控网络用户访问的传输层到应用层的细节。与传统网管软件相比,明网分析系统通过实施的数据包捕获,能够监控到真实用户访问的完整过程,拥有独特的网络管理能力,实现了数据的海量存储及快速的历史数据回溯分析功能,使网络分析突破时间的限制,在数据挖掘、追踪定位、会话性能分析以及安全取证等方面更精确、高效,从而帮助用户解决传统网管手段无法解决的网络问题。
6.1高性能的数据捕获和存储
万兆性能的网络流量实时处理能力,能够线速的保存骨干链路上的所有通讯数据,包括所有的数据流信息和数据包。
6.2长期的数据保存能力
设备本身集成大容量存储系统,可提供从2至96TB的专用明网分析系统硬件,同时能根据用户需求提供更大容量存储系统的定制硬件,提供关键链路网络通讯数据的长期存储。
6.3高效快速的数据挖掘和检索
提供任意时间范围的网络通讯数据挖掘能力,能够快速的检索到主机、应用的通讯信息,同时对数据流信息进行检索和挖掘,直到相关数据包的快速挖掘,帮助用户快速定位挖掘特定分析目标的网络通讯数据。
6.4全面深入的网络通讯分析能力
提供明网分析系统对网络通讯的各种全面深入分析功能,包括强大的专家系统智能分析、数据包详细解码分析、节点分析、数据流分析、安全分析、应用层日志分析等对网络通讯的多种精细分析能力。
明网分析系统集成了网络分析系统的强大网络分析功能,提供直到数据包级的精细分析能力。主要的分析功能如下:
◆ 专家系统智能网络故障发现分析
专家系统能够根据各种网络故障、应用故障的流量特征主动发现网络中的异常,给用户清晰直接的提示,能够大大提高用户的分析诊断效率。
◆ 基于网络行为分析的智能安全分析
系统提供了安全分析视图,根据各种安全威胁的网络行为特性分析和发现包括ARP攻击、蠕虫病毒、DoS攻击、TCP端口扫描、可疑会话等安全威胁,大大提供用户分析发现网络安全威胁的能力和效率。
◆ 强大的数据包解码分析提供网络分析的重要依据
系统提供网络协议解码分析,提供直观的数据包协议解码分析视图,提供2500多种各类网络通讯协议的解码分析能力,为用户判定分析网络问题和应用问题提供最直接的数据依据。
◆ 数据流分析快速定位分析网络和应用故障
能够对TCP数据流和UDP数据流进行深入的数据分析,对数据的传输情况,应用的交易处理过程进行深入分析,提供时序图等图形化展示,使用户对应用的数据传输过程一目了然,更加方便直观的分析定位网络应用问题。
◆ 日志分析提供强大的网络行为分析功能
网络分析系统提供强大的应用日志分析功能,能够通过分析网络中的应用通讯数据对网络用户的应用访问情况进行详细分析,包括DNS、Email、FTP、HTTP、等应用的详细应用日志进行分析。
6.5智能故障诊断
系统的智能专家分析功能,能够智能判断网络中出现的2-7层各种常见故障及隐患,例如:ARP格式违规、IP地址冲突、丢包/重传、TCP应答慢、应用层异常通讯、应用层错误信息等等。并能够提供专业的原因分析及解决方法建议,帮助使用者快速诊断网络和应用系统的各种问题,极大的提高分析问题的效率,减少故障排查难度。
6.6丰富的警报设置,及时发现潜在问题
明网分析系统可以依据流量特征、邮件敏感字、可疑域名以及报文特征值等信息设置丰富多样的警报,能够及时发现监测链路中各种流量异常变化或影响网络健康的异常网络行为。这些警报还可以通过Email方式通知网络管理人员,或者通过Syslog方式与现有网管系统集成。
6.1多角度、深层次的数据挖掘
系统提供基于网络对象的数据挖掘技术,网络对象包括通讯协议、IP端点、物理端点、IP会话、TCP会话、UDP会话,可通过网络对象进行层次化、多角度的数据挖掘并进行关联,从而帮助网络管理者快速发现、分析网络问题。
七、数据保密性说明
7.1数据存储保密性
系统采用自主数据结构存储捕获的数据包和数据流统计信息,只能通过回溯分析控制台调取;任何第三方工具无法直接调取捕获数据,可以确保测试期间监测数据的保密性。
7.2数据通信保密性
系统使用专用的管理接口与明网分析控制台通信,数据采集接口不参与和控制台的数据传输;服务器和控制台之间使用自主的编码格式以非明文方式传输,传输过程没有泄密风险。
八、案例
某信息中心业务系统性能问题定位与解决
某信息中心向我们反映其主要业务系统运行缓慢,调取现有网管系统和运维监控工具均无法定位问题原因。在客户数据中心 部署网络及应用性能管理系统,发现其业务系统的网络数据传输时 间很长,服务器多次出现过载现象。
关联分析服务器历史趋势和数据包回溯,我们发现其 TCP MSS 值设置不合理,导致传输效率低下,会话持续时间增加,进而导 致并发会话数超过服务器较大能力,导致服务器过载。
客户按照我们的建议,将 MSS 数值设置为 1460 后,故障解决。
相关产品:
明网网络性能与故障分析解决方案