一、背景:
1.1现网状态
XX银行整体网络架构已经较为稳定,运行管理系统已基本建成多年,业务系统不断的完善,相关子系统如:网络运维系统、业务支撑系统、、网络安全系统、办公系统、交易系统等越来越多的关键业务应用运行在网络中,这些业务应用大大提高了效率和服务质量。鉴于信息系统的重要性,及时的掌握和预测网络性能和应用运行情况、网络和相关应用服务器是否可以长时间稳定的提供服务,直接关系到业务的正常运行。
在新形势下,深入开展要求网络服务的提供更加快捷、高效,基础信息化的大力推进,对信息网络实施提出了更高的挑战和要求,需要更加及时全面的掌握全网网络状况,实时掌握网络节点运行情况、网络带宽预测情况,各类应用的服务情况等网络运行数据,提高网络流量精细化、业务应用梳理化、间歇性网络故障根源性快速定位和服务保障等能力。面对新形势、新需求,当前信息网络还存在诸多不足,如网络流量数据监测和分析利用手段有限、缺少快速故障定位能力、流量管控手段不灵活和网络回溯能力等。
基于上述情况,信息网的流量数据分析,快速的了解网络质量、识别各种应用服务以及关联业务系统,提升网络整体化、精细化、智能化管理水平,并高效的提供服务就成为信息化建设工作的重中之重。
1.2问题与挑战
流量分布不均:主要体现在忙闲时流量差距较大、主备链路差距较大、流入流出差距较大。造成此类问题的主要原因不是链路资源不足,而是数据资源分布不均。
应用服务质量保障不到位:网络按照原有的网络设计承载能力和数据转发机制,无法充分利用现有网络传输能力和带宽资源利用率,易发生网络拥塞和服务质量下降等情况;业务系统的服务质量和服务要求已经不满足于畅通率的指标,同时对网络传输质量、带宽保障和延迟等提出了新的要求。
网络管控手段有限、时效性不强:传统的QOS需要网络全程部署,精准度低、调整范围广、工作量大,无法满足现阶段网络精细化运营管理需求;尤其是针对突发流量导致的网络拥塞、网络设备或者链路故障导致传输能力下降、临时提出的固定时间固定区域的网络保障要求等问题时,没有高效的流量调度和管控手段;即使发现问题,无法第一时间精准管控和调度。
二、建设需求分析:
目前,网络运维的技术手段基本上都是通过基于SNMP网管软件的手段或通过人工方式,都无法快速取证故障数据从而判断数据流转过程中出现的问题,很难在第一时间对故障做出精确分析判断,更无法提前预警。目前迫切需要的是能够长期存储原始数据并且可以从数据包级进行快速了解网络性能、追本溯源、应用服务数据包级分类、识别标记等科学分析手段。
针对目前在信息网多级、多段、专业分离的网络运维体系中有效监测分析能力方面的不足,建议在网络关键节点部署基于原始数据包采集分析监测系统,实现对核心网络、边界网络长期实时监测分析能力,提供更加主动的以业务应用为中心的网络质量分析、各节点的网络性能参数、网络业务流量精细化和带宽预测功能等。通过在网络中部署数据包级明网分析系统和业务性能管理系统,从而实现更加完善的网络及业务应用监测和分析能力,具体的需求如下:
①分析链路流量,重点监测分析链路流量中发生的高延迟、丢包、抖动等性能异常问题,同时针对链路带宽资源以及资源占用情况进行监测分析,有效的发现分析带宽资源的占用趋势,提供科学有效的线路扩容决策依据。
②分析访问数据中心业务应用系统通讯的服务端RTT和客户端RTT,快速排查影响系统贯通性的网络延迟、网络数据丢包,TCP超时重传方向。可鉴定行业至数据中心、分单位、业务部门之间等主干链路的通讯质量,监测是否有网络设备出现转发故障导致通讯失败。及时排除网络链路故障、设备转发故障对各项业务系统通讯影响。
④分析各项应用系统运行程序的可靠性,判定故障的导致原因是服务器端系统程序、服务器端性能、客户端及时定位系统运行故障的层次及原因,提供系统运行故障责任界定。
⑤需能够利用历史回溯技术,分析数据中心业务系统通讯的间歇性链接故障,实现责任鉴定,定位排查系统通讯故障源点,避免应用系统隐患故障的偶发造成业务通讯中断。
⑥具备实时警报能力,能够在捕获数据包时对业务系统、应用服务器、网络、客户端出现异常行为进行预警;警报参数阀值能够根据用户实际流量状况进行定制调整。
⑧对应用进行监测,实现应用的精准识别、特征标记、分类。
三、标及收益:
3.1目标
建设目标针对各个核心区域、关键节点、网络边界进行深度网络流量采集和可视化管理,并协助网络部门全面掌握全网网络状态、各类业务的应用系统运行情况,提高网络智能化运维能力和保障水平。
3.1.1精细化业务系统中各个应用功能区域的网络趋势
通过对网络通讯的7层协议分析,提供网络中所有通讯数据包的细化分析能力,以物理网络为对象的运维模式提升至以业务系统网络为对象的运维模式, 实现以业务系统为核心部署分析设备及制定分析策略,并面向业务主动分析。系统提供图形化、图表化的方式呈现各业务的运行状态,让网络管理者随时了解每个业务系统的运行质量。
3.1.2对各应用网络性能进行监测和梳理能力
对各种应用的精确识别、特征标记、分类,掌握各应用网络的运行网络性能情况,区分各种应用的网络成分,为网络精细化、关联性、整体化等提供准确的数据依据。理清网络中各种应用系统的流量,建立可视化的流量监控,掌握网络资源使用情况,从而及时发现异常流量和新上线的业务情况,提高网络运维智能化能力。
3.1.3多种应用的服务器性能监测
对应用的服务器指标访问情况、性能参数、网络性能质量等关键参数进行实时监控,一旦出现异常即可及时发现并分析原因。为不同的业务可视化提供更加主动的可视化监控分析手段。
3.1.4针对网络运行异常的主动发现,增强网络运维的主动性
能够主动发现影响网络正常运行的异常网络行为,同时能够及时发现流量的异常,做到及时的发现异常流量并主动分析异常流量,从而做到问题早发现、早分析、早解决,避免运行故障风险。
3.1.5流量监控分析能力
实时长期的数据包级网络监控分析,网络各种异常行为的主动分析发现,网络运行趋势和规律分析。通讯数据包级的长期保存,通过分析大量的网络通讯行为,可以帮助用户清晰目前的网络问题;规划未来的网络利用、业务系统的应用和选择,提供了充足的参考依据。
3.2项目效益
网络及业务性能管理系统项目的建设能够提高网络及业务管理和运维工作的主动性,在保障网络运维正常运行方面发挥重要作用,项目建设带来的效益如下:
3.2.1合理进行带宽容量规划,避免资源浪费
通过网络及业务性能管理系统项目的实施,能够有效的对网络关键链路带宽资源以及资源占用情况进行监测分析,从而提供科学有效的扩容决策依据,避免不必要的浪费。同时能够有效的发现分析带宽资源的占用趋势,为带宽扩容提供科学依据,避免出现突然的网络带宽不足造成的业务系统损失。
3.2.2实时监测网络,快速发现、定位网络故障
针对网络故障的特殊性,性能管理系统根据故障发生的时间,快速进行故障还原,重现网络故障现象,变被动为主动,分析故障发生的原因,避免相同故障的再次发生。
3.2.3减少关键应用的网络宕机时间
目前很多业务系统运行在网络基础之上,并且越来越多的核心业务系统会运行在网络中,网络宕机会给业务带来直接的损失,网络及业务性能管理系统项目的建设能够主动有效的对这些问题进行分析,避免由于异常网络行为造成的网络宕机,同时当网络出现问题时,能够快速分析定位问题点,从而把业务系统的损失降到较低点。
3.2.4提高网络性能质量
网络的服务质量直接影响业务应用的运行性能,目前越来越多的对外业务都是基于网络运行的,通过网络及业务性能管理系统项目的实施能有效提高网络运维水平,保证网络服务质量,从而避免由于网络性能下降带来的业务系统运行性能下降。
3.2.5科学合理界定网络故障
通过网络及业务性能管理系统项目的实施,能够为判定问题是由于网络还是应用系统引起的提供有效的科学的数据依据,从而提高问题解决的效率,避免一旦出现问题后部门间相互扯皮的现象。
3.2.6应用的网络流量监测
通过网络及业务性能管理系统项目的实施,能掌握应用的网络质量,并了解应用的流量、访问量、延时、丢包、重传、连接成功示意图等。
3.2.7应用服务的识别、标记
通过网络及业务性能管理系统项目的实施,对网络流量进行数据包级的分析,能快速精确识别、标记和分类不用的应用,全面掌握网络中的运行情况,为关联关系系统提供支持。
3.2.8不同系统间建立业务应用关联图
通过网络及业务性能管理系统项目的实施,可以把分散的系统进行整合,了解不同系统中的数据传输的过程。
四、网络及业务性能管理整体解决方案(相关产:明网网络性能与故障分析解决方案):
4.1方案介绍
随着网络规模的日益增大和网络问题的日趋复杂,单一的网络分析终端将无法有效胜任对整网的全面分析。网络及业务性能管理系统采用分布式远程管理和历史数据回溯分析的方法解决便携式网络分析系统的不足。它采用自主设计研发的第二代网络分析引擎,提供万兆网络流量数据采集、存储,历史数据挖掘与回溯分析,并支持与便携式网络分析系统进行联动,对挖掘的网络数据进行精细化诊断与分析。
网络及业务性能管理系统为提供长期的网络通讯数据采集记录,并提供基于时间的数据挖掘分析系统。该系统通过实时的数据包捕获,监测到真实用户访问的完整过程,拥有独特的网络分析能力,实现了数据的海量存储及快速的历史数据回溯分析功能,使网络分析突破时间的限制,在数据挖掘、追踪定位、会话性能分析以及安全取证等方面更精确、高效,从而帮助用户解决传统网管手段无法解决的网络问题。
作为业务性能管理解决方案中集中统计和展示的数据分析系统,业务性能管理系统为运维管理实现从以物理网络为对象的运维模式提升至以业务网络为对象的运维模式, 实现了让用户以图形化、图表化的方式呈现各业务的运行状态,让网络管理者随时了解每个业务的运行质量。在业务性能管理系统的业务集中监测页面中,使用图形直观展示出每个业务的运行状态,用户可以快速发现状态异常的业务;可以根据自身业务的关系自定义业务逻辑图,当业务中某个应用出现故障时,会在业务逻辑图中高亮显示,实现快速定位故障点。系统提供针对单个应用的多段分析视图,当应用出现分段丢失、重传问题时,能够提取监测该应用的所有前端的数据进行对比分析。
性能管理解决方案能够有效满足用户对网络及业务层面的故障分析、性能监测等重要需求,能够简化用户繁重的运维工作,为运维工作提供强有力的技术支持。
4.2系统组成
网络及业务性能管理整体系统构架示意图如下所示:
网络及业务性能管理系统主要由业务性能管理系统与明网分析系统两部分组成。
4.2.1业务性能管理系统
核心业务的发展和支撑业务系统的网络系统的发展都很迅速,这种发展相互促进,同时互相影响,系统也在发展中变得越来越庞大,越来越复杂。支撑核心业务系统的网络系统的运维工作,包括网络基础设施、相关的应用系统、数据库以及安全保障系统的运维已经变成一个至关重要的工作,网络系统的运维终将和企业的核心业务活动完全融合起来。
网络及业务性能管理系统是真正的基于业务网络的性能管理系统,能让网络的运维和业务的保障紧密结合起来,全面监测业务系统各环节服务质量、快速发现并定位影响关键业务性能及稳定性问题,以较大提升业务网络的运维效率和故障处置能力围绕客户的业务网络提供以业务为核心的网络支撑环境梳理、实时性能监测和快速故障定位的分析功能。
业务性能管理系统集中收集分布式部署在网络各个节点的明网分析系统的实时分析数据,以图形化、图表化的方式为运维人员直观呈现业务系统各个环节的工作状况。
4.2.2明网分析系统(相关产品:明网网络性能与故障分析解决方案)
明网分析系统主要负责所处网段的流量采集、分析和存储,通过对各网络对象进行详细的数据统计,让管理者实时掌握网络态势。
明网分析系统是能够长期记录存储网络通讯数据,并提供基于时间的数据挖掘分析系统。传统基于事件的网管系统只能监控到设备或网络链路的状态,无法监控网络用户访问的传输层到应用层的细节。与传统网管软件相比,明网分析系统通过实施的数据包捕获,能够监控到真实用户访问的完整过程,拥有独特的网络管理能力,实现了数据的海量存储及快速的历史数据回溯分析功能,使流量分析突破时间的限制,在数据挖掘、追踪定位、会话性能分析以及安全取证等方面更精确、高效;
明网分析系统对采集的数据进行分析的同时还可以建模,实现特征模型的数据分析能力。从而帮助用户解决传统网管手段无法解决的网络问题。
4.3分布式部署设计
通过对各重要区域的交换机/路由器进行旁路端口镜像,进行多节点分段分析,避免了由于单点故障对网络运行环境的冲击,在不影响网络链路正常通讯的背景下对需要采集的数据端口以网络分路器(TAP)的方式进行数据包抓取。实时监测网络流量、实时显示不同网络参数的趋势图,对不同应用和节点实时监测,分析流量并计算出网络延时、丢包、抖动等网络性能参数及精准识别流量中的应用协议并分类,对流量特进行特征标记;
网络应用性能管理系统部署示意图如下:
网络应用性能管理系统部署示
4.4产品功能特性
网络及业务性能管理方案能够实现针对网络关键节点的长期实时分析能力。部署明网分析系统和业务性能管理系统将使网络运维管理能力大大提高,填补网络管理系统在应用质量监测、应用识别、应用特征标记、应用问题分析和网络实时流量、趋势、异常行为回溯、分析取证方面的欠缺,使技术人员对网络异常情况的应对能力大大提高,提高网络管理的主动性,从而能更好的保证关键业务应用的正常运行,具体产品功能特性体现在如下方面:
4.4.1业务性能管理系统
业务性能管理系统是一款能够全面监测应用系统各环节服务质量、快速发现并定位影响关键应用性能及稳定性问题的网络性能管理产品。 业务性能管理系统 以较大提升应用网络的运维效率和故障处置能力为研发目标,围绕应用网络提供以应用为核心的网络支撑环境梳理、实时性能监测和快速故障定位的分析功能。业务性能管理系统集中收集分布部署在网络各个节点的明网分析系统的实时分析数据,以图形化、图表化的方式为运维人员直观呈现业务系统各 个环节的工作状况。
4.4.1.1网络性能监测界面
网络性能监测中默认分组的路径状态,通信路径正常时为绿色,其它颜色表示该路径通信状态存在异常。可以单击某一路径,进入该路径的路径分析页面,进行该路径的详细分析。页面最上面为时间轴,拖动时间轴来回溯分析时间段的流量发生情况。如下图网络性能监测界面
4.4.1.4 应用的精准识别和分类
明网分析系统集成了网络分析系统的强大网络分析功能,提供直到数据包级的精细分析能力,提供直观的数据包协议解码分析视图,提供2500多种各类网络通讯协议的解码分析能力,实现应用的精准识别。下图应用识别及分类。
4.4.1.5 应用的特征标记
明网分析系统支持用户根据IP地址、通讯端口、通讯特征、URL等条件自定义应用,实现精准的业务通讯识别与统计;帮助用户梳理业务流量,掌握网络中各类业务的流量构成,并实现针对业务应用的精细化管理。如下图应用的标记。
4.4.1.6 应用全集性能监测
应用全局性能监测中,展示了所有业务节点的网络性能状态及警报等信息。如下图应用全局性能监测
4.4.1.7 全路径全流量业务指标分析
业务性能分析提供对业务的整体性能分析。业务性能分析中,系统按用户在业务配置中配置的业务逻辑关系,显示选中时间范围内的业务运行状况,能在网络路径和节点上查看已触发警报的数量(警报为设置的网络质量参数)。如下图业务性能分析。
业务性能分析
单应用综合指标分析
4.4.1.9 自定义告警设置
业务性能管理系统提供了预定义警报模板功能,在创建业务警报时,可以直接选择已创建好的警报模板。系统默认已经创建了5种警报分类,包括应用监控警报、网段客户端警报、任意客户端警报和单个客户端警报。添加警报时可以通过“与”“或”关系关联多个触发条件,形成组合告警,可选指标项达到70多种,可以制定出丰富的告警组合。如下图预定义警报模板功能。
4.4.1.10自定义报表输出
在报表中,您可以通过不同的组件自定义报表内容。可以输出择探针上的指标趋势图、网段指标趋势图、流量评估概要、TOP应用、TOP主机、TOP IP会话、TOP网段;某个业务的应用指标趋势、服务器指标趋势、客户端指标趋势、TOP服务器、TOP客户端等。如下图自定义报表输出。
4.4.2.4 全面深入的网络通讯分析能力
提供明网分析系统对网络通讯的各种全面深入分析功能,包括强大的专家系统智能分析、数据包详细解码分析、节点分析、数据流分析、安全分析、应用层日志分析等对网络通讯的多种精细分析能力。
明网分析系统集成了网络分析系统的强大网络分析功能,提供直到数据包级的精细分析能力。主要的分析功能如下:
◆ 专家系统智能网络故障发现分析
专家系统能够根据各种网络故障、应用故障的流量特征主动发现网络中的异常,给用户清晰直接的提示,能够大大提高用户的分析诊断效率。
◆ 基于网络行为分析的智能安全分析
系统提供了安全分析视图,根据各种安全威胁的网络行为特性分析和发现包括ARP攻击、蠕虫病毒、DoS攻击、TCP端口扫描、可疑会话等安全威胁,大大提供用户分析发现网络安全威胁的能力和效率。
◆ 强大的数据包解码分析提供网络分析的重要依据
系统提供网络协议解码分析,提供直观的数据包协议解码分析视图,提供2500多种各类网络通讯协议的解码分析能力,为用户判定分析网络问题和应用问题提供最直接的数据依据。
◆ 数据流分析快速定位分析网络和应用故障
能够对TCP数据流和UDP数据流进行深入的数据分析,对数据的传输情况,应用的交易处理过程进行深入分析,提供时序图等图形化展示,使用户对应用的数据传输过程一目了然,更加方便直观的分析定位网络应用问题。
◆ 日志分析提供强大的网络行为分析功能
网络分析系统提供强大的应用日志分析功能,能够通过分析网络中的应用通讯数据对网络用户的应用访问情况进行详细分析,包括DNS、Email、FTP、HTTP、等应用的详细应用日志进行分析。
4.4.2.5 智能故障诊断
系统的智能专家分析功能,能够智能判断网络中出现的2-7层各种常见故障及隐患,例如:ARP格式违规、IP地址冲突、丢包/重传、TCP应答慢、应用层异常通讯、应用层错误信息等等。并能够提供专业的原因分析及解决方法建议,帮助使用者快速诊断网络和应用系统的各种问题,极大的提高分析问题的效率,减少故障排查难度。
4.4.2.6 丰富的警报设置,及时发现潜在问题
明网分析系统可以依据流量特征、邮件敏感字、可疑域名以及报文特征值等信息设置丰富多样的警报,能够及时发现监测链路中各种流量异常变化或影响网络健康的异常网络行为。这些警报还可以通过Email方式通知网络管理人员,或者通过Syslog方式与现有网管系统集成。
4.4.2.7 多角度、深层次的数据挖掘
系统提供基于网络对象的数据挖掘技术,网络对象包括通讯协议、IP端点、物理端点、IP会话、TCP会话、UDP会话,可通过网络对象进行层次化、多角度的数据挖掘并进行关联,从而帮助网络管理者快速发现、分析网络问题。
五、数据保密性说明
5.1数据存储保密性
系统采用自主数据结构存储捕获的数据包和数据流统计信息,只能通过回溯分析控制台调取;任何第三方工具无法直接调取捕获数据,可以确保测试期间监测数据的保密性。
5.2数据通信保密性
系统使用专用的管理接口与明网分析控制台通信,数据采集接口不参与和控制台的数据传输;服务器和控制台之间使用自主的编码格式以非明文方式传输,传输过程没有泄密风险。
5.3数据清除
系统可清除服务器中捕获的全部数据和数据流统计信息。
相关产品: