您当前的位置:首页->技术文章

热点资讯

热卖产品


  • 云安虚拟化数据中心监控管理方案

  • DSX-8000 CH线缆认证分析仪

  • OptiView XG 网络分析平板电脑

  • DSX-5000线缆认证分析仪

  • DSX-600 CableAnalyzer™
银行网络风暴及单播泛洪快速定位

2019-10-16        明辰智航技术部

 一.概述

        IT架构的稳定性对业务的可持续发展起着举足轻重的作用。银行数据中心网络管理中心作为业务核心保障部门,在日常运营管理中面临着各种压力和挑战。如何保障IT架构的稳定性,是每一个运维人员需要思考的问题。银行通过建立专业的网络风暴及单播泛洪快速定位平台保障网络的稳定性,为网络运维过程中面临的重大风险和痛点问题提供了解决方案。
 
 
 
        近几年业务的高速发展对于网络接入资源的需求越来越大,网络在进行组网规划时往往会通过采用大二层组网架构,满足服务器的灵活接入及资源共享需求,一方面提供强大的扩展能力,另一方面实现资源利用的最大化,节省IT投入成本。
        二层组网实现了资源的灵活调度和成本节约的目的,但对于网络运维人员来说,二层网络中的组播风暴、广播风暴、单播泛洪问题排查定位一直是令网络运维人员相当头疼的问题,特别是大二层网络,涉及的网络层次多、范围广、VLAN众多,风暴或泛洪出现时,往往会导致网络设备运行不稳定、业务大规模受影响,而且业务的影响往往由于排查定位时间过长而被进一步扩大。 虽然网络运维人员针对二层网络环境会采用一些技术手段如风暴抑制、STP生成树技术等一定程度上达到预防网络环路并降低环路的影响,但传统的技术手段仍很难完全规避以上问题。

二.什么是单播泛洪?

2.1单播泛洪(Unicast Flooding)原理

 
 
 
         如上图所示,主机A和主机C在同网段,处于VLAN10, 主机B和主机D在同网段,处于VLAN20. 主机A与主机B通信时由于跨网段需要经过网关交换机进行转发。网关交换机根据目标主机B的MAC地址表项找到匹配的目的端口进行转发,正常通信时只需要走蓝色线即可。如果由于某些原因导致网关交换机只有主机B的ARP表项,但没有学习到主机B的MAC地址表项,则网关交换机会将主机A访问主机B的所有流量在主机B所在的VLAN20内泛洪(红色线),导致VLAN20内所有主机都收到一份主机A访问主机B的流量。

2.2单播泛洪危害

导致网络中存在大量多余的不必要的流量,消耗当前可用带宽,对于存在带宽瓶颈的地方可能导致网络堵塞,影响正常业务交互。
导致服务器接口出现大量丢包,影响正常业务交互。
导致网络设备和服务器的性能下降,业务一般会出现时通时断的现象,严重时产生业务中断。

三.什么是广播、组播风暴?

3.1.广播(Broadcast):

        处于同一网段里的所有设备包括网络设备、服务器等位于同一个广播域,所有的广播信息如ARP广播会被该网段里的所有设备接收和处理(收到并响应或丢弃)。简单可以这么理解:在一个大办公室里有一个人拿喇叭讲话,声音会被所有人接收到,不管你想不想听。

3.2.组播(Muticast):

        是指加入同一组的对象(网络设备或服务器)之间实现点对多点的网络连接,只有处于同一组中的对象可接收到数据。简单可以这么理解:在一个大办公室里几个人建了一个群(组),这个群里的几个人可以独立交流,不在群里的人则看不到交流信息。数据中心网络一般较少使用组播技术,部分服务器集群间通信会使用组播技术。

3.3.组播风暴和广播风暴危害

        简单地理解是指由于某些原因如蠕虫病毒、ARP攻击、协议机制问题、交换机芯片故障、服务器故障、误配置、人为误操作等原因导致组播和广播数据包充斥整个网络,占用大量网络带宽,导致网络设备和服务器不稳定,业务不能正常运行,严重时会导致网络和业务系统彻底瘫痪。

四.网络风暴及单播泛洪快速定位

       既然传统的技术手段很难规避广播风暴和单播泛洪问题,是否可以利用其它手段进行快速定位,当环路或泛洪出现时快速定位风暴和泛洪源,最终达到快速隔离故障点,最大化减少风暴和泛洪对业务的影响。
通过对风暴和泛洪原理及特点的研究,结合明辰智航的网络流量分析可视化系统及网络监测工具,建立了网络风暴及单播泛洪快速监测定位系统。系统可视化程度和分析定位效率大大提升。8月份生产、测试和管理网络年度的网络风暴应急演练中,达到了5秒内定位泛洪源,5秒内触发风暴告警并在1分钟内精确定位风暴源的目标。

4.1大二层区域广播、单播、组播可视化

        通过可视化的曲线实时监控各大二层区域的风暴和泛洪流量,同时针对不同的风暴流量来源、协议、占比进行区分。
 
 
风暴和泛洪端口持续可视化监控
 
 

4.2通过告警直接定位泛洪流量和风暴端口

        3-5秒内通过告警直接解析定位单播泛洪通信对和流量指标
 
 
        生产业务后台区超5000个可用端口56秒定位具体风暴源,并可列出产生风暴和泛洪的详细信息,包括系统、业务IP地址、接入等信息,指导运维人员完成后续应急操作,达到快速恢复的目标
 
 

五.展望

        网络应用性能管理分析系统对网络风暴及单播泛洪快速监测定位采用了完全旁路的设计方案,不影响现有网络的稳定性,并在前期测试过程中通过模拟大量风暴场景验证了功能的准确性。通过前期测试进一步验证了系统功能,达到了5秒内定位泛洪源,1分钟内精准定位风暴源的目标,满足更大规模的网络区域问题定位。下一步测试云环境下的风暴快速监测方案,适应未来的发展,同时考虑与我行自动化平台进行对接,以期实现从监控、发现、告警、定位、隔离处置的全流程自动化,提升定位效率,最大化减小风暴和泛洪问题对网络稳定性和业务的影响。
        网络应用性能管理分析系统是一款集成大容量存储的高性能数据包采集和智能分析软硬件一体化平台,可以分布式部署在网络的关键节点,支持对物理网络和云网络流量的采集分析。分析系统以关键应用为中心,实现对应用的网络访问性能、系统服务性能、 应用响应性能等关键性能指标的智能分析。
 
 
        同时,分析系统还可实时捕获并保存网络通讯流量,具备对长期网络通讯数据进行快速数据挖掘和回溯分析的能力。实现对关键业务系统中的网络异常、应用性能异常和网络行为异常的秒级发现,以及区分异常原因的智能回溯分析,提升了对关键业务系统的运行保障能力和问题处置效率。
 
 
回到顶部