一、概述
数据采集与监控(SCADA)、分布式控制系统(DCS)、过程控制系统(PCS)、可编程逻辑控制器(PLC)等工业控制系统广泛运用于工业、能源、交通、水利以及市政等领域,用于控制生产设备的运行。一旦工业控制系统网络通讯出现问题,将对工业生产运行造成影响。随着计算机和网络技术的发展,特别是信息化与工业化深度融合以及物联网的快速发展,工业控制系统产品越来越多,越来越复杂。不同型号和品牌的产品在生产线上使用,这些设备以各种方式与互联网等公共网络连接,高度信息化的同时也减弱了控制系统及SCADA系统等与外界的隔离,病毒、木马等威胁正在向工业控制系统扩散,工业控制系统信息安全问题日益突出。2010年发生的“震网”病毒事件和后来的“勒索”病毒,充分反映出工业控制系统信息安全面临着严峻的形势。工信部协[2011]451号通知明确指出,我国工业控制系统信息管理工作中仍存在不少问题,主要是对工业控制系统信息问题重视不够,管理制度不健全,相关标准规范缺失,技术防护措施不到位,运维能力和应急处置能力不高等,影响着工业生产正常运行。对此,各地区、各部门、各单位务必高度重视,增强风险意识、责任意识和紧迫感,切实加强工业控制系统运维建设。
2019年5月17日,接到某工厂客户紧急报告,其某条生产业务系统出现故障,导致该生产线中断运行,严重影响客户的生产进度,造成一定的经济损失。
二、排查思路
不管是普通使用的以太网还是工业等其他异构网络,都是依靠数据包流量进行传输和控制行为,同样证明,网络流量是分析问题有效的方法。了解工业网络的传输路径和数据包的报文格式,通过服务和客户端的交互方法,查看数据包丢弃网络链路上的网络设备,然后在网络设备进行查看找到根源。
为了实现对某工厂生产业务系统数据的长期实时监测和事后回溯能力,提供更加主动的故障分析和性能监测功能,在工业核心网交换机进行端口镜像,将下联至汇聚交换机的端口流量使用TAP(网络分路器)复制给网络应用分析设备。满足当前对流量分析、未来发展趋势、关键应用性能分析、业务链路通讯质量及故障排查的需求。
三、排障方案
3.1目标
本次主要对某生产线业务系统中断的故障原因进行定位和排查。除此以外,还可以让客户通过本产品掌握网络运行情况和应用通讯质量。目标如下:
①了解及验证网络应用性能分析系统的功能,以及这些功能如何在实际网络运维环境中发挥作用和价值。
②根据当前客户需求分析,有针对性的解决当前网络流量分析和应用性能监控分析的需求。
③面对应用网络流量进行诊断,同时排查可能存在的异常问题及网络运行未来发展预测。
3.2网络部署(相关产品:
网络分路器解决方案)
◆ 本次网络应用性能分析系统采用端口镜像旁路部署的方式,并且其流量分析方式为完全的旁路式接入,因此不会对原有网络产生任何影响
◆ 在核心交换机上配置端口镜像,将下联工业接入网端口的In/Out两个方向流量进行镜像。网络应用性能分析设备采集、分析和存储全流量,帮助全面详细地分析网络中业务流量情况与故障问题
◆ 目标业务系统为端口TCP:9800
部署的位置在拓扑图用蓝色框标注。
部署示意图
3.3.分析过程(相关产品:
明网网络性能与故障分析解决方案)
在用户报告的故障时间段(2019年5月17日14:00至2019年5月17日18:00)对该生产系统服务器(IP地址:10.X.X.221,端口:TCP9800)流量趋势进行回溯分析。
◆ 性能趋势显示,在2019年5月17日15:00至2019年5月17日16:00之间,业务系统基本中断(交易量很低)。
◆ 与此同时,重传时间趋势显示,重传时间出现明显的增加
◆ 提取这期间的一次会话数据包,进行会话上下文分析,发现该会话有多次数据包重传
◆ 对会话上下文TCP序号进行分析,服务器SACK序号信息显示,数据包重传是由于网络丢包导致,丢包点在监测点至服务器之间,在客户端至服务器方向。对会话上下文TCP序号进行分析,服务器SACK序号信息显示,数据包重传是由于网络丢包导致,丢包点在监测点至服务器之间,在客户端至服务器方向。
四、产品优点
网络应用性能管理系统能够全面监控网络链路节点、网络、应用、业务系统各环节服务质量、快速发现并定位影响关键应用性能及稳定性问题的网络性能管理产品。以较大提升网络的运维效率和故障处置能力为研发目标,围绕链路、网络、应用、业务系统,提供多维度和多角度以网络支撑环境为基础的网络态势感知分析、应用态势感知分析、业务系统智能化分析等图形化界面。集中收集分布部署在网络各个节点的分析设备的实时分析数据,以图形化、图表化的方式为运维人员直观呈现网络、应用和业务各个环节的工作状况。
产品的价值在于:
①对网络分支节点进行流量分析并采集,能够在原来的五元组基础之上,增加对上行流量、下行流量、上行数据包、下行数据包、网络延迟、重传、响应时间等170多项参数监控,而且多维度、多角度进行数据的区分。能长期实时保存捕获的原始数据包、数据流、会话及应用日志等各种统计数据;具备快速的数据检索能力,并对已发生的网络流量带宽、网络行为、应用数据和客户端数据进行回溯分析;可随时分类查看及调用任意时间段的数据,提供了更全面的分析依据。
②采用的设备能够实现骨干链路大流量的线速采集、高性能数据包采集和智能分析硬件平台,可以分布部署在网络的关键节点,实现了对网络通讯数据包级的高性能实时智能分析。提供了对各种网络性能和应用性能的关键参数实时分析,同时还能够实时捕获并保存网络通讯流量,具备对长期的网络通讯数据进行快速数据挖掘和回溯分析能力,实现对关键业务系统中的网络异常、应用性能异常和网络行为异常的实时发现、以及异常原因的智能回溯分析,提升了对关键业务系统的运行保障能力和问题处置效率。
③采用了最先进的网络流量采集引擎和实时大数据并行处理架构,对网络流量进行实时的精准分析、预测、轻量化展示等解码分析架构,这套引擎架构获得Gartner世界靠前的排名。其对网络流量的计算的细粒度远高于现有平台。因此,无论从最后展示的结果的准确性,还是从结果分析的广度深度都是很少有的。
④从运维方面看,现有细采集粒度网络流量大数据分析系统,能够非常好地完成事前预测报警(通过大量历史数据的精确性分析,预测问题出现的链路、设备、时间)、事中及时响应(在出现问题时,秒级快速定位并发出不同级别的告警)、事后总结分析(将每天的链路流量信息全量化记录,给出不同维度的链路情况展示图供运维人员使用,并通过大数据算法训练出数学模型供后续系统自身分析使用),从而大大减少问题定位时间、提升运维效率、降低运维管理难度。
相关产品:
明网网络性能与故障分析解决方案
明辰智航网络分路器解决方案