随着医院信息化建设的深入,网络规模越来越大,网络上的应用也越来越多,对全网络流量进行实时和回溯分析,及时发现和解决网络上出现的各种问题和隐患,分析各业务系统性能,有针对性地及时优化业务系统,对保障医院信息系统安全有重要意义。
传统的IDS/IPS,通过不断完善特征库,对常规网络流量中的恶意数据包进行检测,阻止入侵活动,对攻击性的流量进行自动拦截,提供一种主动的、实时的防护。它的特性决定了它的不足,一方面它不能对用户需要的数据包进行事后的详细回溯分析,另一方面对于未在特征库里定义或其他的正常数据包等则不能提供有效的分析。
网络流量分析系统,通过探针设备来收集和存储指定链路的全部流量数据,对关键业务系统、链路进行7×24小时、全方位的流量监控,智能学习关键性能指标的基线值,当业务或网络相关性能达到阈值时,进行主动预警,并可以实时/事后对需要的原始包进行下载和分析解码,快速定位问题原因。为了保证网络安全,我院网络采用内外网物理隔离的方式,分别建有内、外两套网络,内外网之间通过部署网闸设备来保证必要应用的内外网数据交互和安全性。此次采用旁路式部署了内外网各一台探针设备。内网部分:分别将内网核心交换机、服务器区核心交换机和网闸内网端口流量做镜像给内网探针;外网部分:分别将外网核心交换机和网闸外网端口流量做镜像给外网探针。同时配置服务器一台,安装流量分析专家软件,以便进行实时/回溯分析数据包。图1是我院目前的网络流量分析及业务性能管理平台部署架构图。
3.1 增强网络管控能力—网络运行异常的发现网络运行的异常包括带宽利用率、数据包数等的异常。以带宽利用率波形图和前10位应用占比为例,每天的波形图有固定的波峰波谷,一周的波形上应该以固定周期重复出现,如图2一周链路使用波形图。
内网核心的带宽利用率峰值在65%,上午峰值基本在每天9、10、11时之间,下午峰值基本在15时左右,周一到周五明显比周六、周日的利用率要高。但仔细观察,发现明显的每天凌晨会有一个小的波峰,经确认,发现是LIS数据库的每天备份任务。总体来说一周波形固定,没有异常的突发流量。
如图3问题波形图所示,4月26日下午16点至22点,有明显的流量突发,1000M的带宽,利用率几乎达到100%。
查看下午16时至22时的应用协议占比,如图4 问题时间段应用占比 所示,73.91%的协议是SMB(文件共享),源地址:192.168.100.1,目的地址:192.168.100.2,这是2台HIS的测试服务器,查看部门工作日志得知正在拷贝数据库备份文件,搭建测试环境。
4.2 应用异常导致单边账问题的处理 我院设有自助机,患者/家属使用医保卡进行缴费,在医保局对卡扣费成功后,自助机却显示扣费失败,导致月底与医保局进行对账时,每月总是会有数笔账目不一致,也就是所谓的单边账。因为这涉及多台设备和我院局域网和医保专线两套网络,这个问题之前也一直困扰我们很久,始终找不到问题所在。使用网络流量分析与业务性能管理平台后,我们发现医保前置机服务器有很多的server reset操作,且都集中在黄岛院区。对不同时间段的多条问题交易记录的数据包进行了详细的分析。
从TCP三次握手成功开始计时,总延迟超过5秒,服务器就会主动发起reset操作,当用户在自助机上进行缴费操作时,两者之间一旦延迟超过5秒,服务器发起reset操作,将导致数据不能从服务器成功返回到自助机,从而用户看到的是缴费失败,服务器因通讯超时记录缴费失败,而医保局则正常扣款成功。当用户做扣费之外的操作时,服务器的reset操作只导致了操作失败或超时,因错误数量少、影响小,且没有人反馈等,此情况一直未被发现。我们仔细检查链路后发现和黄岛院区联网所租用的三条千兆链路中的一条只有百兆速度,报修运营商后修复,未再出现单边账问题,应用检测中的server rest也大幅减少。