某供电局的营销应用近期出现多次偶发性Down机现象,对该局电网业务造成极大影响,信息部门希望能通过网络流量分析分析服务定位故障的原因。
网络拓扑
故障现象
在某日下午17点左右,发现营销系统服务器无法访问,登录到服务器,发现磁盘空间已被两个heapdump文件占满,删除后重启营销服务器,恢复正常。
流量分析
故障回溯重现
对故障时间段流量进行分析,发现从16时48分流量持续下降,至17点10分用量达到最低值,接近0。分析故障前的数据,发现部分异常流量的客户端,大部分客户端流量在8M左右,而流量前15的主机,多是属于客户中心网段,且流量较大。
交易信息图形化显示
对流量较大的客户端通信数据进行分析,故障时段,客户端和营销服务器进行大量TCP会话,分析发现客户端反复请求同一个JPG文件。
GET/j2yd/_assembleLib/systim/fmGrid/lookAndFell/image/btn.jpg
数据包级解码分析
通过数据包解码分析,发现这些异常GET请求是由服务器的“j2yd/dfScatterRecomShouldAction.do ”程序引起的。
对其他客户端通信数据分析,发现存在同样的异常现象。
故障定位
根据沟通了解,客户端对jpg文件进行请求,表示营销应用客户端模拟点击操作,而定位这个出错程序的系统功能为:电费管理->>>抄算复核管理->>统计查询->分散复核明细查询。
处理故障点后:
确定为电费管理中的查询模块存在问题,经修复后运行正常。