技术支持
support
公有云运维责任划分不再难
发布时间:2020-04-27文章来源:明辰智航
    叮铃铃~
    “客户又投诉了!还是投诉网络慢,快查查是怎么回事!”
    “好的,马上排查!”
    王亮放下电话立即展开对整个数据中心网络的排查,心想,这已经是这个月第3次接到这个客户投诉了,每次都是投诉网络慢,但紧急排查之后却又没有发现任何问题,这是怎么一回事呢?
    王亮作为一名运维工程师,任职于西北某省中国移动公司云数据中心(后简称“数据中心”),数据中心肩负着全省众多机关单位的托管业务,王亮作为运维团队的一员,工作中最大的困扰就是接到客户投诉,却又无法排查出故障所在。
    偶然一次关于公有云运维的技术论坛上,王亮接触到了明辰智航云安网络与虚拟化性能管理系统,通过与明辰智航云安团队的交流,试探的提出了此前困扰数据中心运维团队数月的问题,咨询该问题是否能够得到解决,令王亮没想到的是,明辰智航云安团队马上就为数据中心开展了测试部署,将常接到投诉的应用拉到同一个服务组,并与王亮约定一周后可以查看结果。
    经过一周的数据采集后,部署的明辰智航云安收集了足够的数据,并针对性的为数据中心进行了故障诊断。测试工程师进入明辰智航云安的操作界面,点击进入应用服务组,查看应用拓扑图,发现Web-server03服务器出现了红色示警,并且WebServer03与APP-LB-1外部网络通信也同样出现了红色示警:
    测试工程师接着点击红色示警的服务器WebServer03进一步查看,服务器详细界面中http服务出现了应用响应时间过长的问题:
    点击红色示警的http进一步查看根本原因,在根本原因界面中,显示根本原因与CPU、内存、存储有关系的可能性为0%,与应用中http由WebServer03提供有关系的可能性为50%
    同时在应用交互信息界面中,部分客户端在与服务器WebServer03通过http服务交互过程中,应用响应时间过长,并且每次针对与同一请求都出现响应时间过长的情况,且请求回应均能够通过:
    ① 服务器红色示警,应用响应时间过长;
    ② 根本原因应用中http由WebServer03提供有关系;
    ③ 应用每次针对同一请求都出现响应时间过长的情况,且请求回应均能够通过。
    结合以上三点,测试工程师判断问题可能是出在客户应用上,故障点初步确定!
    明辰智航云安随即通知王亮故障诊断结果,王亮喜出望外,马上通过数据中心将明辰智航云安诊断数据记录发送给客户,客户工程师根据数据记录检查,最终找到问题确实出在了应用代码上,修正后,网络慢的问题终于被解决了!客户方工程师表示非常惊讶,一直追问是如何找到问题所在。王亮露出了释然的笑容。
    在公有云运维中,由于应用造成的故障时有发生,而常规手段的排查运维人员很难具体判断出故障所在,从而导致无法进行责任划分。
    运维人员可通过明辰智航云安直观的看到整个公有云环境的健康状态,通过简单的鼠标点击就可以进一步查看红色示警信息的根本原因;其中应用拓扑图可以清晰的展现各服务器应用之间的联系和状态;应用的交互信息界面则记录了每个交易请求的响应情况,为公有云运维责任划分提供强有力的证据。
经过此次与明辰智航云安的接触,数据中心的王亮真诚的说道,“在我们团队日常运维中,如何进行责任划分,是困扰了大家很久的问题,我们迫切的需要一款像明辰智航云安这样能快速定位故障,并明确进行责任划分的运维管理系统。

    一入运维苦似海,手无法器难称佛。
    想要云运维,就要有云安!更多详情请咨询明辰智航400-0606-891。

返回