行业解决方案
doctor
运维部门如何解决“投诉率”过高的问题
发布时间:2018-12-03
一、行业背景分析

近几年,由于政府、医疗、大型企业上云进程的发展,移动、电信、联通各大运营商不断完善自己的云服务,来满足政府和企业越来越复杂的业务需求。随着各级省市区政府政务和网站的上云,以及各大企业关键业务的云上运行,客户对于上云业务的稳定性和流畅性提出了更高的要求,运营商的相关运维管理部门(如:移动的网络部、网管中心、电信的网络运维部、企信部、联通系统运维部等)在减少“故障率”和降低“投诉率”方面面临更大的挑战。

痛点1:
客户对上云业务(如:政务云、医疗云、企业云等)的稳定性和流畅性要求极高,且业务环境及云环境非常复杂,一但问题产生,只能被动接受投诉,导致运营商的“投诉率”居高不下。故障涉及如链路、网络延迟、重传、CPU、存储、SDN、内存、操作系统等诸多因素,故障排查缺乏快速有效的分析工具,无法改变“投诉率”过高的被动局面。
痛点2:
除了公有云业务,运营商信息系统部还负责内部私有云的运维,同时部分核心业务依然在实体服务器上运行,这就造成了信息系统部需要面临“多云混合管理,虚实性能监控”的挑战。由于内部网络包含了数据中心节点互联区、核心生产区、管理网络区等多个区域,运维部门非常渴望能够实现“南北流量”和“东西流量”的共同监控。同时也需要“虚拟网和实体网关联监测”,在出现问题时能够做到实时记录和时间回溯。
引用某省运营商运维部主任的原话:我们需要搞清楚业务慢的原因。之前部门经常被业务部投诉,有委屈也说不清,明明是应用本身的问题,也会归到我们运维工作没做到位。我们迫切需要一个真正能做到虚拟化故障定位和性能监控的系统,会为我们的工作带来极大的价值。

二、需求分析(相关产品:明辰智航云安网络与虚拟化性能管理系统)
2.1需要全方位可视化性能监控体系
对于云管理者而言,没有可视化就没有有效的管理。无论是在数据中心还是公共云或私有云中或混合云中,端到端可视化已变得非常重要。同时可视化也是大数据分析的一种呈现,如不能构建和基础资源和业务应用的一一对应的关系,管理将无从入手。里面需要涉及宿主机、虚机、存储、网络、服务路径、应用等等;涵盖了IPM>NPM>VPM>APM多个领域。

2.2需要一键式快速排查故障的手段
在出现问题时过度依赖经验和技能、部门协调耗费大量时间和人力,不能在第一时间定位故障,缺乏快速界定故障层次、判定问题责任的有效依据,耽误了MTTR 考核指标。




三、明辰智航云安方案优势
产品采用虚拟化模版部署,集成了大数据分析引擎及高可用机制,避免了系统故障时的恢复时间。采用高效率的存储架构,能实时响应并同时纪录历史数据;方便任意时间段数据的读取。

  


系统组件功能
云安大数据管理与分析系统 将应用性能与基础资源的效能指标关联在一起,智能分析出应用性能下降的根本原因是否与基础资源有关。图形化显示应用性能和虚拟基础架构中网络、计算资源以及储存设备的健康状况。
虚拟数据采集器
虚拟网络分路器是低耗能且高效能的瘦身虚拟机,它监控与分析所有经过虚拟交换机的流量。使用深度封包检测技术,辨识应用性能及各项效能指标。传递应用性能及网络数据到云安的虚拟控制器,分析与关联所获取的数据。
数据信息集中器 整合数据中心的各项效能数据的通道,例如VCenter。控制器会取到数据中心的配置构建云安的监控逻辑,并将部署简化。搜集VCenter上的网络、储存和计算效能指标,与所部署的虚拟封包分析器的应用性能分析数据进行关联分析,将其安全传送到云安数据库和分析引擎中。
优势:
不需要改变现有云平台架构,部署简易,避免实施风险;
可以监控到虚机与虚机、虚机与实体机的东西、南北向数据;
支持SAAS模式,租户可以直观看到自己资源和应用的真实情况。


四、实际效果
4.1全栈式可视化性能监控



1. 全栈式可视化,使用一种产品解决了端到端所有资源效能可视化的问题,(包含了应用性能监控,基础设施性能监控,网络监控,存储监控)将故障排除时间缩短至数分钟。
2. 提供回溯观察模式、以时间轴形式直接回溯到故障发生时的信息,可以针对问题点做回溯分析。
3. 关注业务健康,减少业务故障时,分析、查找、部门协调时所消耗的时间,并通根本原因分析消除了云平台运维团队和业务团队之间的不信任等问题。
4. 识别了云架构中的东西监控的盲点,提供原始数据包文件,做到有效的证据支撑。

4.2及时发现问题,找到性能瓶颈

1、前瞻式的效能故障预判,像体检一样,可以在最终用户感受到影响之前发现并解决问题。多次及时解决了甘肃移动、厦门电信CPU超配/低配,存储效能下降所带来的相关业务效能下降的影响。
2、大的数据穿透分析能力,显示了某个时段性能下降的根本原因。使用根本原因分析,一键分清了故障的边界、自动关联虚拟资源池与应用服务的逻辑关系,提供直关展现。
4.3优化资源配置节约投资



1.根据实际资源使用情况优化云资源使用成本,发现低效率或僵尸虚机,从而减少浪费,为科学调优提供了真实的证据支撑。
2.直观看到配置不足的主机或虚机,从而避免资源不足导致应用效能问题。
4.4自动发现服务依赖关系全景图



1. 终端无需安装插件即可构建服务依赖关系。
2. 自动完成绘制图谱,深入分析虚机和资源以及业务之间的依赖关系,从而可以迅速对问题进行影响性分析、故障排除。
3. 提供历史的服务映射关系与变更之后的比较,发现应用性能下降的关键组件因素。
4. 支持跨多个云的资产梳理,服务关系梳理,迅速找到性能瓶颈、通过应用响应时间和关联数据查看每个服务的应用性能。
4.5直观的最终用户业务体验



1. 第一时间知道用户或租户的使用体验,避免遭到投诉或准备应急预案。并迅速判断出影响范围及原因
2. 识别出用户应用延迟的根本原因,分析出是客户端的延迟、网络的延迟、存储的延迟、进程的延迟、应用的延迟、还是服务器端的延迟,从复杂的分析排查过程解脱出来。

五、代表用户:
北京移动、甘肃移动、新疆移动、新疆电信、厦门电信


相关产品:

明辰智航云安网络与虚拟化性能管理系统

返回