数据大集中之后,企业的经营活动越来越依赖于数据中心与网络等IT基础设施,IT的7*24全天业务连续运营成为大型企业IT建设运营与企业经营追求的目标。如何实现减少甚至消除正常和非正常的停机对业务可用性造成的影响,不仅是IT建设与运维团队的目标,更成为企业决策层所关注的。
典型如国内外银行等高端用户多采用“两地三中心”(即生产数据中心、同城灾备中心、异地灾备中心)建设方案。这种模式下,多个数据中心是主备关系,即存在主次,业务部署优先级存在差别,针对灾难的响应与切换周期非常长,RTO与RPO目标无法实现业务零中断,资源利用率低下,投资回报无法达到预期。两地三中心本质上是一种通过简单资源堆砌提高可用性的模式,对高可用的提高、业务连续性的保证仍然只是量变,业务连续性及容灾备份一直没有实质性的跨越。
目前,以银行为代表的、包括政府、公共交通、能源电力等诸多行业用户,开始将关注点转向“分布式多活数据中心”(Distributed Active/Active Data Centers)的建设(如图2所示)。分布式多活数据中心将业务分布到多个数据中心,彼此之间并行为客户提供服务,分布式多活包括两大关键特征——分布式和多活,体现出企业级用户在建设与使用数据中心时对资源调度利用和业务部署灵活性的新思路。
所谓分布式,一是指数据中心在机房基础设施、地理空间、计算/存储/网络资源的软硬件部署上是分布而非集中的,满足灾备建设与业务联系的要求,多个DC在建设上可以循序渐进的展开,彼此保持一定的独立性,未来扩容升级可与现有架构保持良好兼容;二是资源的调度可以跨越多个数据中心,运维管理可以基于全局,多个数据中心间实现有机结合与资源共享,逻辑上可以视为一个全局的大数据中心。
所谓多活,一是多中心之间地位均等,正常模式下协同工作,并行的为业务访问提供服务,实现了对资源的充分利用,避免一个或两个备份中心处于闲置状态,造成资源与投资浪费,通过资源整合,多活数据中心的服务能力往往双倍甚至数倍于主备数据中心模式;二是在一个数据中心发生故障或灾难的情况下,其他数据中心可以正常运行并对关键业务或全部业务实现接管,达到互为备份的效果,实现用户的“故障无感知”。
值得注意的是,在目前的建设与运维中,用户关注更多的是双活数据中心。在常见的技术文档和媒体报道中,“双活”出现的频率高于“多活”;就技术体系与实现成熟度而言,双活可以看作多活数据中心的一个特殊简化子集,也是最常见的模型,很多技术文档中往往不区分这两个概念。双活聚焦两个数据中心的工作模式与机制,建设思路与技术选择是基于多活的裁剪和优化,一些适合双活的方案在扩展性等方面未必适合于多活的应用场景,双活数据中心是多活数据中心的必经阶段。
在非技术层面,多活数据中心的建设不仅涵盖数据中心灾备,还要从宏观角度考虑业务系统的分布式部署,以及对应用与软件系统的流程再造与开发(如DNS、GSLB等L4~7技术),此外跨中心的运维协同等内容也对人员组织及流程建设提出更高的挑战。