技术支持
support
从“两地三中心”到“分布式多活”—企业多数据中心架构演进
发布时间:2019-12-20文章来源:明辰智航技术部

数据大集中之后,企业的经营活动越来越依赖于数据中心与网络等IT基础设施,IT的7*24全天业务连续运营成为大型企业IT建设运营与企业经营追求的目标。如何实现减少甚至消除正常和非正常的停机对业务可用性造成的影响,不仅是IT建设与运维团队的目标,更成为企业决策层所关注的。


出于灾备(Disaster Recovery)的目的,企业一般都会建设两个或多个数据中心(如图1所示)。主数据中心承担用户的核心业务,其他的数据中心主要承担一些非关键业务并同时备份主中心的数据、配置、业务等。正常情况下,主中心和备中心各司其职,发生灾难时,主数据中心宕机、备份数据中心可以快速恢复数据和应用,从而减轻因灾难给用户带来的损失。由于灾难是小概率事件,而采用一主一备这种方式,备份数据中心只在灾难发生时才能起到作用,并且随着企业容灾建设标准(《信息系统灾难恢复规范》GB/T 20988-2007)的提升,备份IT资源和资金会投入越来越大,相互直接又不能够复用,从而造成浪费。另外主备模式的应用,备中心在接替主中心时需要较长的时间、关系复杂,往往会严重影响用户的业务办理。


典型如国内外银行等高端用户多采用“两地三中心”(即生产数据中心、同城灾备中心、异地灾备中心)建设方案。这种模式下,多个数据中心是主备关系,即存在主次,业务部署优先级存在差别,针对灾难的响应与切换周期非常长,RTO与RPO目标无法实现业务零中断,资源利用率低下,投资回报无法达到预期。两地三中心本质上是一种通过简单资源堆砌提高可用性的模式,对高可用的提高、业务连续性的保证仍然只是量变,业务连续性及容灾备份一直没有实质性的跨越。


目前,以银行为代表的、包括政府、公共交通、能源电力等诸多行业用户,开始将关注点转向“分布式多活数据中心”(Distributed Active/Active Data Centers)的建设(如图2所示)。分布式多活数据中心将业务分布到多个数据中心,彼此之间并行为客户提供服务,分布式多活包括两大关键特征——分布式和多活,体现出企业级用户在建设与使用数据中心时对资源调度利用和业务部署灵活性的新思路。

 
图1  主备模式数据中心工作机制
 
图2 分布式多活数据中心工作机制


所谓分布式,一是指数据中心在机房基础设施、地理空间、计算/存储/网络资源的软硬件部署上是分布而非集中的,满足灾备建设与业务联系的要求,多个DC在建设上可以循序渐进的展开,彼此保持一定的独立性,未来扩容升级可与现有架构保持良好兼容;二是资源的调度可以跨越多个数据中心,运维管理可以基于全局,多个数据中心间实现有机结合与资源共享,逻辑上可以视为一个全局的大数据中心。


所谓多活,一是多中心之间地位均等,正常模式下协同工作,并行的为业务访问提供服务,实现了对资源的充分利用,避免一个或两个备份中心处于闲置状态,造成资源与投资浪费,通过资源整合,多活数据中心的服务能力往往双倍甚至数倍于主备数据中心模式;二是在一个数据中心发生故障或灾难的情况下,其他数据中心可以正常运行并对关键业务或全部业务实现接管,达到互为备份的效果,实现用户的“故障无感知”。


值得注意的是,在目前的建设与运维中,用户关注更多的是双活数据中心。在常见的技术文档和媒体报道中,“双活”出现的频率高于“多活”;就技术体系与实现成熟度而言,双活可以看作多活数据中心的一个特殊简化子集,也是最常见的模型,很多技术文档中往往不区分这两个概念。双活聚焦两个数据中心的工作模式与机制,建设思路与技术选择是基于多活的裁剪和优化,一些适合双活的方案在扩展性等方面未必适合于多活的应用场景,双活数据中心是多活数据中心的必经阶段。


多活数据中心带来的优势是显而易见的,但其建设是一个复杂的系统工程(如图3所示)。在技术层面,不仅涉及到服务器/虚拟机之间的集群协同,还包括数据的复制与同步,更重要的是涉及到跨数据中心的网络互联互通及分支/Internet用户对DC的访问,因此网络对业务的感知能力及对流量的牵引成为方案设计与部署的重中之重;此外,网络访问控制策略的迁移、服务器网关及数据同步对网络带宽与服务质量的要求、IP地址设置、路由发布控制、网关设计、防火墙状态会话、流量路径规划及迂回控制等技术都是设计上必须要考虑和解决的问题。
 
图3 双中心模式下的多层互联模式
 

在非技术层面,多活数据中心的建设不仅涵盖数据中心灾备,还要从宏观角度考虑业务系统的分布式部署,以及对应用与软件系统的流程再造与开发(如DNS、GSLB等L4~7技术),此外跨中心的运维协同等内容也对人员组织及流程建设提出更高的挑战。


结束语
分布式多活数据中心与云计算建设的思路既有相同之处也有差别。云的形成可以基于数据中心的分布式技术,建设模型更接近互联网数据中心,分布式多活数据中心的实现和实践的门槛要低,用户在建设运维时更多的关注于自身业务联系性的要求与业务的快速响应及IT建设的持续优化,对于复杂的企业级应用可以提供更好的支撑,使得IT建设更多的基于自身现有资源和能力,不盲目追求先进,体现了企业对于自身IT建设的把握与未来方向的掌控,是大型企业数据中心持续稳健前行的必经之路。

返回