VSphere高可用--VSphere high availability简介

发布时间：2020-04-10文章来源：明辰智航技术部

1）高可用性

●不同级别的高可用：

●不同级别的高可用举例;

应用程序级别的高可用性。例如：Oracle Real Application Clusters（oracle RAC）;
操作系统级别的高可用，例如：Windows Failover Clustering (WFC) for Windows Server，RedHat 的RHCS
虚拟化层级的高可用，例如：vSphere High Availability (HA) and vSphere Fault Tolerance(FT).

物理硬件的高可用— ESXi主机的网卡多路径冗余，存储的链路多路径冗余（HBA卡冗余），网络交换机和光纤交换机的冗余，存储设备的双控制器冗余，以及服务器，存储等设备的双电源冗余.

2)vSphere High Availability简介

●vSphere High Availability的监控对象

➢ ESXi 主机故障
VMware vSphere Agent 通过管理网络进行心跳检测每秒一次当主机出现故障时，其他正常的主机会接管故障主机的上的虚拟机，保证虚拟机可用性
➢ 客户 OS 故障
HA也可以检测虚拟机的工作状态，默认该功能是禁用的。主机通过Vmtools和虚拟机进行通讯，当虚拟操作系统出现故障时，重启虚拟机。
➢ 应用程序故障
HA也可以通过VMtools 来监控部分支持VMware 应用程序监控的应用程序，当应用程序出现故障时重启虚拟机

●主机监控

●虚拟机OS监控

●应用程序监控

3）vSphere High Availability原理

VMware vSphere High Availability (HA)可为虚拟机中运行的应用提供易于使用、经济高效的高可用性。一旦物理服务器出现故障，VMware HA可在具有备用容量的其他生产服务器中自动重新启动受影响的虚拟机。若操作系统出现故障，vSphere HA会在同一台物理服务器上重新启动受影响的虚拟机。
vSphere HA利用配置为群集的多台ESXi主机,为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性
FDM：vSphere5以后采用FDM(Fault Domain Manager)实现高可用功能，FDM好处如下：
– 采用master/slave架构，而不是 primary/secondary架构，可以支持更多的集群主机
– 同时使用管理网络和存储设备进行通讯来提供心跳机制
– 可以监控网络分区和网络隔离故障，从而采取相关相应，较大限度提高虚拟机可用性

●Master的作用

Master监控slave主机，当slave主机出现故障时重启虚拟机
Master监控所有被保护虚拟机的电源状态，如果被保护的虚拟机出
现故障，它将重启这个虚拟机
Master管理在Cluster内部的主机清单，并且对添加和删除Cluster内部的主机进行管理
Master管理被保护虚拟机的清单，在每一次用户发起开关机操作时，更新这个清单，vCenter会要求Master保护或者不保护某些虚拟机
Master缓存Cluster配置，Master通知和提醒slave主机，Cluster配置的修改
Master发送心跳信息给slave主机，让slave主机知道master的存
Master报告状态信息给vCenter，vCenter正常情况下只和master通讯

●Slave的作用

Slave主机监视本地运行的虚拟机状态，把这些虚拟机运行状态的显著变化发送给Master
Slave监控Master的健康状态，如果Master出现故障，Slave将会参与Master的选举
Slave运用vSphere HA特性，这些特性不需要Master的协调。这些特性包括”VM Health Monitorin

●代理通信

●网络心跳信号

●数据存储心跳信号

●主机故障分类

vSphere HA 群集的首选主机负责检测从属主机的故障。根据检测到的故障类型，在主机上运行的虚拟机可能需要进行故障切换。首选主机通信通过每秒交换一次网络检测信号来完成群集中从属主机的活跃度监控。当首选主机停止从从属主机接收这些检测信号时，它会在声明该主机已出现故障之前检查主机活跃度。首选主机执行的活跃度检查是要确定从属主机是否在与数据存储心跳之一交换检测信号。而且，首选主机还检查主机是否对发送至其管理 IP 地址的 ICMP ping 进行响应在 vSphere HA 群集中，检测三种类型的主机故障：
➢ 主机故障 - 主机停止运行
如果首选主机无法直接与从属主机上的代理进行通信，而且从属主机不会对 ICMP ping 进行响应，也收不到存储检测型号，则认为主机出现故障
➢ 网络隔离 - 主机与网络隔离
当主机仍在运行但无法再监视来自管理网络上任何 vSphere HA 代理的流量时，会发生主机网络隔离。如果主机停止监视此流量，则它会尝试 ping 群集隔离地址，如果仍然失败，主机将声明自己已与网络隔离。
➢ 网络分区 - 主机失去与首选主机的网络连接
集群中的部分主机可能无法通过管理网络与其他主机进行通信。一个群集中可能会出现多个分区。已分区的群集会导致虚拟机保护和群集管理功能降级。请尽快更正已分区的群集。

●Slave主机故障

●Master主机故障

●网络隔离

当一个slave已经检测到自己是网络隔离状态,它会生成一个特殊二进制文件host-X-poweron文件。在heartbeat datastores上.master看到这个标志,它就知道了slave已经是isolation状态。然后master通过vSphere HA锁定其他文件(datastores上的其他文件).当slave主机看到这些文件已经被锁定并确认后.才可以执行配置过的隔离响应动作.(如关机或者关闭电源，或者保持电源打开不变)

上一条：公有云运维责任划分不再难

下一条：VSphere资源管理--资源控制、报警