您的位置: 网界网 > 存储 > 正文

高可用性指南:VMware高可用性之最佳实践(一)

2011年05月16日 21:08:52 | 作者:Elias Khnaser | 来源:TechTarget中国 | 查看本文手机版

摘要:VMware高可用性工具可以在虚拟化环境中消除所需的备用软硬件。本章节摘录自Elias Khnaser的第二版VCP4考试指南:VMware认证工程师,探讨VMware高可用性的最佳实践。

标签
配置
虚拟机
VMware

VMware高可用性工具可以在虚拟化环境中消除所需的备用软硬件。VMware高可用性常用于改善可靠性,降低整个虚拟环境的宕机时间,并改善灾难恢复和业务连续性系统。

本章节摘录自Elias Khnaser的第二版VCP4考试指南:VMware认证工程师,探讨VMware高可用性的最佳实践。阅读以下摘录后,您还可以下载备份和高可靠性整篇章节。

VMware高可靠性主要处理ESX/ESXi主机以及其上运行的虚拟机的故障。高可用性同样可以通过检测VMware工具是否仍在运行监控并重启虚拟机。当ESX/ESXi出于某种缘故发生故障时,其上所有运行的虚拟机同样会出现故障。VMware高可用性确保虚拟机从故障的主机下线,并能够在其它ESX/ESXi主机上重新启动。

许多人错误地将VMware高可用性和容错功能搞混淆。当主机发生故障时,VMware高可用性并不是容错的。高可用性只是将那些虚拟机在其它具有足够资源的ESX/ESXi主机上重新启动。而对于容错而言,其在主机发生故障时提供了不间断的访问途径。

VMware高可用性通过一条心跳线在同一个集群组中的所有ESX/ESXi主机中维持一条通讯渠道,这种心跳线默认地在vSphere 4.0里每一秒钟,在vSphere 4.1里每十秒钟发送一个指令。当一个ESX主机错过了一个心跳指令,其余的主机会等待该主机15秒钟内进行响应。15秒后,集群系统会将该ESX/ESXi主机上的虚拟机在其它ESX/ESXi主机上重新启动。VMware高可用性同样会持续地监控集群系统中的每个成员ESX/ESXi主机并确保有足够的剩余资源以便在任意一台主机故障后接管其工作。

虚拟机故障监控

虚拟机故障监控技术默认是关闭的。该功能通过心跳线每20秒钟问询虚拟机来进行监控。该功能需要借助于虚拟机中安装的VMware工具才能完成。每当一个虚拟机错过了一个心跳线,VMware高可用性认为该虚拟机发生故障并尝试对其进行接管。因此可以将虚拟机故障监控看成上某种程度的虚拟机高可用性。

虚拟机故障监控可以诊断一个虚拟机是否被认为下电,挂起或迁移,从而确定是否需要尝试重新将其启动。

VMware高可用性配置条件

高可用性要求在其正常工作之前需要确保以下配置条件:

vCenter:由于VMware高可用性上一项企业级特性,其激活要求vCenter。

DNS解析:所有在同一高可用性集群中的ESX/ESXi 主机必须可以通过DNS解析其它主机。

对于共享存储的访问:所有高可用性集群中的主机须对同一共享存储可以访问存取;否则,其便无法访问相应的虚拟机。

对于共享网络的访问:所有ESX/ESXi主机必须配置相同的网络参数,以便于每个虚拟机可以从任意的主机上进行重新启动后,仍可访问原网络。

服务控制台冗余

推荐使用冗余的服务控制台。在VMware高可用性检测出配置vSwitch服务控制台仅有一台时, 其会发送警告。如下图1所示,你可以有两种方式将服务控制台配置为冗余模式。

创建2个服务控制台端口组,每个组配置不同的vSwitch。

以同一NIC组的方式分配2台物理网络接口卡作为服务控制台vSwitch。

冗余模式的服务控制台

图1:冗余模式的服务控制台

无论何种方式,你都必须配置整个IP堆栈,包括IP地址,子网和网关。服务控制台vSwitches用于同步心跳和状态,其使用以下端口:

Incoming TCP port 8042

(TCP进入端口 8042)

Incoming UDP port 8045

(UDP进入端口 8045)

Outgoing TCP port 2050

(TCP输出端口 2050)

Outgoing UDP port 2250

(UDP输出端口 2250)

Incoming TCP port 8042–8045

(TCP进入端口 8042–8045)

Incoming UDP port 8042–8045

(UDP进入端口8042–8045)

Outgoing TCP port 2050–2250

(TCP输出端口2050–2250)

Outgoing UDP port 2050–2250

(UDP输出端口 2050–2250)

错误的配置冗余服务控制台会在你启用高可用性后收到警告信息。因此,为避免看到此类错误信息并符合最佳实践,请配置冗余的服务控制台。

主机故障切换容量计划

当配置高可用性,你必须手动地配置最大主机容错范围。在这项工作中,你需要对你部署过程中的硬件环境和规划过程深思熟虑。可能看上去你已经在部署ESX/ESXi主机时预留了足够(+微信关注网络世界),以协调高可用性所需的资源。举例来说,下图2,提示该高可用性集群配置了4个ESX主机,而且所有4个主机都有足够的资源来运行至少3个额外的虚拟机。

高可用性容量规划

图2:高可用性容量规划

在高可用性集群的配置阶段,你会看到如下图所示的界面,提示你定义以下两种集群组配置:

主机监控状态:

激活主机监控:该设置可以使你控制高可用性集群是否通过心跳线监控主机。这种集群方式主要用于确定一台主机是否仍处于激活状态。在有些情况下,当你运行ESX/ESXi主机上的维护作业时,可能有必要关闭这一选项以避免隔离某台主机。

进入控制

开启:不能启动违反可用性约束条件的虚拟机:选择该选项表示如果没有资源可用于满足一个虚拟机的需要,该虚拟机无法开启。

关闭:可以开启如何违反可用性约束条件的虚拟机:选择该选项表示可以开启任意虚拟机,即便有可能超过已有的资源情况。

进入控制策略:

主机故障的集群容错程度:该设置使你配置希望容错的故障主机数量。可设置的数量从1到4。

用于故障切换的集群空余资源预留百分比:该选项表示你预留整个集群资源的一部分用于故障切换。在一个4个主机的集群系统中,25%的预留表示你预留一整台主机用于故障切换。如果你希望预留更少的资源,你也可以选择集群资源的10%。

指定一台故障切换主机:选择该选项表示你选择一台特殊的主机作为整个集群系统的故障切换主机。这种使用环境可以是你又一台备用主机或某台特定的主机,上面有更多的计算和内存资源可用。

高可用性集群组策略

图3:高可用性集群组策略

[责任编辑:存储 chai_shasha@cnw.com.cn]