IBM助力企业部署数据中心,分析大量数据实现高效反馈,更快的应对市场趋势,帮助客户做出更明智的商业决策。
通过Power服务器的LVM(逻辑卷管理)技术,在两套IBM System Storage磁盘设备间(DS4700/DS5020),建立数据镜像关系。两套存储设备同时处于活动状态。生产主机在写数据时,会同时写入两套磁盘设备中。该方式能够提供最佳的持续可用性;当一台存储设备出现整机故障时,由另一台存储设备独立工作,应用不会受到中断。
这种双磁盘系统数据同步复制机制,是基于IBM主机系统和IBM存储系统相互配合的逻辑卷镜像方式(是AIX操作系统里LVM工具里的Mirror功能),是目前技术成熟度高、实施快速简便、行之有效的数据冗余方式。
采用这种方式,业务和应用的数据存储系统通过LVM的Mirror功能进行磁盘存储系统之间的镜像,实现存储系统的高可用性,在此环境中,即使有一半的主机系统和一半的存储系统发生故障而不能正常工作,整个系统也不会发生瘫痪,仍旧可以继续运行,充分满足客户对高可靠性和连续可用性的要求。
采用LVM方案,用户不必改变现有环境,也不存在数据集中迁移的问题,而且业务系统保持同时在线;不存在系统接管、应用重新启动等问题,可以实现系统的平滑过渡。实施LVM方案,既可以在相同型号的IBM存储产品之间进行,也可以在不同型号的IBM存储产品之间进行。
在实施IBM LVM的数据同步方案时,分别将磁盘系统A和磁盘系统B通过光纤HBA卡连接到SAN交换机上,主机会有效识别两套存储系统,但对于应用没有任何影响;在主机上,基于磁盘底层的LVM在两套磁盘系统之间建立镜像关系,实现数据同步。
LVM可以提供操作系统级别的镜像(Mirroring)功能,即可以为一个存储块提供多份拷贝。该功能包含在逻辑卷管理中,具有以下特点:支持2~3份拷贝的镜像;可选择顺序(Sequential)和并行(Parallel)两种存取方式;读数据时可从先找到的拷贝处读取,加快访问速度;镜像功能在数据损坏时,能够从备份中(最多有3份备份)自动恢复,增强系统的可靠性。
为了实现数据的同步,可利用数据镜像功能,为已有的磁盘一上的生产数据添加一个拷贝,并将其镜像设备指定为磁盘二。正常工作模式下,数据的写入操作为,生产系统对磁盘一上本地数据的任何更新都实时在磁盘二上的数据得到更新,生产数据和备份数据的更新方式可以选择顺序方式或者并行方式,建议使用并行方式以增强整体性能;当生产存储系统发生故障时,生产无需停顿,生产主机利用备份的数据拷贝继续运行,因为两个系统间采取光纤直连方式,性能的影响可以忽略;当进行生产存储维修时,可断开镜像关系,当生产存储修复后,恢复数据镜像关系,数据重新在两份拷贝间同步。
IBM PowerHA for AIX? (原名为High Availability Cluster Multiprocessing -HACMP?) 是用于IBM Power系列服务器上的高可靠集群软件,通过冗余配置,消除单点故障,保证整个系统连续可用性和安全可靠性。HACMP是利用网络来侦测主机及网卡的状况,搭配AIX所提供的硬盘镜像等功能,在主机、网卡、硬盘控制卡、硬盘或网络发生故障时,自动切换到另一套备用元件上重新工作;若是主机故障则切换至备份机上继续应用系统的运行。PowerHA for AIX解决方案始终提供可靠的监控、故障检测和业务应用环境向备份资源的自动恢复,为核心数据业务弹性奠定基础。方案的实现:
作为双机系统的两台服务器同时运行PowerHA软件;
两台服务器的备份方式有三种:
–
一台服务器运行应用,另外一台服务器做为备份
–
两台服务器除正常运行本机的应用外,同时又作为对方的备份主机(负载均衡工作模式)
–
两台服务器同时运行相同的应用,需要数据库的支持
两台主机系统在整个运行过程中,通过 “心跳线”相互监测对方的运行情况(包括系统的软硬件运行、网络通讯和应用运行情况等);
一旦发现对方主机的运行不正常(出故障)时,故障机上的应用就会立即停止运行,本机(故障机的备份机)就会立即在自己的机器上启动故障机上的应用,把故障机的应用及其资源(包括用到的IP地址和磁盘空间等)接管过来,使故障机上的应用在本机继续运行;
应用和资源的接管过程由PowerHA软件自动完成,无需人工干预;
当两台主机正常工作时,也可以根据需要将其中一台机上的应用人为切换到另一台机(备份机)上运行。
高可用性实施方案总结:
存储的高可用:通过Power服务器的LVM(逻辑卷管理)技术,在两套IBM System Storage磁盘设备间(DS4700/DS5020),建立数据镜像关系从而实现存储的高可用性。
服务器的高可用:通过IBM Power系列服务器上的高可靠集群软件PowerHA,进行冗余配置,消除单点故障,当任一服务器系统发生故障时,自动切换到另一套备用系统上重新工作,保证整个系统的连续可用性和安全可靠性。