云服务 2022-03-28 15:57

提供稳定可靠、安全可信、可持续发展的云服务

1   项目建设方案

1.1 总体架构

本项目云化基础设施平台以资源共享的方式满足本公司上层应用部署需求,该云化基础资源平台应参照总部云计算规范体系进行建设;同时为保障平台的快速部署和使用,现阶段由本公司自行进行资源分配和部署,但需按总部相关技术规范预留与管理平台的接口,便于后期纳入全网一级私有云系统统一运营管理。

云化基础设施系统对外提供各类IT资源,包括计算资源、网络资源、存储资源以及本地备份资源。计算资源由虚拟机系统、X86物理机、ARM物理机提供,包括虚拟机资源、X86物理机、ARM物理机资源;存储资源由分布式块存储系统、分布式文件存储系统、高端磁阵、NAS提供,其中分布式块存储、分布式文件存储基于X86物理机、ARM物理机或存储一体机实现,块存储基于磁盘阵列实现;网络资源包括公网IP资源、带宽资源、虚拟防火墙资源、负载均衡资源等,由NAT设备、路由器/交换机、防火墙、负载均衡器等设备提供;本地备份服务由备份服务器和分布式文件系统等备份介质提供。计算资源、存储资源、网络资源、本地备份资源之间相互协作对外提供完整的资源使用环境。

 

 

1.2     计算资源建设方案

根据前述需求分析,本工程只需考虑配置低成本、标准化程度高、符合IT系统云计算演进趋势的X86架构或ARM架构物理服务器。

本期工程计算资源包括X86物理机资源、ARM物理机资源和虚拟机资源(包括VMware及KVM两大平台),以满足应用系统的不同计算需求。

计算虚拟化技术是实现云计算中心资源池化的关键技术之一,是实现高可用、弹性扩展云计算平台的技术基础。

计算虚拟化是一个抽象层,是对上层应用屏蔽底层计算设备的资源封装手段,将构成计算资源的众多物理设备组合成一个整体,形成计算资源池,提供给上层应用软件,从而提供更高的IT资源利用率和灵活性。

计算虚拟化技术将真实存在的物理计算资源,通过切分或(和)聚合的封装手段形成新的表现形态。

聚合封装是将多个物理实体通过技术手段封装为单一虚拟映像/实例,可用于完成某个业务。就计算资源而言,通常采用计算集群(Cluster)、负载均衡集群(Load Balance)等。

切分封装是将单个物理实体通过技术手段封装为多个虚拟映像/实例,可用于执行不同业务。通常采用主机虚拟化,如Vmware ESX、Xen、MS Hyper-V等产品。

无论是计算集群(Cluster)、负载均衡集群(Load Balance),还是主机虚拟化,都属于计算资源虚拟化技术,多种虚拟化技术也可以组合使用,使得计算资源池的使用更加灵活。

1.3     存储资源建设方案

1.3.1 存储类型

存储分为在线存储、近线备份和离线备份。其中,在线存储模型分8类场景、5类模型。

 

分级存储

业务需求场景

存储资源配置模型

在线存储

场景分类:高性能内存数据库等;
需求特征:超高带宽(最低要求读>=8GB/s,写>=4GB/s)、超低时延(小于1ms)、数据量较小(数百GB或者数十TB)

FC SAN组网,配置全闪存盘阵或混合盘阵;提供SCSI接口

场景分类:核心数据库、高性能文件读写等;
需求特征:高IOPS(几十万或更高)、低时延(小于5ms)、数据适中(几十/几百TB)

IP SAN组网,配置传统盘阵;提供iSCSI接口

场景分类:常规数据库、普通文件读写等;
需求特征:高IOPS(几万/几十万)、低时延(小于10ms)、数据量适中(数百TB)

场景分类:虚拟化场景如虚机镜像/虚拟磁盘;
需求特征:类似于普通数据库等场景3

弹性块存储技术SERVER SAN,提供iSCSI接口

场景分类:Nosql类数据库、Hadoop场景等;
需求特征:大数据处理、数据弱一致性要求,单节点吞吐量100Mb/s,时延敏感度低如几十ms等;数据量较大(几百TB或PB级)

IP组网+x86服务器节点,部署分布式文件系统如HDFS等

场景分类:海量小文件如139邮箱、话单、动漫等;
需求特征:IOPS(几万/PB)、时延(小于20ms)、单命名空间10亿,PB级数据

IP组网+x86大容量存储服务器节点,部署分布式文件系统、分布式对象系统;提供标准文件接口、对象访问接口

场景分类:海量大文件如视频、音乐等;
需求特征:顺序读、追加写,数据量大(PB级)

场景分类:个人云存储、企业云存储;
需求特征:IOPS、带宽、时延敏感度低,数据量大(PB级)

近线备份

场景:热点和关键数据备份与恢复;
需求特征:*IO访问性能要求较高、*恢复要求高

一体机、虚拟带库或者云备份

离线备份

场景:非热点或关键数据
需求特征:IO访问性能要求较低、*恢复要求一般

传统物理带库

 

1.3.2 各种存储方式配置方案

(1)集中块存储配置方案

四个节点的高端需求均采用FC SAN;

(2)分布式块存储配置方案

采用单台大容量存储服务器作为存储节点,依据IOPS性能分级(全SSD、SSD+SATA),并按照3副本建设;

(3)分布式文件存储配置方案

采用单台大容量存储服务器作为存储节点;

(4)备份存储配置方案

近线备份用备份一体机。

 

 

 

1.4     网络资源建设方案

1.4.1 网络建设需求

满足本期设备的接入需求:包括计算服务器、存储服务器等的生产及管理网络接入。

资源池沿用传统三层路由方式互通,实现资源共享,建设相应的网络环境;节点沿用spine-leaf+VxLAN网络架构,对网络进行扩容,建设相应的网络环境;

多个节点通过骨干网实现互联互通,骨干网通过ISIS+BGP方式部署,实现路由的灵活调度。同时,在骨干网上同时承载业务数据与管理数据,两种数据通过VPN实现隔离。

1.4.1.1 网络建设方案

整体网络方案为,在现网基础上进行扩容。具体从以下几方面进行分析:

(1)网络架构:节点继续采用现有传统二/三层组网技术,以降低运维复杂度,保持网络兼容性;节点采用VXLAN技术,构建基于Spine-Leaf+VXLAN的数据中心网络架构,该架构业界本公司数据中心主流技术选型,扩展性强、二层故障域和洪泛域小、全网稳定性强。

(2)部署连接:节点部署于多个机房,生产接入交换机通过40G单模传输至核心交换机,管理接入交换机通过10G单模传输至管理汇聚交换机。节点的网络,叶子节点通过40G至骨干节点,管理接入交换机通过10G至管理汇聚交换机。

 

1.4.1.2 网络配置方案

节点云化基础设施的业务网核心交换机在现有设备(包括Cisco、H3C、锐捷等品牌)上进行板卡和光模块扩容,运维管理汇聚交换机在现有网络设备(包括H3C、华为等品牌)上进行板卡扩容。其他存储资源接入交换机、计算资源接入交换机、运维管理接入交换机的设备采用新增方式。

1.4.1.3 组网方案建议

本期网络结构整体保持不变,对于节点,均在原架构基础上进行扩容。同时需要对云化基础设施的网络架构进行改造,以适应业务混合云架构部署模式。

节点内进一步优化管理网,实现管理与业务流量的彻底隔离;节点通过Vlan技术,萝岗、北方、无锡通过Vxlan技术,实现资源在区间的灵活调度与互访控制。

进一步管理网优化:按照业务网、网管网、虚机迁移网分离的原则,对现有与新增资源,进行管理网优化,将IP网管/云管网流量迁移至独立的管理网络。

计算资源部署在DMZ与Core区,通过防火墙实现访问控制;存储在线/近线/离线分级,在线存储细分为FC-san/分布式块/分布式文件等,满足计算资源多样化IO需求。

资源调度:

节点:传统VDC网络架构,划分为Core/DMZ/Stor等三个VDC区,区间互访控制通过防火墙实现,DMZ与Core共用接入交换机,计算资源通过Vlan划分在两个区域间灵活调度。本期拟打通DMZ与Stor区之间的直连链路,进一步解决DMZ区计算访问存储资源时,需要绕经防火墙问题,提升业务体验。

节点: Spine-leaf架构,计算与存储资源采用Vxlan+VRF技术在区内或区间实现灵活调度和互访控制。

1.4.1.4 IP地址规划

IP地址规划遵循以下原则:

(1)IP地址的规划与划分应该考虑到本系统未来的网络拓展,能够满足未来发展的需要;既要满足本期工程对IP地址的需求,同时要充分考虑未来业务发展,预留相应的地址段;

(2)充分合理利用申请的地址空间,提高地址的利用效率;

(3)IPv4与IPv6地址同时使用。在IPv4地址使用上,对于不需要访问外部资源的系统内部设备及互联地址均采用私网地址,对需要访问公网资源的设备,如地址资源需求量较大,也可采用私网地址,经NAT设备进行公网和私网间的地址转换;对于IPv6地址的规划,将业务IPv6地址直接分配到计算资源上,但应以业务划分为原则,充分结合地址分层分级使用原则,方便实施地址汇总;

(4)VLAN内应按照PC服务器和虚拟机数量规模来规划IP网段的大小;

(5)考虑IP地址的唯一性、连续性、扩展性和实意性,对不同业务的地址段进行划分,并将每个IP地址分成五个子标识段,分别代表不同的意义,依次做到公网/私网的区分、管理/业务的区分、ZONE区分、业务类型区分和主机区分。

 

1.5     支撑服务方案

1.5.1 系统安全方案

为确保系统的安全,本工程主要考虑采用以下安全措施:

(1)  划分安全域

云化基础资源平台业务网络分为DMZ区、核心生产区、测试区等安全域(资源分区),各个区域之间在核心层进行逻辑隔离或者在防火墙上进行安全访问策略控制。

(2)  防火墙部署

内层防火墙主要保证各业务系统核心生产区的安全,并对核心生产区与DMZ、测试区、管理维护区的访问策略进行控制;外部防火墙,部署在DMZ区域和互联网CMNET之间,对云化基础资源平台系统和外部访问之间的流量进行安全策略控制和IP地址翻译。

内层防火墙根据各个业务系统的需求配置不同的安全等级。为了提高防火墙的可维护性,建议内层防火墙根据运营单位划分虚拟防火墙,每个运营单位在分配好的虚拟防火墙上配置系统相关的安全策略。

(3)  入侵检测IPS

入侵检测主要是通过部署入侵检测系统弥补防火墙的不足,为网络安全提供实时的入侵检测及采取相应的防护手段,降低网络安全风险。本工程需对原有的IPS设备进行扩容。

(4)  WEB页面漏洞扫描

漏洞扫描系统对网络设备、操作系统和数据库三个方面进行扫描,指出有关网络的安全漏洞及被测系统的薄弱环节,给出详细的检测报告,并针对检测到的网络安全隐患给出相应的修补措施和安全建议。

 (5)       防病毒系统

本工程按需建设服务器/客户端方式的集中防病毒系统,即在所有X86服务器、虚拟机上部署代理软件,进行日常病毒查杀和异常事件上报。

按照对X86服务器主机(不含存储服务器)数量进行部署。

1.6     系统管理方案

维护人员在数据中心传统的日常维护管理中,对服务器、网络设备的管理基本上简单地通过单机管理、或是局部采用机柜式低端模拟KVM管理、或是通过一些辅助软件点对点的远程管理,这样的管理方式正面理临着大范围地维护管理和处理多样性IT基础设施带来的巨大挑战,这些挑战包括:

(1) 数据中心机房要求实现无人机房管理,物理设备存在的安全隐患

各系统的日常维护管理中操作多,且共性的操作占了很大的比重,这种大量繁琐的操作不可避免的带来了不必要的安全隐患。进出机房的人员增多(不同的厂商人员,不同的设备维护人员),机房人员管理繁杂,安全系数低。

(2) 机房设备维护操作手段复杂,一旦出现故障,维护排错时间长,效率低,影响安全生产

不同种类的服务器网络设备等IT设备都有不同的维护操作手段,都有着自己的维护界面,造成系统维护人员需要逐个的进行维护和管理,显然这种单点式的维护需要耗费大量的人力成本,可以想象,当系统或网络维护人员穿梭于服务器、各种机柜所组成的丛林中,寻找出故障的机器时,效率是多么的低下。而这效率的低下,不但浪费了有限的人力资源,而且使出现的故障得不到及时的修复,使网络或数据中心出现不应有的停顿,对企业的损失不可估量。

(3) 远程维护管理的隐患

系统的远程维护和管理也是机房管理所面临的重要问题:当维护管理人员不在机房,或要维护异地机房时须用到远程维护管理,维护人员不可能24小时在机房里值班,而机器故障却可能在任何时候发生,一旦出现问题需要维护人员即刻到场,对于异地机房的远程维护管理更为迫切;而目前的基于软件的远程维护不能作到真正的远程维护:软件工具不能实现设备的加电断电重起功能,而软件工具本身要在管理目标机器上安装,这对主机本身就会带来安全隐患。

(4) 机房空间的利用效率问题

对于IT机房空间来说机房的利用效率极其重要,目前众多的键盘、鼠标和显示器的数量或每个机架上的配置的键盘鼠标显示器的切换器,使得机房的空间利用率低下并且能源消耗大。

(5) 维护人员的工作问题

维护人员长期不定时的加班或值班工作;机房环境(噪音,辐射和温度)对维护人员的影响;异地机房的长期出差维护的路途奔波,这些问题都影响IT维护人员的工作满意度,从而间接会影响到工作效率。

(6) 管理维护成本问题

不同机房奔波维护费用,或服务外包费用,加班值班等等费用随着企业IT系统的扩充而逐年增多,如何降低成本也成为当前企业所面临的重要问题。

分析以上的挑战,显然常规的管理维护手段已不能适应管理的要求,为了解决这些矛盾,提高系统运行维护管理水平,迫切需要改变目前的运行管理模式,包括从单点技术管理过渡到全面集中管理、从普通系统管理过渡到安全系统管理、建立健全操作授权管理机制、IT设备用电管理、微环境监控、安全日志记录和审计、密文传输防范数据传输风险、减少机房人员进出,提高物理安全性等。

1.6.1 4A接入网关

本工程采用4A接入网关,为云化基础资源管理平台管理员和用户、承载的业务系统的运维人员通过互联网远程访问提供接入手段。

1.6.2 远程集中维护

远程集中维护通常有两种手段:

  • 第一种,通过PC服务器设备的IPMI端口实现对PC服务器的集中监控和管理;
  • 第二种,通过KVM系统实现对具有KVM接口的服务器或具有串口的网络设备等实现集中监控和管理。

(1)IPMI管理

      IPMI是智能型平台管理接口(Intelligent Platform Management Interface)的缩写,是管理基于Intel结构的一种工业标准,可以监视服务器的物理健康特征,如温度、电压、风扇工作状态、电源状态等。目前该标准最新版本为IPMI 2.0,该版本在原有基础上有了不少的改进,包括可以通过串口、Modem以及Lan等远程环境管理服务器系统(包括远程开关机),以及在安全、VLAN 和刀片支持等方面的提高。

(2)KVM管理

KVM系统分为传统KVM和KVM over IP技术,传统KVM通过一台KVM切换器依次串接至多个服务器的鼠标、键盘、显示器接口,实现近距离的服务器管理。KVM over IP技术,由KVM设备通过Over IP技术将模拟信号转换成IP数据包并连接到IP网络,可从远程对被管设备进行管理。

目前各厂家均支持管理口集成IPMI及KVM over IP技术,仅需将管理口通过普通网线连接至管理接入交换机,进而即可通过IP网络以远程web界面登陆的方式进行集中维护管理。

本工程进一步完善管理网络的分层建设,将所有机架式计算服务器、机架式云存储服务器设备、网络设备、安全设备分别通过管理接口接入管理接入交换机,管理接入交换机通过管理汇聚交换机进行汇聚从而实现远程集中维护及管理功能。

1.6.3 网管要求

本云化基础资源平台被网管系统管理的对象如下表所示。

 

所在系统

被管理的对象

资源系统

运行虚拟机系统各类软件及其配套系统的服务器

运行日志详单存储软件及其配套系统的服务器

块存储设备(如磁盘阵列及其相关服务器)

云化基础资源平台系统中各类网络设备,包括路由器、交换机、防火墙等

网管系统对本公司云化基础资源平台系统中相关各类对象的管理模式如下图所示。网管系统对云化基础资源平台系统中相关各类对象的管理,先通过云化基础资源平台系统的云管理平台及统一运维系统完成,即云化基础资源平台系统的各类对象首先与云化基础资源的云管理平台及统一运维实现网管连接,云化基础资源云管理平台及统一运维系统收集各类对象的网络管理信息(配置信息、性能信息、告警信息),上报至私有云管理平台,私有云管理平台再根据网管系统的要求,通过与网管系统的接口将相关信息和数据传送到网管系统。

 

1.7     系统扩展方案

1.7.1 规模扩展

基于云化基础资源管理平台的云化基础资源平台具备良好的扩展能力,可在不影响当前系统及应用的前提下进行顺利扩展或者平滑升级,满足长期发展的要求。

(1) 存储容量扩展

由于使用了集中式存储系统,只需在云化基础资源平台内增加存储服务器及标准架构的存储介质,即可完成存储容量的扩展。

(2) 主机服务器扩展

只需在云化基础资源平台系统,简单增加通用X86服务器,即可完成主机服务器的扩展。同时,在虚拟化集群体系架构下,当云化基础资源平台系统复杂过多时,将添加的服务节点设定,配置完成,云化基础资源平台会自动动态扩展。

(3) 系统软件的扩展

系统软件的扩展理论上无规模上限,随着系统规模扩大,性能随之提高,但必须对相应zone和pod进行设定,增加相应管理节点,等重要角色节点的数目,以满足内部管理功能可行性与系统可用性。

(4) 应用的扩展

支持应用的动态添加和配置参数的动态修改,在整个系统不停机的情况下,可以扩展系统提供的应用服务。

  (5) 网络设备的扩展

在机房资源容许的情况下,当云化基础资源平台由600台服务器扩展到3000台服务器,只需在核心层设备上增加板卡或者增加很少的设备,在接入汇聚层通过增加接入汇聚交换机扩展接入端口就可以实现。这样的扩展方案对于云化基础资源平台网络弹性扩展和节省投资都是比较合理的。

1.7.2 跨地域扩展

随着云化基础资源平台的发展和容灾备份要求,云化基础资源平台需要进行跨地域扩展,即需要进行两个异地云化基础资源平台之间的资源池的统一管理、业务部署和数据容灾备份。

为实现上述需求,各云化基础设施平台间通过市内传输和跨省传输建立传输骨干网,实现各节点间互联。互联网络采用ISIS+BGP动态路由方式,实现流量的自动切换。

1.7.3 IPv6改造

IPv6地址是下一代互联网协议地址,当前普遍使用的互联网协议地址是IPv4地址,IPv6是互联网工程任务组(IETF)设计用于代替IPv4的下一代互联网IP协议。

为适应本公司IPv4向IPv6过渡,本工程集成团队需具备IPv6规划、实施能力,依客户公司的总体规划安排进行设备及系统的升级改造。