数据中心机房维保解决方案 2015-10-26 16:23

数据中心维保解决方案,包括系统硬件、系统软件、数据库、机房动力环境(UPS空调发电机等)的运维保修。可为客户提供7*24工程师驻场服务。

 产品描述:

数据中心维保解决方案,包括系统硬件、系统软件、数据库、机房动力环境(UPS空调发电机等)的运维保修。

系统硬件包括主流品牌的服务器,磁盘阵列,磁带库,网络交换机,SAN交换机,备份一体机等

 系统软件包括主流品牌的UNIX、LINUX、WINDOWS等

数据库软件包括主流的ORACLE、DB2、SQL等

机房动力环境包括主流的UPS、空调、发电机、监控等

可为客户提供7*24工程师驻场服务。

      维保服务主要以日常的维护为主,做好日常的正规检查使设备处于良好的状态下进行工作,设备损坏的几率减少。所以巡检服务便是整个维保服务的重点,在巡检中发现问题可以及时解决,将维修处理在设备出现问题之前,便是巡检的重要目的。

      设备定时定期的巡回检查,能及时发现异常情况和消除设备缺陷,消减事故隐患,确保安全运行。为了更加有效的对网络信息系统进行管理,及时查找、发现网络及信息系统设备隐患,排除故障,根据相关规定及实际情况,我们建议如下:

  • 为保证服务器的正常运行,应确保UPS等供电及延时设备的稳定运行,定期查看机房UPS设备的输入、输出;
  • 在遇有如定期检修线路或停电通知的情况下,确保在UPS断电之前将服务器及存储数据及时备份并将服务器等设备正常关机;
  • 为确保机房冷却、加湿设备的正常工作,应定期对这些设备进行观察,确定达到服务器的运行需求
  • 针对服务器、存储、网络设备、视频会议系统,采取备份重要数据的原则

巡检服务流程

巡检之前

(1) 了解需要巡检的设备情况

巡检之前,要了解客户现在所运行的系统情况,确认有哪些设备需要巡检。

(2) 与客户联系设备巡检日期

与客户商定好设备巡检日期,事先准备好机票、车票或交通工具。

(3) 准备好巡检报告及所需工具

出发前要准备好《西安恒点信息技术有限公司系统预防性维护服务报告单》(见附录)、笔记本电脑及所需携带的物品、资料等。

巡检服务内容

我公司根据多年服务经验,为用户提供真实、全面的巡检服务。

一般常规巡检标准

  • 检查机房温湿度
  • 巡检各设备的运行状况
  • 接到用户故障电话及时检查并配合协调相关部门处理并解决故障
  • 对各种故障进行详细记录,包括故障时间、原因、处理过程及恢复时间等

1、检查系统硬件情况:设备故障灯是否有亮
2、系统错误报告(errlog)
3、有否发给root用户的错误报告(mail)
4、检查hacmp.out,smit.log,boot.log
5、关键系统的文件使用率不大于80%
6、逻辑卷有否stale
7、内存交换区使用率是否超过70%
8、内存交换区的大小是否为物理内存的1.5倍
9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)
10、通信(网卡、IP、路由表、ping、/etc/hosts、DNS设置等)
11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare
12、系统DUMP设置是否正确
13、检查系统参数是否正确
        1)/etc/enviroment中的TZ不能有夏时制
        2)如有数据库:Aio:available
        3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24
        4)HACMP中Syncd:10
        5)HACMP中Power Monitoroff
14、检查rootvg是否有镜象
15、检查errdemon,srcmstr是否正常运行
16、机房环境(电压、湿度)
17、系统性能:有否性能瓶颈(topas,vmstat)
18、补丁程序(PTF)、微码(是否需要升级)
19、HACMP测试:Cluster Verification
20、系统硬件诊断
21、运行#snap -ac,生成文件snap+s/n.pax.Z
22、机器清洁
注:1~15为A类维护(月维护),16~18为B类维护(季度维护),19~22为C类维护(半年维护)通过这些预防性的检查,我们可以发现系统存在的隐患、挖掘系统缺陷,通过我们的改进措施排除这些隐患和缺陷;这样就可以防患于未然,使一些问题解决在发生之前。所有的巡检程序均在用户现场完成,并向用户提供巡检报告其中包括建议及解决方案。

各类设备巡检标准

除以上常规巡检外,我们还会根据具体的设备,做好各个设备专业性的巡检。

  • 小型机巡检标准:

巡检项目

正常状态判断内容

巡检方式

主电源工作灯是否正常工作

常绿

观察

各直流电源指示灯是否正常

常绿

观察

各直流电源单元风扇是否正常运转

流畅吹风

观察

系统柜至IO柜是否连接正常

连接两端指示灯常绿

观察

挂载磁带库各指示灯及面板显示是否正常

绿灯

观察

系统错误日志记录档案

errpt-dH:无关键性报错

Errpt-dS:无关键性报错

errpt,

errpt-aj

网络状态检测,与主机B是否能ping通。

与主机B通讯正常,netstrt

命令

检查各文件系统空间及使用情况

 df –k:记录并扩充使用率在80%以上的文件系统 各文件系统均在80%以下。 Mount :检查是否有异常的文件系统

命令

系统性能检测及参数记

nmon、vmstat 、 iostat检测系统CPU/内存/IO性能正常           备机,资源非常闲

命令

检查系统备份情况

Smitty mksysb

命令

双机接管测试

双机接管测试 ping命令

命令

2、PC服务器巡检标准:

巡检项目

正常状态判断内容

巡检方式

检查设备面板显示信息有无异常

各类设备无错误代码信息,参考各类设备显示状态图示。

观察

检查设备指示灯状态有无异常

各类设备指示灯显示正常,参考各类设备指示灯状态图示。

观察

检查设备有无传出异常报警声

各类设备无报警蜂鸣声,详见设备报警示意说明。

检查设备有无散发出烧糊(焦)的气味

无烧糊(焦)的气味

设备周围有无出现静电火花

设备周围无静电火花出现

观察

设备有无冒出烟雾

设备无烟雾冒出

观察

设备物理外观是否完好

未受物理碰撞,无撞击痕迹。

观察

设备现场是否(位置)就位

设备无移动痕迹,保持原地位置

观察

是否有风从设备吹处

有风从设备吹出

感应

3、存储设备巡检标准;

巡检项目

正常状态判断内容

巡检方式

存储SP指示灯

正常情况下为绿色

观察

存储SPS指示灯

正常情况下为绿色

观察

存储电源指示灯

正常情况下为绿色

观察

存储硬盘指示灯

正常情况下为绿色

观察

存储SP光纤口

应该有光输出或者插口指示灯绿灯

观察

查看OSM管理

能否正常对存储进行管理(网页登陆)

命令操作

查看RAID组

RAID组是否正常工作,通过OSM操作

命令操作

查看Cache

进入OSM查看cache是否正常使用

观察

光纤交换机指示灯

正常情况下为绿色

观察

光纤链路指示灯

正常情况下为绿色

观察

4、机房环境巡检标准:

巡检项目

正常状态判断内容

巡检方式

机房室内温度是否正常

开机状态:夏季23±2℃;冬季22±2℃(参考GB 50174-93)

观察

停机状态:5℃-35℃(参考GB 50174-93)

观察

机房室内湿度是否正常

开机状态:45%~65%(参考GB 50174-93)

观察

停机状态:40%~70%(参考GB 50174-93)

观察

5、UPS巡检标准:

巡检项目

正常状态判断内容

巡检方式

UPS显示屏幕是否能正常显示

触摸后能正常显示UPS各项信息

触摸感应

UPS是否处于正常工作状态

两台UPS同时显示有负载显示

观察

UPS是否有报警声

无报警蜂鸣声

UPS运行环境温度是否正常

符合机房室内正常温度范围

观察

强电控制设备运行显示是否正常

空开、仪表显示在正常状态,详见强电控制设备显示图示。

观察

UPS在发电机供电状况下电池充电显示状态

保持充电比例达到90%以上

观察

6、网络设备巡检标准:

巡检项目

正常状态判断内容

巡检方式

设备持续运行时间

如果设备uptime时间比较短,一定在利用这个命令查看设备最近一次重启的时间,便于分析各种潜在风险。Dis version

命令检查

设备CPU利用率情况检查

CPU使用情况检查。CPU利用率平均值<50%;最大值<70%;Display cpu;dis cpu history

命令检查

设备memory利用状况检查

使用的百分比小于80%;dis memory

命令检查

设备模块运行状况检查

所有模块运行normal;dis device;此命令能观察电源及风扇状态。

命令检查

设备运行环境检查

设备内部各部分工作温度小于最高限制80摄氏度。Dis environment;

命令检查

设备系统LOG日志检查

日常信息的判断,经验。Dis logbuffer

命令检查

接口状态检查

接口运行正常,无过多的错误,广播及冲突包,显示工作的端口为UP状态;端口冲突,错误等非信息小于1/10000.端口名称正确;端口双工状态正常。Dis interface。

命令检查

7、门禁系统:

巡检项目

正常状态判断内容

巡检方式

前端采集、控制设备

外观护罩清洁,检查密封性能;

前端系统测试;

电源、电锁、控制、视频接点检查,避免缠绕和松动。:

触摸感应

总控制系统

每季度外观专业清洁;

电源、电锁、控制、视频接点检查,避免缠绕和松动;

检查系统软件使用状态,备份历史数据。

命令检查

巡检内容

定期巡检的目的在于及时发现和预防可能出现的硬件和系统问题,从而在最大程度上为系统的连续稳定运行提供保证,巡检工作内容主要包括:

  • 主机系统的运行状态,对系统CPU、内存、I/O状态、进程等检查;对系统设置、日志文件、Error Report进行检查分析,清理系统中的日志文件和垃圾文件;
  • 外部设备运行状态,对磁盘阵列、磁带机、外置光驱、维护终端等的状态、设置进行检查;对风扇、后备电池、磁盘、磁带、键盘等敏感部件进行重点检查,如有故障征兆则进行先期更换;
  • 数据备份;
  • 网络设备的运行状态;
  • 连接件检查,对连接插头、电缆、电源插座等进行检查;
  • 环境检查,包括电源电压、接地和室内温度、湿度、空气洁净度等;
  • 清洁保养,清除机箱、滤清器内的灰尘与异物;
  • 系统优化,协助客户对OS进行系统性能调整和系统优化,提高系统效率;进行相关的安全性进程检查;
  • 技术交流,双方技术人员分析和解决日常运行中出现的未解决问题;
  • 工作报告,在对系统进行全面的检查后,给出详细的报告,根据检查结果给出相应建议和改进方案。

目前服务器操作系统分为:windows(2000、2003、2008)、linux(CentOS),基础环境大多为Windows server 2003 域环境,其中域控制器、DNS、文件服务器分列其中,2台linux服务器分别运行老的网站及邮件

具体工作如下:

  • 基于Windows 服务器:

第一步、记录服务器应用序列号(Device ID)

第二步、记录服务器的设备序列号(Serial Number)

第三步、记录服务器安装位置(Location)

第四步、环境检测 Environment

  • 温度:10℃-35℃ 湿度:35%-80%
  • 工作电压:200V~240V

第五步、检查各状态灯情况:

包括:电源状态灯Power LED、网络状态灯(NIC LED)、系统状态灯(SYS LED)、服务器硬盘的状态

第六步、正常登陆域(Login Domain)

使用域帐号正常登陆服务器测试

第七步、检查机器操作系统的系统日志

打开操作系统的事件查看器(Event Viewer)中的系统日志(System):确认日志中无硬件报错即可。

  • 基于linux服务器

操作系统检查

检查项

检查操作

参考标准

操作系统版本检查

CONSOLE

执行命令uname –a

主机连接系统网络情况

在其它机器上采用ping命令

观察5分钟是否有丢包情况

主机网络配置情况

CONSOLE

执行命令infconfig –a

端口应该UP,IP地址、子网掩码正确

系统账户检查

利用root身份、口令登陆

能够正常登陆到系统

性能检查

检查项

检查操作

参考标准

CPU占用率

CONSOLE

top

CPU使用率小于80%

内存占用率

CONSOLE

top

内存使用率小于80%

内存交换区使用率

CONSOLE

top

内存交换区使用率小于80%

文件系统占用率

CONSOLE

df -ah

没有文件系统超过80%的现象

进出占用资源检查

CONSOLE

top

top –p 进程名

察看系统最占资源的进程

察看具体某个进程占用资源的具体情况

 

安全检查

检查项

检查操作

参考标准

检查当前登陆用户

CONSOLE

who

除了管理员外没有其他用户登录

重启情况检查

CONSOLE

Boot.log

检查boot.log中是否有error行,检查异常的系统重启时间

系统运行时间

CONSOLE

Uptime

系统UP时间应该为上次重启导目前的时间

系统账户安全检查

CONSOLE

more /etc/passwd

more /etc/shadow

没有异常账户信息存在

系统日志、应用日志、安全日志

#rflogview # grep error /

var/log/boot.log

# grep error /var/log/

secure # grep error /var/

log/dmesg # lastlog

无错误日志或错误日志不会影响系统的正常运行

系统开放端口检查

CONSOLE

netstat –an |grep LISTEN

指显示出提供对于服务的端口,无关的端口一律关闭

系统登陆情况检查

CONSOLE    lastlog

无异常账户或异常时间登陆

保存文档

(1)按照《西安恒点信息技术有限公司系统预防性维护服务报告单》(见附录)将相应信息录入到“服务器巡检情况数据库”中。

(2) 将《西安恒点信息技术有限公司系统预防性维护服务报告单》(见附录)交给办公室行政部保存。

 

售后服务:

a、所有设备验收合格之日起,原厂质保3年。

b、3年免费售后服务:西安恒点信息技术有限公司承诺在原厂保修基础之上,我公司再提供过保后三年技术支持。

c、终身免费技术支持:同时恒点公司提供所有设备及工程提供终身免费技术咨询。

d、专人服务:针对此项目,我公司免费提供两名资深服务工程师为本项目提供高效、专业、及时的售后服务;这样可大大提高我公司针对本项目的服务响应时间及服务质量。能做到即时响应,即时上门,即时故障处理。全方位为客户服务,真正做到客户无忧。

专职售后1     章念  

专职售后2     马磊

专职售后职责:

第一时间响应用户,第一时间上门解决用户故障问题。

定期,不定期对所有客户进行上门巡检。

7*27小时电话响应服务,每周电话回访。

及时对用户产品进行免费软件,版本升级。

7*24小时通过QQ,邮件,MSN等方式对用户问题进行解答。

向用户通过邮件,宣传册方式发放最新产品资料,技术资料。

4专职服务无法即时处理的故障第一时间转入公司售后流程:

5故障处理时限即维护响应时间少于10分钟.公司配备专职售后经理及商务各一名,从接到用户报修电话起10分钟电话响应,电话支持无法解决故障3小时内安排专职售后启动上门响应。

 

6故障处理上门响应时间少于24小时,现场服务条件、到位时间符合客户招标要求。

7若工程师上门后5小时内无法解决用户故障,公司将安排24小时内为用户提供不低于原用设备的备品备件。

8质保期内因设备缺陷造成各种故障我公司全权免费负责。

9生产厂商在陕西省拥有售后服务团队和生产/研发机构、备品备件库等。

10提供免费的技术培训。从项目签订之日起,我公司就可向用户提供技术及维修培训。

施工阶段,我公司会安排给相对应人员做现场安装培训,原理培训。

施工完毕我公司会与用户沟通组织产品使用培训及常见故障处理,原理培训。