数据中心维保解决方案,包括系统硬件、系统软件、数据库、机房动力环境(UPS空调发电机等)的运维保修。可为客户提供7*24工程师驻场服务。
产品描述:
数据中心维保解决方案,包括系统硬件、系统软件、数据库、机房动力环境(UPS空调发电机等)的运维保修。
系统硬件包括主流品牌的服务器,磁盘阵列,磁带库,网络交换机,SAN交换机,备份一体机等
系统软件包括主流品牌的UNIX、LINUX、WINDOWS等
数据库软件包括主流的ORACLE、DB2、SQL等
机房动力环境包括主流的UPS、空调、发电机、监控等
可为客户提供7*24工程师驻场服务。
维保服务主要以日常的维护为主,做好日常的正规检查使设备处于良好的状态下进行工作,设备损坏的几率减少。所以巡检服务便是整个维保服务的重点,在巡检中发现问题可以及时解决,将维修处理在设备出现问题之前,便是巡检的重要目的。
设备定时定期的巡回检查,能及时发现异常情况和消除设备缺陷,消减事故隐患,确保安全运行。为了更加有效的对网络信息系统进行管理,及时查找、发现网络及信息系统设备隐患,排除故障,根据相关规定及实际情况,我们建议如下:
巡检之前
(1) 了解需要巡检的设备情况
巡检之前,要了解客户现在所运行的系统情况,确认有哪些设备需要巡检。
(2) 与客户联系设备巡检日期
与客户商定好设备巡检日期,事先准备好机票、车票或交通工具。
(3) 准备好巡检报告及所需工具
出发前要准备好《西安恒点信息技术有限公司系统预防性维护服务报告单》(见附录)、笔记本电脑及所需携带的物品、资料等。
巡检服务内容
我公司根据多年服务经验,为用户提供真实、全面的巡检服务。
一般常规巡检标准
1、检查系统硬件情况:设备故障灯是否有亮
2、系统错误报告(errlog)
3、有否发给root用户的错误报告(mail)
4、检查hacmp.out,smit.log,boot.log
5、关键系统的文件使用率不大于80%
6、逻辑卷有否stale
7、内存交换区使用率是否超过70%
8、内存交换区的大小是否为物理内存的1.5倍
9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)
10、通信(网卡、IP、路由表、ping、/etc/hosts、DNS设置等)
11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare
12、系统DUMP设置是否正确
13、检查系统参数是否正确
1)/etc/enviroment中的TZ不能有夏时制
2)如有数据库:Aio:available
3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24
4)HACMP中Syncd:10
5)HACMP中Power Monitoroff
14、检查rootvg是否有镜象
15、检查errdemon,srcmstr是否正常运行
16、机房环境(电压、湿度)
17、系统性能:有否性能瓶颈(topas,vmstat)
18、补丁程序(PTF)、微码(是否需要升级)
19、HACMP测试:Cluster Verification
20、系统硬件诊断
21、运行#snap -ac,生成文件snap+s/n.pax.Z
22、机器清洁
注:1~15为A类维护(月维护),16~18为B类维护(季度维护),19~22为C类维护(半年维护)通过这些预防性的检查,我们可以发现系统存在的隐患、挖掘系统缺陷,通过我们的改进措施排除这些隐患和缺陷;这样就可以防患于未然,使一些问题解决在发生之前。所有的巡检程序均在用户现场完成,并向用户提供巡检报告其中包括建议及解决方案。
各类设备巡检标准
除以上常规巡检外,我们还会根据具体的设备,做好各个设备专业性的巡检。
巡检项目 |
正常状态判断内容 |
巡检方式 |
主电源工作灯是否正常工作 |
常绿 |
观察 |
各直流电源指示灯是否正常 |
常绿 |
观察 |
各直流电源单元风扇是否正常运转 |
流畅吹风 |
观察 |
系统柜至IO柜是否连接正常 |
连接两端指示灯常绿 |
观察 |
挂载磁带库各指示灯及面板显示是否正常 |
绿灯 |
观察 |
系统错误日志记录档案 |
errpt-dH:无关键性报错 Errpt-dS:无关键性报错 |
errpt, errpt-aj |
网络状态检测,与主机B是否能ping通。 |
与主机B通讯正常,netstrt |
命令 |
检查各文件系统空间及使用情况 |
df –k:记录并扩充使用率在80%以上的文件系统 各文件系统均在80%以下。 Mount :检查是否有异常的文件系统 |
命令 |
系统性能检测及参数记 |
nmon、vmstat 、 iostat检测系统CPU/内存/IO性能正常 备机,资源非常闲 |
命令 |
检查系统备份情况 |
Smitty mksysb |
命令 |
双机接管测试 |
双机接管测试 ping命令 |
命令 |
2、PC服务器巡检标准:
巡检项目 |
正常状态判断内容 |
巡检方式 |
检查设备面板显示信息有无异常 |
各类设备无错误代码信息,参考各类设备显示状态图示。 |
观察 |
检查设备指示灯状态有无异常 |
各类设备指示灯显示正常,参考各类设备指示灯状态图示。 |
观察 |
检查设备有无传出异常报警声 |
各类设备无报警蜂鸣声,详见设备报警示意说明。 |
听 |
检查设备有无散发出烧糊(焦)的气味 |
无烧糊(焦)的气味 |
闻 |
设备周围有无出现静电火花 |
设备周围无静电火花出现 |
观察 |
设备有无冒出烟雾 |
设备无烟雾冒出 |
观察 |
设备物理外观是否完好 |
未受物理碰撞,无撞击痕迹。 |
观察 |
设备现场是否(位置)就位 |
设备无移动痕迹,保持原地位置 |
观察 |
是否有风从设备吹处 |
有风从设备吹出 |
感应 |
3、存储设备巡检标准;
巡检项目 |
正常状态判断内容 |
巡检方式 |
存储SP指示灯 |
正常情况下为绿色 |
观察 |
存储SPS指示灯 |
正常情况下为绿色 |
观察 |
存储电源指示灯 |
正常情况下为绿色 |
观察 |
存储硬盘指示灯 |
正常情况下为绿色 |
观察 |
存储SP光纤口 |
应该有光输出或者插口指示灯绿灯 |
观察 |
查看OSM管理 |
能否正常对存储进行管理(网页登陆) |
命令操作 |
查看RAID组 |
RAID组是否正常工作,通过OSM操作 |
命令操作 |
查看Cache |
进入OSM查看cache是否正常使用 |
观察 |
光纤交换机指示灯 |
正常情况下为绿色 |
观察 |
光纤链路指示灯 |
正常情况下为绿色 |
观察 |
4、机房环境巡检标准:
巡检项目 |
正常状态判断内容 |
巡检方式 |
机房室内温度是否正常 |
开机状态:夏季23±2℃;冬季22±2℃(参考GB 50174-93) |
观察 |
停机状态:5℃-35℃(参考GB 50174-93) |
观察 |
|
机房室内湿度是否正常 |
开机状态:45%~65%(参考GB 50174-93) |
观察 |
停机状态:40%~70%(参考GB 50174-93) |
观察 |
5、UPS巡检标准:
巡检项目 |
正常状态判断内容 |
巡检方式 |
UPS显示屏幕是否能正常显示 |
触摸后能正常显示UPS各项信息 |
触摸感应 |
UPS是否处于正常工作状态 |
两台UPS同时显示有负载显示 |
观察 |
UPS是否有报警声 |
无报警蜂鸣声 |
听 |
UPS运行环境温度是否正常 |
符合机房室内正常温度范围 |
观察 |
强电控制设备运行显示是否正常 |
空开、仪表显示在正常状态,详见强电控制设备显示图示。 |
观察 |
UPS在发电机供电状况下电池充电显示状态 |
保持充电比例达到90%以上 |
观察 |
6、网络设备巡检标准:
巡检项目 |
正常状态判断内容 |
巡检方式 |
设备持续运行时间 |
如果设备uptime时间比较短,一定在利用这个命令查看设备最近一次重启的时间,便于分析各种潜在风险。Dis version |
命令检查 |
设备CPU利用率情况检查 |
CPU使用情况检查。CPU利用率平均值<50%;最大值<70%;Display cpu;dis cpu history |
命令检查 |
设备memory利用状况检查 |
使用的百分比小于80%;dis memory |
命令检查 |
设备模块运行状况检查 |
所有模块运行normal;dis device;此命令能观察电源及风扇状态。 |
命令检查 |
设备运行环境检查 |
设备内部各部分工作温度小于最高限制80摄氏度。Dis environment; |
命令检查 |
设备系统LOG日志检查 |
日常信息的判断,经验。Dis logbuffer |
命令检查 |
接口状态检查 |
接口运行正常,无过多的错误,广播及冲突包,显示工作的端口为UP状态;端口冲突,错误等非信息小于1/10000.端口名称正确;端口双工状态正常。Dis interface。 |
命令检查 |
7、门禁系统:
巡检项目 |
正常状态判断内容 |
巡检方式 |
前端采集、控制设备 |
外观护罩清洁,检查密封性能; 前端系统测试; 电源、电锁、控制、视频接点检查,避免缠绕和松动。: |
触摸感应 |
总控制系统 |
每季度外观专业清洁; 电源、电锁、控制、视频接点检查,避免缠绕和松动; 检查系统软件使用状态,备份历史数据。 |
命令检查 |
巡检内容
定期巡检的目的在于及时发现和预防可能出现的硬件和系统问题,从而在最大程度上为系统的连续稳定运行提供保证,巡检工作内容主要包括:
目前服务器操作系统分为:windows(2000、2003、2008)、linux(CentOS),基础环境大多为Windows server 2003 域环境,其中域控制器、DNS、文件服务器分列其中,2台linux服务器分别运行老的网站及邮件
具体工作如下:
第一步、记录服务器应用序列号(Device ID)
第二步、记录服务器的设备序列号(Serial Number)
第三步、记录服务器安装位置(Location)
第四步、环境检测 Environment
第五步、检查各状态灯情况:
包括:电源状态灯Power LED、网络状态灯(NIC LED)、系统状态灯(SYS LED)、服务器硬盘的状态
第六步、正常登陆域(Login Domain)
使用域帐号正常登陆服务器测试
第七步、检查机器操作系统的系统日志
打开操作系统的事件查看器(Event Viewer)中的系统日志(System):确认日志中无硬件报错即可。
操作系统检查
检查项 |
检查操作 |
参考标准 |
操作系统版本检查 |
CONSOLE |
执行命令uname –a |
主机连接系统网络情况 |
在其它机器上采用ping命令 |
观察5分钟是否有丢包情况 |
主机网络配置情况 |
CONSOLE 执行命令infconfig –a |
端口应该UP,IP地址、子网掩码正确 |
系统账户检查 |
利用root身份、口令登陆 |
能够正常登陆到系统 |
性能检查
检查项 |
检查操作 |
参考标准 |
CPU占用率 |
CONSOLE top |
CPU使用率小于80% |
内存占用率 |
CONSOLE top |
内存使用率小于80% |
内存交换区使用率 |
CONSOLE top |
内存交换区使用率小于80% |
文件系统占用率 |
CONSOLE df -ah |
没有文件系统超过80%的现象 |
进出占用资源检查 |
CONSOLE top top –p 进程名 |
察看系统最占资源的进程 察看具体某个进程占用资源的具体情况 |
安全检查
检查项 |
检查操作 |
参考标准 |
检查当前登陆用户 |
CONSOLE who |
除了管理员外没有其他用户登录 |
重启情况检查 |
CONSOLE Boot.log |
检查boot.log中是否有error行,检查异常的系统重启时间 |
系统运行时间 |
CONSOLE Uptime |
系统UP时间应该为上次重启导目前的时间 |
系统账户安全检查 |
CONSOLE more /etc/passwd more /etc/shadow |
没有异常账户信息存在 |
系统日志、应用日志、安全日志 |
#rflogview # grep error / var/log/boot.log # grep error /var/log/ secure # grep error /var/ log/dmesg # lastlog |
无错误日志或错误日志不会影响系统的正常运行 |
系统开放端口检查 |
CONSOLE netstat –an |grep LISTEN |
指显示出提供对于服务的端口,无关的端口一律关闭 |
系统登陆情况检查 |
CONSOLE lastlog |
无异常账户或异常时间登陆 |
(1)按照《西安恒点信息技术有限公司系统预防性维护服务报告单》(见附录)将相应信息录入到“服务器巡检情况数据库”中。
(2) 将《西安恒点信息技术有限公司系统预防性维护服务报告单》(见附录)交给办公室行政部保存。
售后服务:
a、所有设备验收合格之日起,原厂质保3年。
b、3年免费售后服务:西安恒点信息技术有限公司承诺在原厂保修基础之上,我公司再提供过保后三年技术支持。
c、终身免费技术支持:同时恒点公司提供所有设备及工程提供终身免费技术咨询。
d、专人服务:针对此项目,我公司免费提供两名资深服务工程师为本项目提供高效、专业、及时的售后服务;这样可大大提高我公司针对本项目的服务响应时间及服务质量。能做到即时响应,即时上门,即时故障处理。全方位为客户服务,真正做到客户无忧。
专职售后1 章念
专职售后2 马磊
专职售后职责:
第一时间响应用户,第一时间上门解决用户故障问题。
定期,不定期对所有客户进行上门巡检。
7*27小时电话响应服务,每周电话回访。
及时对用户产品进行免费软件,版本升级。
7*24小时通过QQ,邮件,MSN等方式对用户问题进行解答。
向用户通过邮件,宣传册方式发放最新产品资料,技术资料。
4、专职服务无法即时处理的故障第一时间转入公司售后流程:
5、故障处理时限即维护响应时间少于10分钟.公司配备专职售后经理及商务各一名,从接到用户报修电话起10分钟电话响应,电话支持无法解决故障3小时内安排专职售后启动上门响应。
6、故障处理上门响应时间少于24小时,现场服务条件、到位时间符合客户招标要求。
7、若工程师上门后5小时内无法解决用户故障,公司将安排24小时内为用户提供不低于原用设备的备品备件。
8、质保期内因设备缺陷造成各种故障我公司全权免费负责。
9、生产厂商在陕西省拥有售后服务团队和生产/研发机构、备品备件库等。
10、提供免费的技术培训。从项目签订之日起,我公司就可向用户提供技术及维修培训。
施工阶段,我公司会安排给相对应人员做现场安装培训,原理培训。
施工完毕我公司会与用户沟通组织产品使用培训及常见故障处理,原理培训。