运维服务 2023-09-14 16:07

七小服(北京)网络科技有限公司,是一家IT解决方案和服务综合提供商。自成立以来,唐合易成始终致力于为用户提供IT系统架构咨询、解决方案、系统集成、系统维护和运维服务。

1.运维服务方案

1.1服务概况

计算机硬件维护:包括硬盘、电源、主板、CPU和内存等安装、调试和配置,充分利用现有设备,进行系统优化配置;对使用中的设备存在或将要出现的故障进行及时的诊断、维修、替换,并跟踪维修情况。并根据客户需要,对设备进行升级或更新,保证设备正常运行。

系统硬件设备(硬盘、电源、主板、CPU和内存等)各种设备工作状态例行检查和维护;

维护工程师每季度对客户服务等设备的巡检服务,了解和记录最新的使用情况,通过季度服务报告上报客户普查情况;对经常出现问题的设备进行登记和记录,并且制定知识库,对常出现的设备要重点检查、消除隐患,最大限度降低计算机设备的故障率。

维护工程师在对用户维护的时候,必须按照服务流程来进行,给用户提供快速、标准、满意的服务。对保内的计算机硬件进行免费的更换,时间方面按照协商的服务标准时间来进行。

汇总巡检报告提交给客户。

一般信息化设备硬件服务还包括:

  • 供应商根据实际需要,经客户同意准备相应数量的维护零配件,协助客户进行备件库的管理,并在零配件不足时及时补仓。
  • 定期对服务器等设备进行保养维护,定期进行用户满意度调查;
  • 对一般信息化设备硬件进行定期巡检、保养,以保障设备运行正常;
  • 按照客户要求进行硬件设备普查工作,建设可实现动态维护的硬件设备档案库,并实现与客户的资产管理系统的衔接。
  • 定期对公用信息化设备消毒除尘;
  • 检查硬件实际配置与设备登记表是否相符。
  • 对故障设备的维修
  • 在响应时间内完成故障设备的维修,维修人员应严格遵守维修规程。
  • 建立硬件应急维修小组,对关键重点岗位及紧急的故障及时响应并及时汇报,对于故障设备的维修由客户指定的具体技术人员组织监督进行;

1.2服务承诺

  • 我司承诺针对设备硬件故障提供7×24小时的技术支持电话热线服务,解答技术问题和故障咨询,接到支持需求30分钟内做出回应;
  • 我司承诺对于所维保的设备,当电话服务不能解决问题,提供7×24小时的硬件备件支持和相关现场支持,资深服务工程师接到报修后2小时到现场,非办公时间4小时内到达现场;
  • 我司承诺对维护列表中的设备进行每季度一次的现场健康检查,检查设备的运行状况,查看系统日志;并根据检查结果提供建议,必要时进行预防性维修,并提交检查报告;
  • 我司承诺将指定2-3名负责工程师,及时对项目提供服务、保证故障的及时解决,7×24小时接听贵方电话。
  • 我司承诺可根据贵方要求,对于工程师将提供简历、社保证明以及原厂证书等的有效证件。
  • 我司承诺针对设备系统故障提供7×24小时的技术支持电话热线服务,远程接入服务及远程监控解答技术问题和故障咨询,接到支持需求将在30分钟内做出回应;
  • 我司承诺当电话服务不能解决问题,将提供7×24小时的现场支持;
  • 我司承诺诺根据实际情况以及贵方技术人员同意前提下,为维保内服务器安装修正性软件,保障系统平稳运行;
  • 我司承诺发生系统宕机时,将协助贵方尽快恢复操作系统;收集错误信息,进行故障原因分析,并提供故障分析报告。

 

1.3 远程支撑服务

1.3.1电话技术支持服务


400服务热线:400-6296-001(7X24小时)
电话技术支持时间:7×24每周七天、24小时,30分钟内响应。
针对项目我司设立7×24的值班响应电话,并安排有经验的工程师接受申告。当维保的设备在运行过程中遇到各种技术问题时,客户可通过我司指定的值班响应电话进行报障。我司应保证服务时间内,95%以上的呼叫接通时间小于30秒,对于客户咨询的故障和技术问题,如需要查询相关资料解答的技术问题或故障,将在30分钟内给予回复,确保客户能够获得系统日常维护的技术支持,对于客户机技术性问题得到及时、有效的解答。
我司指定专人作为热线响应的补充,以备在紧急情况或不方便拨打热线时,仍能对客户的各种服务请求迅速做出响应,接口人包括服务经理和技术负责人等。

1.3.2 远程支持服务细则


(1)客户应提供(或向我司购买)必要的远程技术支援的设备。如果远程技术支援的设备由我司提供,应保证该设备具备安全管理功能,能防止非法登陆以保证设备和交换网络安全。
(2)我司服务人员登录到故障设备,通过诊断,分析故障产生的原因,制定故障解决技术方案后,应电话通知客户,待技术方案经客户批准后,才能进行故障解决方案的具体实施。
(3)在远程登录过程中,我司技术人员通过远程登录手段向设备发送的任何指令、报告回显必须形成命令日志文件;故障处理完毕或告一段落,应形成故障处理报告,同命令日志文件一同发送给客户。
(4)对于不同级别的故障,远程支持服务的响应时限要求(从我司向客户确认电话指导不能排除故障,要求远程技术支持到我司技术人员远程登录到设备的时间)见下表:

 

故障级别

电话、邮件响应时限

一级故障

<30分钟响应

二级故障

三级故障

 

1.3.3 远程技术支持服务

我司提供远程支持服务,主要针对于最终用户报修的故障和提出的技术咨询问题的解答,远程技术支持立即响应。包括电子传真支持,电子邮件支持,Web网站支持以及远程登入技术服务。每月会通过电话询访客户,向客户硬件、系统、软件及操作等方面的技术人员了解设备的运行状况,回答设备日常运行过程中的有关问题,以及安排下一步的服务。

 

1.3.4远程接入服务及远程监控服务


远程接入服务时间:7×24 每周七天、24小时,30分钟内响应。
对于通过电话指导不能解决的故障,在客户的允许下,我司技术顾问可通过远程接入方式,登录到故障设备,进行故障诊断,查找故障出现的原因,指导现场维护人员处理故障。过程要求如下:
1.客户应提供必要的远程技术支持的接入设备和技术条件。
2.我司技术人员登录到故障设备,通过诊断,分析故障产生的原因,制定故障解决技术方案后,应电话通知客户,待技术方案经客户批准后,才能进行故障解决方案的具体实施。
3.在远程登录过程中,我司技术人员通过远程登录手段向设备发送的任何指令、报告回显必须形成命令日志文件;故障处理完毕或告一段落, 形成故障处理报告,同命令日志文件一同发送给客户。
4.在客户接入条件(包括接入设备、电话外线、临时登录账户)符合要求的情况下,我司技术人员将在小于30分钟内联系客户开始提供远程登陆诊断服务;故障处理完毕应及时通知客户删除临时账户,以保证系统的安全。

5、同时我司技术人员提供客户所需的远程监控服务支持。

 

1.4巡检服务

为了确保客户IT资产长期、稳定的工作,最大限度和降低设备的运行故障及延长设备的使用寿命,为客户管理人员提供辅助决策的有效数据,项目组服务工程师对客户的计算机设备提供定期的巡查及保养服务。

项目IT设备维护工程师在日常工作中,除了处理日常维护工作以外,由被动服务变主动服务,主动到进行日常巡检巡查服务,通过日常巡检巡查服务排除故障隐患,降低故障率。并通过以往客户维护数据分析,详细总结客户各使用部门的具体故障情况,并及时对故障多发和高发地点进行预防性巡查。

硬件设备运行情况巡检:了解和记录客户计算机设备的最新使用情况,检测设备的运行情况,排除故障发生隐患,最大限度的降低计算机硬件设备的故障发生率,对一些经常出现故障的设备和关键设备要进行重点的检查。

我方每季度派经验丰富的工程师到客户设备现场对设备进行全面的检查评估,并出具巡检报告,报告内容包括但不限于设备物理检查、操作系统检查、磁盘管理检查 、系统性能检测、设备网络及光链路检查、系统环境检查,确保设备整体运行良好。

 

  • 电话预约
  • 向客户工程师了解运行情况
  • 工程师到现场维护
  • 填写维护技术报告
  • 向甲方工程师提交维护报告签字确认
  • 技术报告归档
  • 对于主机系统,我方工程师将每季度做一次预防性维护。
  • 对相关输入/输出设备(I/O),我方工程师将每季度做一次预防性维护。
  • 我方工程师每季度到贵方现场,或电话指导贵方工程师,对贵方的系统检查系统异常记录。
  • 根据贵方需要的时间点,提供上述预防性巡检服务。
  • 在有必要时,我方工程师将及时为贵方系统做微码升级与工程改良。
  • 我方工程师将为贵方的系统提供补丁安装服务,使打完补丁后的操作系统环境能够正常运作,发挥操作系统软件应有的功能,并记录有关补丁情况。
  • 我方工程师将会经常性主动拨打电话给客户工程师,与技术人员进行交流,及时了解客户设备的运行情况。

11.4.1设备外观、工作状态指示灯等信息检查

  • 硬盘 查看硬盘故障灯是否亮起
  • 风扇 查看FAN故障灯是否亮起
  • 电源 查看电源故障灯是否亮起
  • 处理器、内存系统配置信息变化

1.4.1操作系统检查

  • 操作系统名称﹑版本﹑补丁版本﹑主业务模块类型
  • 操作系统日志的检查
  • 使用开始—管理—系统日志 检查有无硬件设备的错误日子
  • Cpu负载,页面空间检查(性能检查)
  • 使用任务栏单击鼠标右键—任务管理器 观察CPU﹑内存﹑页面空间使用率,看使用率是否过高,使用率过高需进一步检查
  • 补丁包的分发
  • 定期查看有无新补丁包或有针对性的安全及系统补丁
  • 备份策略
  • 采用何种备份机制,何种备份设备

 

1.4.2性能分析

我司维护团队在每次巡检完毕,都会对巡检结果进行分析,内容包括服务情况的总结,重大故障分析,故障概率,趋势分析,计划执行分析,问题分析,用户满意度调查及服务持续性改进计划等;性能分析及优化、专业服务报告和技术建议等,在服务实施之前由我方提交实施方案,实施结束后提交实施总结报告。

在项目中维保的硬件作为客户业务运行的重要关键设备,它们的稳定、安全、高效运行是对整个系统的重要保障。我司把对系统性能检查分析作为定期预防性维护的主要内容之一;结合每季度巡检发现的问题,定期的对系统的性能及其运行状况做全面检查,并对其数据进行记录整理分析形成结论,提交给客户。

例行性的系统性能检查时间:每季度一次

例行性的系统性能检查的内容:

  • CPU 运行情况的检查;
  • 系统负载情况检查;
  • 系统内存与虚拟使用情况检查;
  • 系统I/O系统情况检查;

提交报告的形式:

  • 属于系统预防性维护报告的一部分,与预防性维护报告一同提交
  • 对有性能瓶颈的系统及时报告给用户数据中心相关的责任人
  • 对存在性能瓶颈的机器提交性能分析报告并提出改进方案,报告形式与下一节的专项的系统性能诊断与分析报告相同

除了在预防性维护期间的例行的性能检查之外,对有性能瓶颈的业务系统进行专项的性能诊断与分析,主要过程包括如下几个部分:

 

 

1.4.3专项系统性能诊断与分析流程

了解系统目前性能状况,采用的方法与例行的预防性维护性能检查的方法和检查内容相同

  • 对业务进行了解和分析,特别是业务情况运行历史性能的分析与判断
  • 确定影响业务性能的最主要的因素
  • 分析现状、影响因素、提出系统性能改进措施
  • 向客户提交性能分析报告及性能改进计划
  • 在客户批准报告和性能改进措施后进行性能调整实施
  • 提交性能调整的实施步骤并且与客户共同实施

 

专项系统性能诊断数据采集方法

与例行的预防性维护性能检查的方法和检查内容相同

对业务系统进行了解和分析,特别是业务情况运行历史性能的分析与判断

系统的性能与业务系统是密切相关的;一般情况下,业务系统出现严重系统故障并不是立即出现的,而是有一个过程的,因为系统的负载是逐渐增加的;了解业务系统性能的运行历史,有利于对业务系统性能问题的深刻分析

确定影响业务性能的最主要的因素,提出改进措施

通过收集CPU、内存、负载、IO、文件系统等性能数据、业务系统的运行状况,分析影响核心业务系统性能最主要的因素,找到消除减轻这些影响因素的措施,提出我们的改进方法,具体的改进方法如下:

(1)通过调整系统的参数和业务系统参数的方法来实现

如调整系统的Swap 区的大小、共享内存的参数、信号灯信号量等参数来实现性能的优化

(2)通过调整问及系统及裸设备文件在磁盘中的分布来实现

如果在磁盘上的数据库系统的数据文件访问太忙,应该将他们尽量分布在不同的磁盘上;通过数据迁移的方法将文件系统数据和裸设备的数据迁移到不太忙的磁盘上,使数据的访问在不同的磁盘上尽量均匀,提交了系统的访问效率

(3)通过增加系统的运行能力的方法来实现

(4)通过增加CPU能力和数量、增家内存的数量来达到体系系统能力的目的

系统性能分析及系统性能改进措施报告的提交

在系统性能诊断和分析之后,我司将提交详细的性能分析、性能改进措施的报告,报告的内容如下:

  • 业务运行状况
  • 性能现状
  • 影响业务的性能关键因素分析
  • 性能改善措施

1.5操作系统调优 

我司在保证操作系统可用性的前提下,对操作系统进行分析和评估,根据业务应用特性制定操作系统调优方案。 

1.6制定系统改善方案 

维保期内我司将包含一次分析系统环境,评估系统当前状态,根据要求制定系统改善方案并协助配置调试。

1.7文档管理制度

文档管理的目标是通过对运维服务过程中使用的文档进行统一管理,达到充分利用文档提升服务质量的目的,确保运维资源符合运维服务的要求。文档资源包括运维体系文档、项目(软硬件)文档资料、服务质量管理文档以及服务报告文档等。

双方的职责为:负责批准运维文档的更改、删除和发布。组织编写及更改运维文档;批准文档的借阅申请。运维服务商负责更新文件目录清单;负责保管文档资料;负责备份文档资料;检查各类在用文件的有效性,防止使用无效版本;负责定期提交服务质量管理文档以及服务报告文档等。

文档资源管理流程图

 

文档资源管理的工作程序

文档资源管理包括对以下五类文档进行管理:

  • 运维文档:指运维体系文档,包括运维手册、程序文件、相关支持文件及表单格式等。
  • 项目文档:指交付运维的软硬件系统相关的文档。
  • 质量管理文档
  • 服务报告文档
  • 其他文件资料:指文件、传真、外来资料等。

A、运维文档编码规则

文档分级

文档编号规则

说  明

示  例

一级文件

(总体)

A+两位一级文件序列号

两位一级文件序列号从01起顺序递增

A01:术语表

A02:总纲

二级文件

(程序文件)

B+两位二级文件序列号

两位二级文件序列号从01起顺序递增

B01:服务级别管理程序文件

B02:服务台管理程序文件

三级文件

(支持性文件)

C+二级文件序列号+两位三级文件序列号

三级文件均从某个二级文件产生,此处的二级文件序列号是指与本文件对应的二级文件序列号;两位三级文件序列号从01起递增

C0101:服务等级规划

C0102:服务目录

四级文件

(表单)

D+二级文件序列号+两位四级文件序列号

四级文件均从某个二级文件产生,此处的二级文件序列号是指与本文件对应的二级文件序列号;两位四级文件序列号从01起递增

D0201:运维工作单

D0302:工单跟踪记录

记录

编号

无关联记录

四级文件编号-日期+两位序列号

四级文件编号指该记录对应的四级文件的编号;日期按“yyyy+mm+dd”格式编写;两位序列号从01起递增

D0201-2005031401:

运维工作单记录

关联

记录

四级文件编号-关联记录编号

四级文件编号指该记录对于的四级文件的编号;关联记录编号指与本记录的产生相关联的记录的编号

D0302-D0201-2005031401:

工单跟踪记录

 

B、运维文档的更改、删除

运维文档由运维部负责组织编写,经主管部门批准后颁布执行。所有运维文档经批准后,由运维服务商统一归入《文件目录清单》中。

《文件目录清单》的内容包括文档类型、文档名称、编号、版本号、发布时间、内容说明、保管位置、保存期限等。

运维文档需要更改时,由文件更改提出人填写《文件更改申请单》,说明更改原因和更改内容。经运维部、信息中心批准后,由运维部组织人员进行文档的更改,并记录更改过程、更改内容、更改结果等。更改结果经运维部、信息中心确认后由运维服务商更新《文件目录清单》。

若需删除运维文档,则需由相关人员填写《报废申请单》,说明删除内容、删除原因等,经运维部、信息中心批准后由运维服务商在《文件目录清单》中将该文档删除。

C、质量管理文档的应用

服务质量管理文档主要分为服务回访文档、服务满意度调查文档、服务投诉处理文档三类。三种文档均为保障与提高客户满意度为目标所制订的《客户满意度指引》中的部分,属于运行服务管理体系最高层指导文件,以确保“从服务的角度出发”为客户提供五星级的运行服务。

根据ITIL标准与《规范》的要求,所有的事件均由服务台受理,服务工程师处理完毕后,由服务台完成回访并关闭事件流程,因此回访动作将直接获得客户对当次服务的评价,并由客户的评价获得服务质量改良的依据。

在ISO20000的指引下,服务团队质量管理小组将分析运行服务过程中成功回访的客户对当次服务的直接评价,并收集尽可能完整的评价信息,通过每周的部门例会对客户的评价进行汇总分析,并提出可能的原因和可能的改进办法。

我司会针对客户的要求,在发生系统参数配置变更、性能改进以及该系统设备出现新技术动态时,将主动及时提供相关文档服务支持。

 1.7.1工作报告单

1.7.1.1现场服务报告  
1.7.1.2 X86服务器巡检报告

客户信息

用户名

 

电子信箱

 

用户电话

 

用户所在城市

 

用户地址

 

产品类型

 

产品制造厂商

 

产品型号

 

序列号

 

客户验收签字

 

工程师签字

 

场地环境及资料检查

UPS电源

□有 □无

UPS电源型号

 

UPS电源功率

 

火线-地线电压(198~238V)

温度(20~25C)

 

零线-地线电压(应小于1V)

湿度(40~60%)

 

介质管理情况(介质应有专人管理,且妥善保存)

□良好□需要改进

系统状态、日志及文件系统检查

提示灯状态□正常□异常

液晶显示输出 □正常  □异常

系统日志□正常□异常

其他日志信息 □正常  □异常

应用程序日志□正常□异常

□正常  □异常

□正常  □异常

检查文件系统,

□正常  □异常

并向客户提出改进建议□正常□需要改造

□正常  □异常

安全日志□有□无

若有其他日志,收集其他信息进行分析,取得用户同意后删除系统中其他日志信息。

存储设备日志及状态检查

磁盘阵列卡日志及状态

□正常□异常

磁带机状态□正常□异常

系统整理及子系统测试

中央处理器测试□通过□失败

内存测试□通过□失败

磁盘驱动器测试□通过□失败

磁带驱动器测试□通过□失败

CD-ROM驱动器测试□通过□失败

LAN接口卡测试□通过□失败

SCSI接口卡测试□通过□失败

其他测试□通过□失败

操作系统及数据进行备份□通过□失败

操作系统软件名称

 

版本号:

服务器自带测试

检查以下设备状况,若有错,记录并收集错误信息作诊断

网络设备运行状况

□正常□异常

防火墙运行状况

□正常□异常

风扇运行状况

□正常□异常

电源设备状况

□正常□异常

 

以上检查中是否有无法排除的故障存在

□无

□有

请联系协调人作记录并在备注中说明

备注:

                   

  

1.7.1.3 EMC存储巡检报告

客户名称:                           机器型号               序列号     

检查时间:    年    月     时     本年度第   次检查。

Service Call No:                               Contract No:      

检查硬件状态:

检 查 结 果

说     明

1.通过CAP2检查磁盘有无故障(Hard error):

正常 □

异常 □

 

2.通过CAP的issues和analysis,检查有无其他报错(例如health-check failed,磁盘的soft error等)

正常 □

异常 □

 

3. 检查两个SP状态:

正常 □

异常 □

 

4. 检查磁盘柜每个LCC状态:

正常 □

异常 □

 

5. 检查SPE的每个风扇状态:

正常 □

异常 □

 

6. 检查磁盘柜每个电源状态:

正常 □

异常 □

 

7. 检查每个SPS状态:

正常 □

异常 □

 

8. 检查SPS的Cabling是否有效:

正常 □

异常 □

 

9. 检查两个SP所有Port是否都Online:

正常 □

异常 □

 

10. 检查近两个月有无Lun发生过  trespassed:

正常 □

异常 □

 

11. 检查是否每个SP的read cache已处于enable状态:

正常 □

异常 □

 

12. 检查是否每个SP的write cache已处于enable状态:

正常 □

异常 □

 

13. 检查是否每块HBA连接到存储的路径都能正常login和register:

正常 □

异常 □

 

14. 通过"navicli -h SP_IP_Address getagent"检测SP agent的工作状态是否正常

正常 □

异常 □

 

检查当前配置是否符合EMC的建议:

检 查 结 果

说                  明

1. 检查当前Flare code版本是否符合EMC的最新建议:

符合 □

不符合 □

 

2. 检查Hot space 硬盘的个数(每增加30块盘,至少加一个HS盘):

符合 □

不符合 □

 

3. 检查是否每个LUN的Auto assign 和Auto tresspass都被disable:

符合 □

不符合 □

 

4. 检查HA cache vault是否已被enable:

符合 □

不符合 □

 

5. 检查是否每台主机都至少有两块HBA能连接到存储:

符合 □

不符合 □

 

6. 检查是否每块HBA都至少有两条路径分别连接存储SPA和SPB:

符合 □

不符合 □

 

7.根据主机类型检查所有HBA卡的failover设定是否正确 (通过connectivity status…)

符合 □

不符合 □

 

8. 检查内存是否已被完全分配给Cache用:

符合 □

不符合 □

 

9. 检查Write cache的High,low watermark是否已被设置正确:

符合 □

不符合 □

 

检查主机部分相关硬件状态:

检 查 结 果

说                  明

1.存储所属文件系统是否都正常?

正常 □

异常 □

 

2.是否所有HBA的工作状态都正常?

正常 □

异常 □

 

检查软件版本是否符合EMC的最新建议:

检 查 结 果

说                  明

1. 检查当前的安装的ODM版本是否符合要求?

符合 □

不符合 □

 

2. 检查HBA的Firmware版本是否符合要求?

符合 □

不符合 □

 

3. 检查HBA的驱动程序版本是否符合要求?

符合 □

不符合 □

 

4.是否所有HBA的Fileset已经被安装?

符合 □

不符合 □

 

5. EMC要求操作系统Patch是否符合要求?

符合 □

不符合 □

 

6. 检查当前Powerpath版本是否符合EMC最新要求?

符合 □

不符合 □

 

7. 检查当前Powerpath版本是否配置正确?

符合 □

不符合 □

 

    1.7.2 维保服务阶段性总结报告

 

 XXX七小服

计算机设备维保服务

服务总结

  

 XX年X月

 

第1章 项目总结

 目的

    对XXX七小服与我司七小服之计算机设备维保服务合同进行全面总结,为下一年度的设备维保工作可行性提供依据。

 项目范围

项目维保设备统计:

序号

机器型号

服务级别

数量

1

 

7*24

 

2

 

7*24

 

3

 

7*24

 

 

项目人员组织架构

 

针对电子设备维保服务项目,我们的维保服务项目组包括:项目管理组、响应中心、专职现场工程师、技术支持小组和备件管理组。

如果发生人员变更,我们将提前一个月以书面形式通报维保客户。

  • 项目管理组

    由专职项目经理和项目助理构成,负责整个服务项目的具体组织和管理。

成员

职务

手机

XXX

技术经理

XXX

XXX

项目助理

XXX

  • 响应中心

 

  1. 响应中心负责7x24小时远程技术支持。
  2. 需要时采用远程拨号等方式解决客户技术问题。
  • 现场专职工程师

成员

手机

备注

XXX

XXX

XX

根据客户对服务级别的要求,我司将为客户提供专人常驻现场服务。

 

  • 技术支持组

    作为现场服务工程师的后备资源,依据项目经理指示、完成指定的现场服务任务。

  • 备件管理组:

成员

手机

备注

XXX

XXX

XXX

  • 客户联络人

 

成员

手机

备注

XX

XXX

负责与客户的沟通、协商与交流

 项目备品备件库

 

项目的备品备件库简介如下:

序号

设备名称

设备具体型号

库房存放

1

XXX

XXXXX

备机一台。以及常见的电源、硬盘、主板、背板、CPU、内存、风扇等备件

2

XXX

XXXXX

常见的电源、硬盘、主板、背板、CPU、内存、风扇等备件

 项目服务总结

 

 

次数

备注

主动服务

XX

北京,上海,南京

维修服务

XX

主要为内存,硬盘,风扇,主板,电源故障。包括小型机主板,硬盘 。(保修期外存储,服务器的维修)

变更支持服务

XX

协助搬迁,升级,补丁,数据迁移等等服务

其他技术服务

XX

协助硬件安装等等服务

技术交流

XX

正在协商第二次技术交流

 

 

第2章 巡检服务

 

  在合同期间中,我司七小服工程师对下列的系统进行了定期的月度巡检,部分简报如下。

 

No.

序列号

物理位置

系统[主机名]

日期

巡检结果

1

 

 

 

2011/12/8

2台刀片故障,已维修。

2

 

 

 

2011/12/8

正常

3

 

 

 

2011/12/8

正常

4

 

 

 

2011/12/8

1台刀片报警,已维护。

5

 

 

 

2011/12/8

正常

6

 

 

 

2011/12/8

正常

7

 

 

 

2011/12/8

2台刀片故障,已维修。

8

 

 

 

2011/12/8

正常

9

 

 

 

2011/12/8

正常

10

 

 

 

2011/12/8

正常

11

 

 

 

2011/12/8

正常

 

 

第3章 设备维修服务

在合同期间中,我司七小服工程师执行以及配合执行了很多的故障维修服务,如下为部分维修服务简报。

日期

机型

序列号

故障信息

处理结果

 

 

 

iLO登录,鼠键无响应

升级firmware,完成

 

 

 

机器蓝屏重启,无法进入操作系统, IML中3,4,7,8号内存有报错

更换内存,完成

 

 

 

内存1,2号报警

更换内存,完成

 

 

 

内存5,6号报警

更换内存,完成

 

 

 

健康灯红灯报警,机器无法启动

更换主板,完成

 

 

 

开机报1719错误

更换阵列卡电池,完成

 

 

 

服务器无法加电,状态红灯

更换主板,完成

 

 

 

健康状态灯报警

更换内存,完成

 

 

 

1号内存亮红灯

更换硬盘后故障排除

 

第4章 其他技术服务

在合同期间中,我司七小服工程师执行了部分其他技术服务,简报如下。

No.

日期

技术服务内容

执行结果

1

 

服务器安装

完成

2

 

服务器网络调整

完成

3

 

搬迁完成后,硬件安装

完成

4

 

帮助用户查询部分设备的服务级别和期限

完成

5

 

故障维修,更换内存

完成

6

 

信息收集,序列号整理

完成

  

1.7.3我司服务质量考核评估表

1.单次服务指标考核评核表

1

2

3

4

5

 

很不满意

不太满意

基本满意

满意

很满意

故障响应时间

 

 

 

 

 

故障发生后,到达客户现场时间

 

 

 

 

 

问题或故障的确诊时间和速度

 

 

 

 

 

解决故障的时间与速度

 

 

 

 

 

硬件故障时,备件的供应程度

 

 

 

 

 

是否在一次服务中解决问题

 

 

 

 

 

对问题的跟踪与总结

 

 

 

 

 

服务态度,与客户的沟通情况

 

 

 

 

 

服务工程师的技术水平

 

 

 

 

 

2. 总体服务质量评核表

1

2

3

4

5

 

很不满意

不太满意

基本满意

满意

很满意

每个季度的巡检服务质量

 

 

 

 

 

同样问题或故障是否重复出现

 

 

 

 

 

排障服务的质量

 

 

 

 

 

客户机器的连续无停顿运行时间(因程序原因造成排除在外)

 

 

 

 

 

备件的完备程度

 

 

 

 

 

工程师的技术水平

 

 

 

 

 

  

1.8补丁服务

乙方将及时获取原厂发布的版本更新或者补丁程序等,如果适合甲方的情况,将协助甲方及时做好升级举措。在升级和打补丁之前,建议对必要的系统数据做好备份,防止异常情况发生。 
    通常情况下,该项工作在每次的巡检结束后,通过分析给出明确结论,确定是否需要升级软件;在发现异常时,根据故障分析判断是否升级软件。 

操作系统增打补丁的需求,使打完补丁后的操作系统环境能够正常运作, 
发挥操作系统软件应有的功能,并记录有关补丁情况。

 

1.9安装、配置及搬迁服务

了解客户设备到货情况,提供安装环境改造建议,协助厂商检查安装环境。配合厂商或供货商和客户进行设备安装、调试和验收以及系统联调。了解各系统上的应用或使用情况,根据不同的需求,配置系统参数。服务的过程和结果均以文档形式记录保存。

搬迁服务, 项目经理和技术顾问可协助客户制订符合需求、量身定做的搬迁计划.共同审查与搬迁相关的硬件、软件、应用和数据。

维保期内客户若实施机房搬迁工作,我司会充分考虑机房搬迁对维保带来的影响,熟悉并掌握设备现有的系统环境及连接方式,在设备因物理位置发生变动后(如机柜移动、机房搬迁等),我司会积极主动到现场配合对被移动的设备进行配置和调试,以确保系统环境在设备移动前后保持一致。

协助工作包括:

  • 提供设备搬迁前操作系统的备份
  • 将设备拆卸成可运输部件
  • 对所有拆卸部件加标签,以便于再次装机
  • 提供新场地的检查和确认
  • 提供设备的再次装机
  • 提供操作系统的恢复
  • 提供符合新要求的设备重新配置和调试

 

1.10技术培训服务

拥有一批技术过硬的操作和维护人员,是系统顺利建设并长期稳定良好运转的重要保障。为实现知识和技能向用户的充分转移,培训是整个项目成功必不可缺的重要环节。

我司拥有专业化的讲师和辅导人员队伍,这些专业人员具有相应的专业知识、丰富的实践工作经验与广泛的教学经验。我们将建立专门的培训小组,准备内部或外部的培训资源,为用户技术人员提供适当的培训。

我们将根据客户具体需求,可以为用户提供具有针对性的培训,以确保用户的技术人员能够对维保设备、软件系统进行操作、运维、基本故障处理、日常维护等工作,使维保设备及应用能够正常运行。

现场技术交流及培训

内容

时间

地点

定期维护技术交流

现场服务工程师在定期巡检服务过程中,对用户技术人员进行现场技术交流及培训:

创建和管理用户帐户

定制用户账户

系统文件层次结构

连接外围设备

配置设备文件

配置硬盘设备

文件系统概念

逻辑卷管理(LVM)

文件系统创建

文件系统管理

文件系统修复

系统备份

调度程序cron的作业

管理交换区

关机和重新启动

系统内核配置 

连接到网络

巡检期内

客户机房现场

故障处理培训

现场服务工程师在用户现场处理故障中,针对故障判断/故障信息采集/偶发性故障的强制恢复操作/故障记录查询和分析等内容对用户技术人员进行现场技术交流及培训。

一起分析系统CPU、内存、IO、网络等的使用情况,对小型机等各种设备的主要资源使用状况进行技术探讨,交流。向技术人员说明维护要点,排除隐患,降低设备故障发生率。

巡检期内

客户机房现场

  

1.11应用软件测试服务

为使客户稳定、有效地使用应用系统,在客户对生产系统做重大调整、上新生产系统或生产系统升级时,工程师将提供应用软件测试的配合服务。在服务过程中,工程师将根据自己的经验对机器性能进行评估,进行测试计划建议、配合执行测试计划、提供相关部分的测试记录和建议。

1.12 第三方配合服务

对于由第三方直接提供的非合同责任范围的设备、软件或服务,我们将根据客户要求提供配合服务。我们将基于自己的责任范围提供相关的系统参数调整、模拟测试等配合手段。

1.13原厂商技术保障

我们将与系统软硬件设备的原始厂商签定技术保障合同,以确保系统出现故障时能够得到及时的响应服务(如硬件设备的维修更换),确保业务运行不受故障设备的影响或争取最少的损失。技术保障合同涉及到备品备件库、供货时间,以及客户与原厂商达成的技术服务及承诺的协议内容等保障事项。

 

(二)项目的团队介绍,工作职责和分工

2.1团队人员组织结构

针对客户通用服务器维保服务采购项目,乙方的服务项目组包括:项目管理组、响应中心、专职维护工程师、技术支持小组和机动管理组。

  • 项目管理组

由项目经理和项目助理构成。

  1. 负责整个服务项目的具体组织和管理。
  2. 制定服务方案和服务计划,在服务过程中及时动态调整方案,保证服务质量。
  3. 协调工程师对具体服务进行实施。负责整个服务项目中的问题管理、变更管理。
  4. 负责制定应急计划,进行应急控制。
  5. 接受甲方投诉和协调甲方需求变化。
  6. 向甲方提交阶段性报告,与甲方交流服务项目执行情况。
  7. 制订服务文档模板,管理服务项目实施过程中所有相关文档。
  • 响应中心
  1. 响应中心负责7x24小时远程技术支持。
  2. 需要时采用远程等方式解决甲方技术问题。
  3. 当需要现场服务时,上报项目经理,由项目经理安排现场服务。
  • 现场维护工程师

根据甲方对服务级别的要求,已方可以为甲方提供专人常驻现场服务。

  1. 为甲方提供详尽的主机服务,响应、记录、跟踪指定甲方的支持需求。
  2. 依据定期服务计划,完成系统巡检等定期服务任务。
  3. 根据应急计划为甲方提供应急服务,向项目经理报告进展情况。
  4. 汇报服务情况和服务中遇到的问题,并每周向甲方和项目经理提交周工作报告。
  • 技术支持组

作为现场服务工程师的后背资源,依据项目经理指示、完成指定的现场服务任务。

  • 支撑管理组

由备件管理、成员质量监督成员、文档管理成员组成

 1、备件管理员:负责保修备件的提供与协调,由本地办事处行政助理担任;

 2、质量监督员:负责对客户进行回访,以证实工程师每次技术服务的符合性,由技术管理部的技术助理担任;

 3、文档管理员:负责对客户文档进行管理归档,保证文档及时合理。

2.2人员职责与岗位要求

维保服务团队的要求为:

维护工程师:具有IBM、惠普、EMC、H3C等认证的经验丰富的工程师;

服务台人员:至少1年呼叫中心工作经验,至少1年计算机行业客户服务工作经验,,有良好的客户情绪管理能力。

二线技术支持团队的要求为:

项目总监:熟悉ITIL管理标准,且具有相关认证。

服务经理:熟悉ITIL管理标准,并具有相关认证。

(三)应急方案

3.1突发事件应急流程

在日常运维中可能会出现突发事件,一旦出现如下问题我七小服将遵循应急流程处理突发事件。

突发事件的来源,可能来自以下几个途径:第一巡检维护过程中发现、第二设备运行发生告警、业务部门反馈,一旦发生驻场工程师第一时间告知客户,并将具体的情况一同告知,以最快速度联系七小服相关技术专家和七小服相关高层领导,与专家进行充分沟通初步定为故障,并将故障定级,同时告知客户,如遇到驻场工程师无法解决的故障时,七小服内相关领域技术专家会以最快速度赶到事故现场进行故障处理,直至问题解决,在问题解决之后。由技术专家和驻场工程师共同完事件问题报告,将事故的发生原因,处理的方式,已及如何避免再次发生的方法进行详细记录,录入客户的运维管理文件中,同时由七小服技术专家完成将此案例录入七小服内部知识案例库,作为以后借鉴依据,当事故处理完毕后,由驻场工程师或技术专家讲结果告之客户和七小服相关领导。

3.2预防措施及处理办法

系统运维应急方案是对中断或严重影响业务的故障,如宕机、数据丢失、业务中断等,进行快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。在系统维护过程中,突发事件的出现将是很难完全避免的,针对这种情况,设计了完善的突发事件应急策略。

系统巡检人员要定期规范检查各硬件设备的运转情况和应用软件运行情况,同时做好日常的数据增量备份和定期全备份。对发现的问题在报各级负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。

对发现的问题在报负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。

当获悉出现突发事件时,驻场工程师可以立即从知识库中获取相应的应急策略,并综合用户方的具体情况,与七小服技术专家沟通,给出相关解决方案,然后在第一时间以电话、邮件支持或现场服务的方式帮助用户解决问题,尽最大努力减小突发事件对用户日常应用的影响。

3.3故障处理方案

工程师首先对故障现象、故障发生时间等故障现场信息进行记录。如因备件等原因,由现场工程师统一负责联系我七小服响应中心或用户代表,协助用户与第三方厂商进行技术沟 通,提出备件申请、负责备件接收等事务性工作。工程师综合考 虑设备到场的情况,确定本 次故障处理方案。把故障处理方案提交给用户,由用户批准后,进入故障处理过程。

 

3.4故障处理实施如下步骤:

(1)应急处理流程

在【问题管理】流程中,当服务主管收到服务台人员或助理提交的《运维工作单》,并判断该问题属于重大事故时,则启动应急处理流程。重大事故包括以下几种情况:

  1. a) 大范围系统中断
  2. b) 区域性系统崩溃
  3. c) 关键业务中断
  4. d) 大范围病毒爆发
  5. e) 系统严重破坏
  6. f) 数据严重破坏

根据重大事故的紧急程度和状态不同,服务主管可采取以下方式启动应急流

程:

 

  1. a) 当紧急事件发生时,我司的运行人员首先要进行故障分析,确定故障的范围和程度,确认为紧急故障的,在查找原因和解决问题的同时,要同步将故

障解决情 况通报给部门领导、及向客服中说明事件发生的状况。如需其他部

门协助的,需 要请求相关部门共同尽快解决故障。

  1. b) 对于病毒突发事件,当病毒大面积地感染终端,我司的现场服务人员将已感染的终端从局域网中断开,我司的运行人员将第一时间收集病毒信息,

并向现场人员提供有针对性的应急方案;如果应急方案没有效果,要立即和

杀毒软件厂方联络,由双方共同协同提供有效的应对措施。

  1. c) 对于网络中断事件,我司的运行人员首先要判断中断原因,如果是局域网本地 设备或线路造成的,依网络运行处理流程优先快速处理;如果是电信服务提供商 造成的,要立即联络电信技术部门解决问题。
  2. d) 对于系统故障事件,我司的运行人员首先要启用备用系统,再判断故障类型:硬件损坏、操作系统故障、软件故障。硬件损坏的情况,首先向服务器

供应商报障;操作系统故障多数情况都和硬件故障同时出现,处理方式相

同;软件故障如 果是由购买的软件造成的,立即向软件厂商寻求技术支持;                                            

如果是七小服自行开发 的软件,立即向相关人员联系并排除故障。

  1. e) 对于自然灾害性事件,运行管理人员要尽可能将设备转移到安全地带,将损失降低到最少。
  2. f) 对于电力中断事件,由于机房多采用UPS 防止断电带来的系统停机现象,在UPS 还能供应电力期间恢复供电,对系统使用不会有影响;但遇到特殊情况

导致供电 部门在短期内不能恢复供电时,如有备用发电设备要启用备用发电

设备供电,否 则要关闭所有设备,确保突然断电造成设备损坏。

  1. g) 在故障排除之后,运行管理人员要填写故障记录,故障记录汇总到“系统运行故 障记录表”,重大事故由故障处理人填写故障报告。

 

(2) 故障紧急维修服务

当设备出现故障时,我司工程师将及时做出响应并尽快开展维修及修复工作。具体内容如下:

  1. a) 电话了解设备故障情况及错误码情况,并指导客户系统管理员采取紧急备份措施。
  2. b) 在故障现场进行问题诊断。
  3. c) 制定故障恢复应急方案。
  4. d) 执行相关的必要流程。
  5. e) 调动设备备件,执行恢复操作的前期准备工作。
  6. f) 更换有故障的配件。
  7. g) 恢复故障设备系统运行,调试系统应用是否运行正常。
  8. h) 故障处理报告总结及预防措施实施。

(3) 硬件修复范围

设备因质量问题引起的故障,我司在24小时内免费予以更换配件或整机,或提供备机,保证设备及时恢复正常。

  1. a) 主机的所有设备,如系统主板、CPU、内存、硬盘、电源等;
  2. b) 存储的所有设备,如硬盘、电源等;
  3. c) 网络的所有热备,如板卡风扇等等

(4)紧急故障修复流程

(5) 操作系统增打补丁

操作系统增打补丁的需求,使打完补丁后的操作系统环境能够正常运作,

发挥操作系统软件应有的功能,并记录有关补丁情况。

(6) 故障解决流程说明

1)故障报告

工程师接到故障报告后,确认是否是我七小服的服务客户、是否是我七小服的保修设备、是否是合同承诺的服务内容,并记录故障及问题相关的信息。文档模版

2)故障诊断

工程师根据故障及问题状况进行诊断,并相应采取电话指导、或现场服务、或专家支持、或整机替换进行处理。

3)电话指导

对异地能够解决的软件故障,或能够使系统恢复正常运行的,工程师可通过电话指导客户进行处理,同时填写“故障处理记录单”。

4)现场服务

对于电话指导不能解决的故障及问题,工程师应及时赶到客户现场进行故障排除,同时填写“故障处理记录单”并由客户签字确认。

5)专家支持

  1. a) 对于复杂疑难故障及问题,工程师自己无法排除的,应及时将故障及问题提交技术 专家组诊断并处理;
  2. b) 技术专家指导工程师或赶到客户现场进行故障排除,并填写“技术支持记录单”。

6)整机替换

对属于关键性故障,且不能使系统恢复正常运行的,我七小服将为客户提供整机更换方案,并做好故障整机的替换。

7)不间断故障处理

我司工程师在到达甲方现场后,应开始进行不间断服务直至系统恢复正常运行,得到甲方确认后方可离开。

(7) 远程支持

当客户系统出现故障且需要我方进行远程支持处理时,得到客户的允许后,我方工程师根据客户要求并取得相关授权,在确保整个系统安全的前提下,通过同步或异步方式远程登录到客户机器上,及时进行问题诊断与故障排除,以最迅速、高效、快捷的方式为客户解决 问题,提供专业的技术支持服务。

(8) 项目服务报告

维保合同生效后,我司将负责拟定维保实施计划,并提交七小服确认。

我司承诺服务期间将向七小服提供《季度健康检查服务报告》,《年度服

务总结报告》以便七小服用户全面准确的了解维保服务实施情况。

《年度服务总结》内容包括但不限于如下内容:

1)、服务情况的总结。对上个月度的设备整体运行情况进行总结,评估每次维保行动的效果;统计评估维保行动实施的服务内容;总结分析遗留问题处理情况 。

2)、重大故障服务分析报告:对故障的发生原因、处理过程和处理结果进行详细说明,并给出预防该类故障再次发生的建议;根据故障紧急程度,紧急类、

严重类故障报告交付时限是在业务恢复后 3 个工作日内提交;

3)、所有故障概率、趋势分析;

4)、问题分析。对维保过程中出现的未曾预见的问题,及时分析总结,给出解决建议。

对于七小服召集的技术方案讨论会、故障分析会、组织实施协调会、验收测试

会等,我司将积极协调相关资源给予配合、参与,且不再收取单独服务费用。

(9) 机房搬迁或系统配置调整 现场支持

对于需求方在进行系统搬迁、系统升级、系统割接等需要对服务合同设备进

行调整时,维保承保方现场技术支持,配合完成系统停、启及故障排除,对移动设备进行配置和调试等工作,以确保系统环境在设备移动前后保持一致。

(10) 重大事件现场支持服务

重大事件期间,七小服根据需要向我司提出重要通讯保障服务请求,七小服收到请求后与七小服共同制定重大事件期间的设备保障方案。

具体情况如下:

◆ 当维保范围的设备及其系统需要进行升级、调整、切换等各项变更时,我司可以提供人员现场支持服务。

◆ 法定节假日,我司提前向客户提供值班工程师名单、当值地点及联系电话。保证即时响应被服务方的故障呼叫,及时赶到现场

◆ 在客户要求的其他情况给予现场技术支持服务。

我司可以按照七小服的要求提供以下服务:

1、在重大事件前或节假日前对核心设备及软件进行巡检;

2、临时增加现场值守人员;

(11) 技术交流

我七小服工程师将经常与客户保持交流,互通情况及提供技术咨询,以进一步保证保修服务的顺利进行,主要内容如下:

1)了解保修系统以前出现过的问题,及相关解决方案。

2)分析保修系统与应用可能存在的问题;

3)介绍我七小服以前维护过程中的典型案例,并进行交流;

4)介绍我七小服的维护计划和实施过程;

5)维护期间,提供相关的技术咨询;

6)汇报前阶段的工作;

7)对今后的维护与管理提出改进意见;

8)实行事件处理流程化;

9)提供今后的系统规划、软硬件升级与服务;

10)建立设备维护技术档案;

11)提供设备的维护文档等技术资料

在发生系统参数配置变更、性能改进以及该系统设备出现新技术动态时,

主动及时 提供相关文档。对贵方的所有保修设备,均根据每次故障维修报告和预防性维护报告建立技术档案,详 细记录设备型号、故障时间、故障类型、维护方法、维护质量、预防措施及维护时间和维护人员等信息。