星云博创 2025-04-03 16:50

本项目针对共享边缘云场景,构建智能、高效、安全的专项运维服务体系,涵盖资源调度、故障自愈、安全防护等关键技术,确保分布式边缘节点的高可用性与低时延服务能力,支撑5G、工业互联网等新兴应用场景的稳定运行

共享边缘云专项运维服务方案

一、引言

随着数字化转型的加速和边缘计算的快速发展,共享边缘云作为云计算与边缘计算融合的创新模式,正逐步成为支撑低时延、高带宽、分布式业务场景的核心基础设施。2025年共享边缘云专项运维服务项目旨在构建高效、智能、安全的运维体系,解决边缘节点异构化、资源动态调度、跨域协同管理等技术挑战,确保边缘云服务的稳定性、可靠性与可持续性。

本项目将聚焦以下技术方向:

智能运维(AIOps):通过机器学习与大数据分析,实现故障预测、根因定位及自愈能力,降低边缘节点运维复杂度。

资源弹性调度:基于业务负载动态优化边缘-云资源分配,满足实时性需求与能效平衡。

安全可信架构:结合零信任框架与轻量化加密技术,保障分布式边缘环境的数据隐私与链路安全。

标准化与自动化:通过运维流程标准化和工具链集成,提升跨厂商、跨地域边缘节点的协同效率。

通过专项运维服务的实施,该项目将为5G、工业互联网、智慧城市等场景提供高可用的边缘云服务底座,推动“云-边-端”一体化技术生态的成熟落地。

 

二、服务范围及需求模型

共享边缘云2025年预计承载业务含视频云、云电脑、边缘智算算力等业务能力,设备规模达4936台。新建资源池引入SDN、对象存储等新技术产品能力,设备品牌数量从原有的5家增加到10家以上。共享边缘云资源池运维服务,包含项目管理、日常维护管理服务、资源维护服务、应用管理服务、云安全管理服务、敏捷运维服务、验收管理服务。负责共享边缘云及移动边缘云非华为、中兴、苏研虚层厂家设备(如锐捷、华三、贝尔、迈普等)配置方案支撑、资源池及管理域扩容软硬件/CMP验收配合、节假日重要保障设备巡检等日常运维支撑;协助制定边缘云局数据规范,支撑安全引流、视频云融合接入等省内特有边缘云业务接入场景方案评审;开展日常云资源池运维数据(资源、告警、性能等)完整性及准确性分析整改;协助对资源池运行质量分析、工作台巡检存在的问题处理及管控,确保问题处理效率及质量满足集团考核要求;开展自动化运维工具开发、安全应急处置等支撑,确保资源池整体运行质量。

1、数字化转型需求

随着信息技术的快速发展,各行各业都在积极推进数字化转型。数字化转型不仅要求数据处理和分析能力的提升,还要求数据处理的实时性和准确性。共享边缘云作为云计算和边缘计算技术的结合体,能够为用户提供更加高效、低延迟的数据处理能力,满足数字化转型的迫切需求。

2、业务增长与多样化

中国移动广东公司作为国内领先的电信运营商,其业务范围不断扩展,用户数量持续增长。随着视频云、云电脑、边缘智算算力等新兴业务的兴起,用户对于数据处理和存储的需求日益多样化。为了满足这些多样化的业务需求,中国移动广东公司需要构建一个稳定、高效、可扩展的共享边缘云资源池。

3、技术创新与升级

随着SDN(软件定义网络)、对象存储等新技术产品的引入,共享边缘云资源池的技术架构和运维模式都将发生深刻变化。SDN技术可以实现网络资源的灵活配置和快速响应,提高网络资源的利用率和可靠性;对象存储技术则能够提供更高效、更安全的数据存储服务。这些新技术的引入将进一步提升共享边缘云资源池的性能和服务质量。

4、设备规模与品牌多样化

随着设备规模的扩大和设备品牌的多样化,共享边缘云资源池的运维管理难度也将显著增加。原有的5家设备品牌增加到10家以上,意味着运维团队需要熟悉和掌握更多不同品牌和型号的设备,以确保设备的稳定运行和故障的快速排查。

5、运维服务需求升级

面对上述挑战,中国移动广东公司网络管理中心需要升级其运维服务模式,以确保共享边缘云资源池的稳定高效运行。具体来说,运维服务需求包括以下几个方面:

项目管理:确保项目按时、按质、按量完成,包括项目计划制定、进度跟踪、质量控制等。

日常维护管理服务:对共享边缘云资源池进行日常巡检、故障排查和修复,确保设备稳定运行。

资源维护服务:对云资源(如计算资源、存储资源等)进行管理和优化,提高资源利用率。

应用管理服务:对运行在共享边缘云上的应用程序进行管理和优化,确保应用程序的稳定性和性能。

云安全管理服务:提供全面的云安全防护措施,包括数据加密、访问控制、安全审计等,确保云资源的安全。

敏捷运维服务:实现运维流程的自动化和智能化,提高运维效率和响应速度。

验收管理服务:对新建资源池进行验收测试,确保各项技术指标和功能要求达到设计要求。

中国移动广东公司网络管理中心拟开展的2025年共享边缘云专项运维服务项目是在数字化转型加速、业务增长与多样化、技术创新与升级以及设备规模与品牌多样化等多重背景下提出的。通过该项目的实施,可以确保共享边缘云资源池的稳定高效运行,满足用户对于数据处理和存储的多样化需求。

2.1 边缘云巡检服务

运维人员应定期对系统各部件和组件进行巡检,巡检实施前提交巡检计划,在得到各方确认后组织资源力量按照健康检查计划实施健康检查,在工作完成后提交巡检报告并组织讨论,并对巡检报告的相关事项进行相关预防性跟踪处理,协调落实相关调优/调整/补丁安装措施,保障系统运作稳定。具体工作包括:

1、根据云计算资源池硬件现状,确定巡检设备列表、巡检内容、巡检手段、巡检频率以及巡检结果记录模板,制定巡检执行计划。其中关键指标巡检至少应做到1次/月,如遇紧急情况应提升频率以确保资源池可用性。

2、以现场巡检和远程操作系统命令等方式,定期对机房环境、设备、配套设备定期现场巡检。

3、对主机的运行状况以及其上虚拟机的运行状况等指标巡检。

4、定期检查网络设备,防火墙及负载均衡等设备连接数等指标。

5、巡检服务应提交巡检结果报告,异常情况及时预警负责人,同时每月提交性能分析报告,指出系统存在隐患。

边缘云基础设备巡检内容及要求如下:

服务对象

检查项目

检查标准

检查周期

检查形式

 

机房基础环境

机房温湿度

机房运行环境是否符合对温度和湿度的要求。温度正常范围:21运行环;湿度正常范围:40%~60%

现场

机房门禁、照明

机房及机房内机笼门禁使用正常,机房内照明正常

现场

机房安防(摄像、烟感等)系统是否外观正常

机房安防(摄像、烟感等)系统外观正常

现场

机房环境卫生

机房内地板、墙面干净无明显灰尘、垃圾

现场

机房是否存在火患、鼠患等

机房内、机柜内是否存在火患,鼠患。应无纸张、纸盒等易燃物

现场

机房施工(如有)

现场施工符合要求,施工余料应及时清理

现场

微模块/机柜基础环境检查

微模块/机柜柜门有无锁好

微模块柜门处于锁上状态;机柜门上下扣、门锁处于锁上状态;

现场

设备位置是否牢固、平整

设备摆放位置牢固、平整。

现场

机柜温/湿度、通风是否正常

温湿度参考机房温湿度取值范围;通风口正常无阻塞

现场

机柜卫生是否清洁

机柜内无杂物;标签粘贴符合规范;设备无明显尘土附着。

现场

电源连接是否正常

电源线连接、接地连线牢固可靠,设备的电源指示灯应绿色常亮。

现场

供电系统是否正常

交、直流电源列头柜有无异响、告警信息

现场

设备运行指示灯是否正常

设备运行无异响、指示灯正常

现场

设备散热是否正常

设备的散热风道是否有异物遮挡;设备的散热是否正常、出风口温度是否正常,查看有无堵塞高温现象

现场

列间空调是否正常

列间空调有无异响、漏水、告警信息

现场

设备整体状态检查

设备远程登录是否正常

设备可通过SSH、telnet、web等方式正常远程登录

远程登录

风扇运行状态检查

风扇模块运行状态正常,执行display fan命令, “Status”为“Normal”

远程登录

电源状态检查

电源模块运行状态正常,执行display power命令,“State”项为“Supply”表示正常。

远程登录

设备温度检查

各模块/芯片温度状态正常,执行display temperature命令,“Status”为“Normal”表示正常。

远程登录

单板状态检查

各单板状态正常,执行display device命令,“Status”为“Normal”表示正常。

远程登录

检查引擎板冗余状态

引擎板的主备switchover状态正常,执行display switchover state命令,switchover状态正常

远程登录

CPU占用率检查

设备CPU占用率正常,与当前开展的业务类型和转发流量相符。 执行display cpu-usage命令,CPU占用率正常。

远程登录

内存占用率检查

内存占用率正常,与当前开展的业务类型和转发流量相符。执行display memory命令,内存占用率正常。

远程登录

检查调试信息是否关闭

设备调试debug开关应关闭。执行display debugging命令,调试信息均已关闭。

远程登录

系统时间检查

执行 display clock命令,时间应与实际时间一致。
如果不合格,请执行clock datetime命令修改系统时间或者配置NTP同步网络时间。

远程登录

接口内容检查

接口状态检查

检查接口错包、速率、带宽、双工协商模式等状态。执行display interface命令,接口无错包、接口协商模式正确,两边速率一致、均为双工模式, 接口的Up/Down状态满足规划要求,带宽占用率正常。

远程登录

查看光模块状态

检查光模块状态,光功率应在正常范围内。执行display  transceiver interface 命令,光功率应在正常范围内。

远程登录

查看ip状态

检查ip状态,物理和协议均应up状态。执行display ip interface brief 命令,ip正常应为up状态。

远程登录

运行情况检查

查看告警信息

查看设备是否有异常告警。执行display alarm all命令,应无异常告警。

远程登录

查看日志

查看日志中有无异常日志。执行display logbuffer命令,无异常日志。

远程登录

VRRP状态检查

查看各VRRP组,主备状态正常。执行display vrrp命令。

远程登录

MC-LAG状态检查

查看MC-LAG状态是否正常。

远程登录

设备堆叠状态检查

查看堆叠状态、堆叠口是否正常。

远程登录

ospf状态检查

查看OSPF协议状态、OSPF邻居、OSPF路由是否正常。

远程登录

BGP状态检查

查看BGP协议状态、BGP邻居、BGP路由是否正常。

远程登录

查看NTP状态

查看NTP配置和会话是否正常。执行命令 display ntp-service

远程登录

查看MAC地址表项

查看MAC地址表项数量是否正常,是否超过MAC地址表项规格。 执行命令display mac-address

远程登录

查看ARP地址表项

查看ARP地址表项数量是否正常,是否超过ARP地址表项规格。执行命令 display arp

远程登录

查看路由表情况

查看路由是否正常,是否超过路由表项规格。执行命令 display ip routing-table

远程登录

检查设备会话

检查设备会话数是否正常,是否超过最大会话数规格。

远程登录

配置检查及备份

配置比较

设备正在使用及下次启动时将要加载的产品版本软件和配置文件的文件名是否正确。执行display startup命令

远程登录

配置备份

离线方式备份系统当前配置。

远程登录

软件检查

检查补丁信息

补丁文件是否与实际要求一致,检查设备厂家是否有相关预警公告,是否需要加载更新补丁文件。执行display patch-information命令

远程登录

检查设备运行版本

设备运行的软件版本是否与实际要求一致,检查设备厂家是否有相关预警公告,是否需要进行软件版本升级。执行display version命令

远程登录

安全检查

设备安全扫描及加固

定期对设备进行合规、弱口令、漏洞等安全扫描,对扫描中发现的安全问题及时进行安全加固。

远程登录

设备密码修改

设备密码定期修改

按照安全管理要求定期修改设备密码,密码需满足安全强度要求。

季度

远程登录

局数据核对检查

局数据核对检查

现网配置的局数据是否与实际业务要求一致,是否满足相关局数据规范。

季度

远程登录

维护资料核查更新

维护资料核查更新

根据现网实际情况,对组网图、IP地址表、版本信息等相关维护资料进行核对及更新。

季度

远程登录

定期倒换与重启演练

设备定期倒换演练

对双机组网设备定期进行倒换演练,业务由单边承载,保障冗余可靠。

半年

现场

设备定期重启演练

对设备定期进行重启演练,保障设备可靠性。

现场

存储池状态检查

管理维护界面登录是否正常

可通过SSH、telnet、web等方式正常远程登录分布式存储的管理维护界面。

远程登录

查看告警信息

在分布式存储的管理维护界面上检查有无新增告警信息。

远程登录

查看存储池性能指标

在分布式存储的管理维护界面上检查存储池的IO时延等性能指标。

远程登录

查看存储池使用率

在分布式存储的管理维护界面上检查存储池的使用率,剩余使用容量不足时,及时发出容量预警。

远程登录

查看日志信息

在分布式存储的管理维护界面上检查日志信息,查看日志中有无异常操作或操作失败等异常日志。

远程登录

健康检查与备份

健康检查

使用分布式存储厂家提供的自动化巡检工具对分布式存储进行健康检查。

远程登录

配置备份

对分布式存储的系统配置进行离线备份。

远程登录

数据备份

对分布式存储三副本不能满足保护需求的重要数据,采用其他备份方式进行数据备份。

远程登录

软件版本检查

检查分布式存储软件版本

分布式存储的软件版本是否与要求一致,检查设备厂家是否有相关预警整改公告,是否需要进行软件版本升级。

远程登录

安全扫描及加固

定期对设备进行合规、弱口令、漏洞等安全扫描,对扫描中发现的安全问题及时进行安全加固。

远程登录

密码定期修改

按照安全管理要求定期修改密码,密码需满足安全强度要求。

季度

远程登录

物理机检查

物理机CPU利用率

查看各物理机的cpu利用率,平均cpu利用率应<70%,且每天同一时段数值平稳,无异常波动。

远程登录

物理机内存利用率

查看各物理机的内存利用率,平均内存利用率应<70%。且每天同一时段数值平稳,无异常波动。

远程登录

物理机磁盘利用率

查看各物理机的磁盘利用率,磁盘利用率应<80%。

远程登录

物理机物理网卡性能

查看各物理机的网卡性能统计,流入/流出速率、收包/发包速率等指标在门限值以下,且每天同一时段数值平稳,无异常波动。

远程登录

物理机时钟检查

查看各物理机的系统时间,确保系统时间与实际时间一致。

远程登录

检查控制节点状态

对控制节点的双机/多节点状态进行检查,确保所有控制节点均正常运行。

远程登录

检查控制节点进程状态

查询控制节点进程,能够完整显示所有进程,且控制节点进程状态都正常。

远程登录

检查计算节点进程状态

查询计算节点进程,能够完整显示所有进程,且计算节点进程状态都正常。

远程登录

检查HostOS操作系统日志

检查物理机(包含控制节点、计算节点等)操作系统日志,日志中无异常错误信息。

远程登录

查看服务器预警整改公告

检查服务器厂家是否有相关预警整改公告,是否需要进行相关固件版本升级。

远程登录

VIM/PIM检查

VIM/PIM管理维护界面登录是否正常

可通过web等方式正常远程登录VIM/PIM的管理维护界面。

远程登录

查看VIM/PIM告警信息

在VIM/PIM管理维护界面上查看告警信息,应无新增异常告警信息。

远程登录

查看VIM/PIM日志信息

在VIM/PIM管理维护界面上查看日志信息,应无异常错误日志和异常操作日志。

远程登录

查看云主机状态

在VIM管理维护界面上查看所有云主机状态,确保所有云主机状态正常(正在使用的云主机为Active,正在重启的云主机为Reboot,已暂停的云主机为Paused,已挂起的云主机为Suspended)。

远程登录

健康检查

使用VIM提供的自动化巡检工具对云资源池进行健康检查。

远程登录

检查云资源使用情况

在VIM管理维护界面上查看云资源池整体资源使用情况和租户/项目的云资源使用情况,包括VCPU、内存、IP、存储等资源,资源使用量应小于配额的80%。

远程登录

检查VIM/PIM数据库运行状态

检查VIM/PIM所使用的数据库运行状态,包括数据库空间、数据库连接等。

远程登录

检查VIM接口状态

检查VIM与VNFM、NFVO交互接口状态

远程登录

系统备份检查

检查VIM/PIM的配置备份情况,实际数据备份的路径、备份时间与设置的备份策略相同。

远程登录

查看虚拟化厂家预警整改公告

检查虚拟化厂家是否有相关预警整改公告,是否需要进行相关软件版本升级。

远程登录

虚拟机检查

虚拟机CPU利用率

统计各虚拟机的cpu利用率,平均cpu利用率应<70%,且每天同一时段数值平稳,无异常波动。

远程登录

虚拟机内存利用率

统计各虚拟机的内存利用率,平均内存利用率应<70%。且每天同一时段数值平稳,无异常波动。

远程登录

虚拟机磁盘利用率

统计各虚拟机的磁盘利用率,磁盘利用率应<80%。

远程登录

虚拟机网卡性能

统计各虚拟机的网卡性能,流入/流出速率、收包/发包速率等指标在门限值以下,且每天同一时段数值平稳,无异常波动。

远程登录

安全检查

安全扫描及加固

定期对物理机进行合规、弱口令、漏洞等安全扫描,对扫描中发现的安全问题及时进行安全加固。

远程登录

密码修改

密码定期修改

按照安全管理要求定期修改物理机(包括操作系统、硬件管理口等)及VIM/PIM等系统密码,密码需满足安全强度要求。

季度

远程登录

容灾演练

资源池内容灾演练

通过计算节点故障、控制节点故障等典型故障场景模拟,进行资源池内部的容灾演练。

远程登录

 

2.2 边缘云故障管理服务

边缘云的故障管理是指对边缘云内部署的各类软硬件设备故障的发现、处理和通报的管理。第四十三条边缘云故障管理体系,包括:故障等级定义、故障联动处理机制、故障处理流程等,加强边缘云故障响应和处理能力,提升边缘云运行质量和维护水平,降低对业务应用的不良影响。

对于边缘云内部署的各类软硬件设备,应按照设备技术要求,实现全量告警的上报,实现统一管理。包括以下工作:

  • 对边缘云内部署的各类软硬件设备应做好7×24故障响应;
  • 按照“先抢通、后抢修”的故障处理原则,及时恢复边缘云服务能力;
  • 根据故障等级,及时通报。事后,要做好故障原因的分析,制定解决方案,采取预防措施,消除故障隐患。

2.3 边缘云分布式存储管理服务

边缘云资源池目前部署分布式块及对象存储服务,需具备分布式存储技术,应答方需对边缘云资源池内分布式存储设备、存储软件等对象提供技术支撑服务,服务内容包括但不限于以下内容:

  • 存储集群软硬件配置服务;
  • 存储物理服务器软硬件版本升级支撑服务;
  • 存储集群软硬件运行状态健康检查服务;
  • 存储集群的软硬件故障受理;
  • 存储集群容量分配管理服务。

2.4 边缘云网络运维服务

边缘云网络运维服务包含边缘云资源池内运维管理域及地市节点的基础网络,网络设备涉及华为、华三、中兴、锐捷等多种品牌交换机、防火墙等设备。应答方应负责存量及增量设备的维护工作。

应答方需要依据以上网络的覆盖范围提供以下运维服务:

  • 协助梳理边缘云资源池网络设备及网络运行质量入网验收规范
  • 按照验收标准验收存量设备是否符合规范
  • 分析边缘云网络现状,提供网络架构优化建议方案
  • 配合完成网络设备软硬件版本升级及日常网络割接
  • 负责网络故障响应及受理恢复服务
  • 网络资源及权限管理(IP地址、4a权限及资产配置管理等)
  • 完成网络运行状态的健康状况检查及巡检服务。

2.5 边缘云技术咨询服务

边缘云作为一种新兴而颇具挑战性的技术,具备分布广、节点多、技术多等特点。在其维护项目中应答方需提供专业的技术咨询服务以确保其稳定性和高效性。技术咨询服务包含以下工作内容:

  • 技术答疑。针对边缘云资源池的基本概念、架构和技术难题,为客户提供及时、准确的解答。
  • 技术方案编写。配合中国移动客户制定适用于特定边缘云资源池维护场景的技术方案,例如网络优化调整方案、资源池部署方案、安全策略方案等。

2.6 边缘云资产管理服务

对于边缘云资源池内部署的各类软硬件设备,应答方应按照设备技术要求将资源信息录入资源管理系统,完成资源信息的上传,并保证信息完整准确,实现统一管理。边缘云资源池内软硬件设备的分配、变更、回收及维护优化,应形成资源管理台账及报告,提供及时准确的资源数据,并定期开展资产稽核工作。

1、边缘云资产条目录入:运维团队对运维管理域相关资产进行录入,以及提供地市维护关于资源录入相关答疑

2、边缘云资产条目稽查:运维团队对运维管理域、地市节点相关资产进行稽查,提升数据准确性

3、边缘云资产条目更新:运维团队对运维管理域相关资产进行更新,以及提供地市维护关于资源更新相关答疑

4、边缘云资源数据稽查:运维团队对地市资源池业务资源定期开展稽查,督办资源数据整改,提升数据准确性。

2.7 边缘云容量管理服务

边缘云资源资源池容量管理工作,包括边缘云资源池内各类计算资源、存储资源、网络资源的数据的获取及分析、容量数据质量维护优化等。

应答方应配合广东移动建立并完善边缘云资源池容量管理机制,定期收集型边缘云容量需求,结合负荷管理要求、可用资源,完成容量评估和通报。

对边缘云资源池内容量进行持续实时监控,并分析形成容量管理报告,对容量问题进行判断,决定是否启动容量优化并形成容量优化方案。

容量管理服务主要包含以下工作内容:

  • 定期汇总资源池内计算/存储/网络资源现状,提供容量分析报告,协助进行容量规划和优化。
  • 预测计算/存储/网络资源需求,针对大型容量需求合理规划。
  • 定期采集资源使用状态,针对闲置主机进行主动下电等管控,提高节能管控能力。
  • 有效规划、配置、监控和优化计算、存储和网络资源,以满足业务需求,并确保系统的高性能和可用性,及时提出容量优化建议。