2020-03-23 10:51:32
来源:CZKJ科技
当指挥中心显控系统运行异常时,该如何处理?
传统的处理方式:首先召集各个运维岗位进行自检,查看各自负责的设备、应用组件、系统是否运行正常。如果没有发现问题,则召集设备提供商、系统开发商、系统集成商一起对系统进行“会诊”,查找故障原因,整个流程常常会超过一周时间。所以,传统运维部门常常被称为“救火”队员,依靠人工巡检的工作方式,不但工作被动,而且效率低下。因此,分布式系统除了应符合我们之前提到六大标准外,还需要为用户提供智能化的运维管理服务,也就是今日与大家分享的判别分布式系统优劣的第七大标准。
七看运维管理
专业的运维管理解决方案涵盖如下要点:
1.动态展示系统连接的拓扑图
与分布式相关的周边系统,尤其是网络系统,都与最终画面上屏的响应速度、图像质量、操作延迟、拼接同步性等效果息息相关。分布式节点通过交换机、路由器等网络设备连接,任何一个网络节点故障、掉线,都会使得某路画面黑屏,这时需要能够及时定位到故障点,才可以在最短时间内解决网络故障。
2.图形化查看设备详细运行指标
3.具备故障告警与预警提示
4.建立完善并有记录的运维工作流程
拥有了设备的监测与告警,用户可以最短时间内掌握系统故障点,但如何解决这些故障,依旧是一个值得深究的问题。分布式系统具有无限的扩展性与覆盖度,往往部署在大地域中。管理分布式的运维人员也常常不是一个人,而是上下级单位、各个机构多人配合。
效率最高的运维解决方案是多人分工配合,如管理员在指挥中心对整个分布式系统监管,发现故障点后,远程指导操作员实际到现场处理,并可通过系统实时判断问题是否解决。这就需要分布式系统提供一个科学的运维工作流程,从发现问题、派工单下发、到现场解决与问题反馈,运维人员只需按照标准化的运维流程来操作,并在系统内记录相关工作信息,即可高效率的完成运维管理工作。
5.覆盖系统级别的统计与分析
真正的分布式运维管理是一门系统性的科学与工作,应该做到“精细化运维”。所谓“精细化运维”,即不仅仅对设备运行状态进行监管,也要收集并记录运维工作流中的告警响应时间、工单解决时间、故障处理时间等信息,同时通过数据的挖掘与关联,对各类设备的故障率、高风险参数、视频质量影响率等进行分析,生成综合性的多维度系统运行报表,帮助用户持续改善分布式系统的运维管理工作与应用方式。
没有运维管理的业务系统相当于人体失去了免疫系统,不仅无法预防系统风险,而且系统的安全性、稳定性完全不受保障……只有具备专业智能化运维管理的分布式系统,才是真正完整、可靠的分布式系统。