对于支撑保障多机房多公司多业务线且多地产研中心的IT团队来说,一个事件管理器虽然简单但有效。
设计事件管理器的目的是,当有莫名其妙的事情发生的时候(比如近期没有任何上线的情况下突然应用大面积告警),能以最快速度发现大家都对生产系统做了哪些变更,而不是一个人一个人去问。在事件管理器这么一个集中事件门户里找到可疑线索之后,我们再去相应系统里查看详情。当然如果你有根因分析(AIOps)的话,那自然更妙。
它有点类似于阿里云的云监控(https://t.cn/A6JGpVAE)里的“事件库”的角色。总之是精细化接入和管理混合云各个业务线的线上变更,一定要细化所有的变更,不能只上报了一堆信息,但跟业务线没挂上钩。这个事情的关键是真正做到变更一站式查看和管理,不要有遗漏。
不同系统上由人或程序(包括阿里云的系统程序)做出的非计划性的变更操作,统一上报到事件管理器中,统一展示,方便所有人知道所有人都做了什么操作。
举例,在一次“Rotter同步造成15000端口获取不到连接”事件中,如果能一站式地、及时地看到有人在异地双活控制台上对Rotter做出的变更操作,当应用程序因此无法获取到Redis连接而告警的时候,保障人员就能知道第一时间该怎么做。
举例,在一次批量刷库影响生产系统的事件中,iDB(注:我们六年前就上线运转的数据库自动化运维平台)就要通知到事件管理器,免得四处问才知道谁做了什么高风险操作。
设计事件管理器的目的是,当有莫名其妙的事情发生的时候(比如近期没有任何上线的情况下突然应用大面积告警),能以最快速度发现大家都对生产系统做了哪些变更,而不是一个人一个人去问。在事件管理器这么一个集中事件门户里找到可疑线索之后,我们再去相应系统里查看详情。当然如果你有根因分析(AIOps)的话,那自然更妙。
它有点类似于阿里云的云监控(https://t.cn/A6JGpVAE)里的“事件库”的角色。总之是精细化接入和管理混合云各个业务线的线上变更,一定要细化所有的变更,不能只上报了一堆信息,但跟业务线没挂上钩。这个事情的关键是真正做到变更一站式查看和管理,不要有遗漏。
不同系统上由人或程序(包括阿里云的系统程序)做出的非计划性的变更操作,统一上报到事件管理器中,统一展示,方便所有人知道所有人都做了什么操作。
举例,在一次“Rotter同步造成15000端口获取不到连接”事件中,如果能一站式地、及时地看到有人在异地双活控制台上对Rotter做出的变更操作,当应用程序因此无法获取到Redis连接而告警的时候,保障人员就能知道第一时间该怎么做。
举例,在一次批量刷库影响生产系统的事件中,iDB(注:我们六年前就上线运转的数据库自动化运维平台)就要通知到事件管理器,免得四处问才知道谁做了什么高风险操作。
【中国信通院牵头的智能运维(AIOps)国际标准内容持续输出完善】2021年11月29日至12月10日,国际电信联盟第十三研究组(简称ITU-T SG13)召开全体会议,来自中国、美国、德国、巴西、西班牙、俄罗斯、瑞士、加拿大、英国、韩国、日本等20多个国家的百余名代表参加了此次为期两周的线上会议。https://t.cn/A6xrVbzi
【5小时工作2分钟搞定!AIOps带你飞】Cincinatti Bell的子公司CBTS为企业客户提供通信服务。CBTS 曾经只代表“Cincinnati Bell技术解决方案”,但随着公司扩展到其他地区,它现在代表着整个“咨询构建转型支持”,该公司的首席创新官Joe Putnick说。
他表示,使用AIOps对于改善反应时间至关重要,而且现在它带来了新商机。例如,在公司使用AIOps之前,将客户设备引入CBTS的监控、管理和计费系统需要数小时、数天甚至失败。https://t.cn/A6x9e9uu
他表示,使用AIOps对于改善反应时间至关重要,而且现在它带来了新商机。例如,在公司使用AIOps之前,将客户设备引入CBTS的监控、管理和计费系统需要数小时、数天甚至失败。https://t.cn/A6x9e9uu
✋热门推荐