事件墙系统最佳实践
据统计70%左右的事故都是由变更引起的,因此,故障定位过程中高优查看相关变更事件,是有效的故障定位手段之一。Flashcat的事件墙即为汇聚故障定位所需的关键事件设计
最佳实践
据统计70%左右的事故都是由变更引起的,因此,故障定位过程中高优查看相关变更事件,是有效的故障定位手段之一。
Flashcat的事件墙即为汇聚故障定位所需的关键事件设计。基于事件墙的故障定位最佳实践举例如下:
- 北极星报警发现故障后,观察灭火图状态,确定异常的模块。
- 在模块的卡片点击调出模块的关联信息(配置方式见灭火图系统)。或直接进入事件墙系统,筛选该业务及相关模块的事件集合。
- 如有变更事件的时间和北极星报警时间match或相近,立即通知相关人员回滚变更。
- 观察相关业务和相关模块的报警事件,查看是否有严重的报警发生,如实例资源耗尽、服务器宕机等,针对性的采取止损操作。