夜莺-Nightingale
夜莺V7
项目介绍 功能概览
部署升级 部署升级
数据接入 数据接入
告警管理 告警管理
数据查看 数据查看
功能介绍 功能介绍
API FAQ
夜莺V6
项目介绍 架构介绍
快速开始 快速开始
黄埔营
安装部署 安装部署
升级
采集器 采集器
使用手册 使用手册
API API
数据库表结构 数据库表结构
FAQ FAQ
开源生态
Prometheus
版权声明
第1章:天降奇兵 第1章:天降奇兵
第2章:探索PromQL 第2章:探索PromQL
第3章:Prometheus告警处理 第3章:Prometheus告警处理
第4章:Exporter详解 第4章:Exporter详解
第5章:数据与可视化 第5章:数据与可视化
第6章:集群与高可用 第6章:集群与高可用
第7章:Prometheus服务发现 第7章:Prometheus服务发现
第8章:监控Kubernetes 第8章:监控Kubernetes
第9章:Prometheus Operator 第9章:Prometheus Operator
参考资料

事件墙系统最佳实践

最佳实践

据统计70%左右的事故都是由变更引起的,因此,故障定位过程中高优查看相关变更事件,是有效的故障定位手段之一。
Flashcat的事件墙即为汇聚故障定位所需的关键事件设计。基于事件墙的故障定位最佳实践举例如下:

  1. 北极星报警发现故障后,观察灭火图状态,确定异常的模块。
  2. 在模块的卡片点击调出模块的关联信息(配置方式见灭火图系统)。或直接进入事件墙系统,筛选该业务及相关模块的事件集合。
  3. 如有变更事件的时间和北极星报警时间match或相近,立即通知相关人员回滚变更。
  4. 观察相关业务和相关模块的报警事件,查看是否有严重的报警发生,如实例资源耗尽、服务器宕机等,针对性的采取止损操作。
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat