告警发出来之后,谁来查根因?
告警只能告诉你「坏了」,根因排查才是值班耗时的大头。本文拆解告警与排障之间的真空区,并介绍开源项目 catpaw:插件发现异常、事件引擎做去重与告警控制、告警触发后 AI 自动调用 70+ 诊断工具做根因初筛,把结构化报告与告警一起送达值班链路。
汇总 Flashcat 博客中与 监控告警 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
告警只能告诉你「坏了」,根因排查才是值班耗时的大头。本文拆解告警与排障之间的真空区,并介绍开源项目 catpaw:插件发现异常、事件引擎做去重与告警控制、告警触发后 AI 自动调用 70+ 诊断工具做根因初筛,把结构化报告与告警一起送达值班链路。
我是业务应用的 DEV 或 SRE,我的应用依赖了底层服务和基础设施,比如依赖基础网络、Kubernetes、MySQL、收银台服务,那这些基础服务如果出问题,我应该收告警吗?夜莺里有个订阅规则,是不是就是为此设计的?
CPU 负载高,到底应不应该告警?这个问题困扰了很多监控新手、老手。今天我们就来聊聊这个问题。