告警OnCall事件中心建设方法白皮书

白皮书简介

传统监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,如何系统性的来解决这个刚需问题,欢迎下载《告警OnCall事件中心建设方法白皮书》,共同探讨。
下载

白皮书导读

市面上有众多监控系统,刨去商业软件不说,开源的就有Nagios、Zabbix、Open-Falcon、Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云监控、腾讯云的云监控、阿里云的云监控,甚至有些云厂商会提供多个割裂的监控系统,比如阿里云不但有云监控,还有 ARMS,还有 SLS。

大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的Zabbix,Kubernetes 的监控可能用的 Prometheus(Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale,日志的监控可能用的 Elastalert,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。

监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。

对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分别进行探讨。总结了一本关于OnCall值班平台建设的小册子,下载地址如上,欢迎查阅哈。

开源版
Flashcat
Flashduty