夜莺监控 v8 告警规则很好用,是不是就不需要 FlashDuty 了?
夜莺 v8 从 beta7 版本开始,抽象了通知规则的概念,可以非常方便的配置各种通知媒介,比如钉钉、短信、电话等。而且还有非常通用的 HTTP、脚本 通知方式,可以对接所有的告警通知方式,那从这个版本开始,是不是就不需要 FlashDuty 了呢?
这要分多种情况来看:
- 如果贵司所有告警都使用夜莺来生成、发送,并且对告警降噪、排班、认领升级等功能没有强需求,那么只使用夜莺就足够了。
- 如果贵司不止是有夜莺一套监控系统,还有 Zabbix、Prometheus、各类云监控等,那么 FlashDuty 就是一个非常好的选择,可以统一所有告警到 FlashDuty 来处理。
- 如果贵司告警规则都统一到夜莺来管理了,但是对告警降噪、排班、认领升级等功能有强需求,那么 FlashDuty 也是一个非常好的选择。
核心是这俩软件的定位不同:
- 夜莺是一个监控系统,侧重在监控数据采集、存储、可视化、告警事件生成,对于事件的后续处理,不如 FlashDuty 来的强大。
- FlashDuty 侧重在告警事件生成之后的后续处理,因为监控系统很多,各个监控系统对告警事件的后续处理没有那么强大,FlashDuty 就是为了解决这个问题而生的。
之前在夜莺群里和各位群友交流,发现绝大部分中大型公司都不止是一套监控系统,可能会同时使用 Zabbix、云监控(如果是多云环境,那就是多套云监控)、Prometheus 或 夜莺,告警事件散落各处,这时候 FlashDuty 就是一个非常好的选择,可以统一所有告警到 FlashDuty 来处理。
实际上,有些商业软件,也会自带监控系统,比如 OceanBase、比如 TiDB(每套 TiDB 一般都内置一个 Prometheus 和 Grafana),这些软件核心考虑的是能够自闭环所有功能,但是不考虑公司希望统一的诉求,导致告警事件更为散乱,这也意味着,告警分配规则散落各处、邮件等人员信息散落各处。如果老板问运维总监,当前咱们有哪些重要告警尚未被处理?运维总监很难回答这个问题。FlashDuty 就是为了解决这个问题而生的。
很多公司都希望把监控系统统一化,比如之前跟快手交流,内部有 20 多套监控系统,那从哪里着手?有两个点相对容易,一个是可视化,全部使用 Grafana,另一个就是告警事件分发,统一使用 FlashDuty 这样的产品。上图是 FlashDuty 支持对接的监控系统,可以看看你们公司用了哪些。
即便是云监控,比如阿里云,也有多套,比如基础资源监控、ARMS、SLS 等,别着急骂云厂商想不清楚就上线,部门之间没有互通有无,实际这是常态,也是现状,其他云厂商也是类似的。作为普通用户,咱们也主导不了云厂商的产品规划,但是可以通过 FlashDuty 来统一告警事件。
FlashDuty 产品介绍和试用地址如下:
结语
真正的运维革命,不是让工程师 24 小时待命,而是让系统替你时刻清醒。