Flashduty 支持了引擎失联告警功能,大幅提升可用性
巴辉特
2025-01-18 08:26:00
Flashduty 作为一个一站式告警平台,其核心功能是事件 OnCall,即对接各个监控系统(云上的、云下的、开源的、商业的),收集告警事件,然后统一做降噪、分发。去年我们扩展了 Flashduty 的功能,使其支持告警引擎,可以对接企业内部各类存储,做告警判定。
告警引擎的推出,让 Flashduty 的告警能力更为完整,相当于 Flashduty 不止是可以被动接收告警事件,还可以生成告警事件。通常一个公司都有多套监控系统,看图方面,可以利用 Grafana 做整合,告警方面,就可以利用 Flashduty 做整合了。
但是,Flashduty 告警引擎有一个问题,就是如果引擎本身出现问题,相关的数据源就都无法告警了,虽说我们可以通过 systemd 来自动拉起进程或者通过部署多个 monitedge 实例来做高可用,但总体缺失了一环:即引擎失联告警。今天,我们补上了这一环。
如上图,我们在告警引擎菜单里加了一个 tab,叫做“引擎失联告警”,用于管理引擎失联告警规则。你可以点击「新建」按钮,创建一个引擎失联告警规则:
里边各个字段都已经填充了默认值,你可以根据实际情况修改,大部分字段见名知意,个别字段右侧带有小问号的 icon,提供了 tooltip 说明。我们可以维持默认配置,只是在最下面配置告警要推给哪个协作空间即可。至于事件进入协作空间之后如何发送,那就取决于协作空间内部的分派规则了。
这样一来,Flashduty 就可以在引擎失联的情况下,自动发出告警,通知相关人员,让他们尽快处理。Flashduty 这种告警机制比较创新,云上云下联动,欢迎注册体验,注册即送两周的免费试用时间:https://flashcat.cloud/product/flashduty/。