Flashcat 统一观测平台,告警能力详细介绍

快猫星云 2023年4月24日

Flashcat 统一观测平台,在告警引擎的建设上,提供了诸多灵活配置能力,而且具备多样的告警策略,不但支持 promql 阈值告警,丝滑的机器告警,还支持日志告警引擎、智能告警引擎,满足所有的告警需求。下面我们来看一下 Flashcat 告警平台是怎么做的。

灵活的告警策略

20230424113900

告警规则支持名称、备注这都不稀奇。Flashcat 告警引擎,还支持附加标签,可以让告警事件具备更丰富的维度信息。比如通过附加标签给告警事件附加部门信息、团队信息,后面就可以根据部门、团队信息做统计,做事件订阅。而且,标题、附加标签、备注,全部支持变量。

20230424114148

一条告警规则,可以生效到所有数据源,调整的时候也只需要调整一个地方的配置,不需要像 Prometheus 那样修改很多个 yaml 文件。告警条件支持抑制,高级别的告警可以抑制低级别的告警。PromQL的编写支持新手模式,可以简化编写过程,当然了,常见的告警规则都已内置,无需自己手工创建。

20230424114749

生效配置,支持生效到不同的多个时间段,也可以支持不同时段不同阈值。

20230424114913

支持常见的通知媒介,默认没有支持的通知媒介,比如电话、短信(因为接口不固定,没法内置支持),也可以通过配置和脚本自行配置出来,不需要做 go 代码二次开发,大幅降低了接入难度。支持留观时长、重复通知间隔、最大发送次数等诸多灵活配置。

可以关联多个回调地址,和不同的多个外部系统打通。附加信息也可以附加多个,最典型的场景是预案链接,当然,也支持附加自定义字段,这个功能给灵活性提供了很大的想象空间。

机器失联告警

20230424114553

在拉模式下,目标失联是很容易发现的,up != 1 就可以了,在推模式下就比较麻烦了,Flashcat 告警引擎内置了机器失联告警,而且支持失联比例告警以及时间偏移告警,极大的简化了发现机器异常的场景。

日志告警

Flashcat 中管理了人员联系方式,有业务组、权限、团队信息,告警规则也有良好的框架,所以很多人希望能够在 Flashcat 中一并管理日志告警。现在我们也提供了这个功能,作为商业模块,可以对接 ElasticSearch、阿里云 SLS、腾讯云 CLS 等存储,对日志做查询告警。该模块性价比极高,可以联系我们了解产品并试用。

20230424115733

智能告警引擎

Flashcat 提供智能告警引擎,通过算法回溯训练历史数据,对未来数据做预测,及时发现数据异常。智能告警模块可以和开源夜莺无缝集成,架构图如下。

20230424120036

训练效果图如下:

20230424120109

智能告警引擎是一个商业模块,性价比极高,如有兴趣可以联系我们 交流试用

告警屏蔽

告警屏蔽规则或者说告警静默规则,也是告警引擎的必备能力,比如告警屏蔽,我们支持固定时段的屏蔽,也支持大家心心念念的周期屏蔽,可以根据事件源屏蔽,也可以根据事件标签屏蔽。

20230424121518

告警订阅分组

20230424121542

订阅规则引入了“订阅事件持续时长超过(秒)”的配置,这个功能很酷,一定程度上可以实现告警升级的功能,不过相比完备的告警升级,还是差点意思,没有认领、排班之类的功能,如果想建立统一的告警事件中心,接收各类监控系统的告警事件,统一做告警降噪、认领、升级、排班、协同等功能,请使用我们的 FlashDuty,FlashDuty是SaaS版本的OnCall中心,有免费套餐可用~

另外,订阅规则可以重新定义回调地址,可以对一些特定的告警事件做自动化处理,比如把特定的告警事件发给FlashDuty~~

开源版
Flashcat
Flashduty