用截图页面丰富告警内容

Flashcat技术 2025-05-06 11:00:00

告警的治理和优化一直是监控和可观测性方向的一个难题,涉及的问题可能包括:告警降噪、告警排班、告警抑制等。

本文聚焦告警优化的另一个问题:通知内容的丰富和引导。

当收到一条或大量有效的告警时,技术人员第一时间其实会想知道,或应该知道:

  • 除了告警的这些点报出的异常外,整体系统还有没有别的异常同时在发生?
  • 告警很多,异常很多,在整个系统上都是怎么分布的?

掌握这些信息,将有利于技术人员从全局入手去分析问题,快速确定问题处理的方案,特别是出现重要故障时。

Flashcat 提供了一个截图推送的功能,可在系统出现异常或触发重要告警时,将观测系统里的某个页面截图发送到IM群,并引导用户从这个截图页面进入观测系统,进行下一步的分析定位。

目前Flashcat可以发送截图的页面包括北极星、灭火图、SLO、AI巡检报告,后面还会继续增加。 其中灭火图的截图推送功能最为丰富,这里以灭火图为例来介绍这个功能的使用。

截图推送任务

灭火图是Flashcat中用于观测和量化整个IT系统健康状态的产品,详细介绍 -> 一张图掌握系统健康状态

Flashcat 推荐的告警处理流程,特别是故障处理流程,是第一时间查看灭火图,先掌握整体的异常影响范围,再从圈定的异常点下钻追查问题。

当异常出现或告警触发时可以把灭火图首页或相应子系统的灭火图页面截图发送出来,方便用户快速感知全局的异常,并引导用户进入观测系统进行排查分析。

任务入口

任务详情

截图任务触发方式

截图任务的触发支持两种方式:定时触发 和 异常触发。

  • 定时触发:就是设定具体的时间和周期,到时间即发出所选页面的截图。这种方式适用于日常巡检,比如每天9:00发出各子系统的灭火图状态到各技术团队,以引导团队进入系统进行巡检。
  • 异常触发:即灭火图中的异常达到某个条件就触发,如异常(飘红)的卡片数达到某个数值/比例,或出现了新的异常卡片。

定时触发

异常触发

截图推送任务效果

IM群中发出的截图效果: 截图效果

技术人员可以从IM群中消息的链接直接进入系统进行查看和排查,也可以直接计入任务,查看和修改任务详情。

立即执行和回调

截图推送任务还支持手动触发和调用API立即触发,这两种触发方式都相当于任务中的触发条件立即满足,所选中的页面截图会立即发出。

任务列表

API接口地址推荐配置在相关告警规则的回调里,一旦相应的告警触发,就能自动回调触发截图任务,把截图页面发送出来。

手动立即执行,发出的截图效果如下,推送信息中标识了触发的方式: 任务列表

总结

Flashcat 截图推送任务可以用截图的方式丰富告警发出的内容,并引导用户进入系统进行问题追查。尤其方便技术人员或管理者在手机上观察告警和系统状态。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat