夜莺-Nightingale
夜莺V7
项目介绍 功能概览
部署升级 部署升级
数据接入 数据接入
告警管理 告警管理
数据查看 数据查看
功能介绍 功能介绍
数据库表结构 数据库表结构
API FAQ
夜莺V6
项目介绍 架构介绍
快速开始 快速开始
黄埔营
安装部署 安装部署
升级
采集器 采集器
使用手册 使用手册
API API
数据库表结构 数据库表结构
FAQ FAQ
开源生态
Prometheus
版权声明
第1章:天降奇兵 第1章:天降奇兵
第2章:探索PromQL 第2章:探索PromQL
第3章:Prometheus告警处理 第3章:Prometheus告警处理
第4章:Exporter详解 第4章:Exporter详解
第5章:数据与可视化 第5章:数据与可视化
第6章:集群与高可用 第6章:集群与高可用
第7章:Prometheus服务发现 第7章:Prometheus服务发现
第8章:监控Kubernetes 第8章:监控Kubernetes
第9章:Prometheus Operator 第9章:Prometheus Operator
参考资料

告警截图(商业版)

概述

告警截图(Alert Shot)是告警事件的一种增强处理器。它会在告警触发后,根据配置自动抓取目标页面或监控面板截图,并将图片信息附加到告警中,帮助值班人员更直观地判断问题范围和严重程度。

相比只看文本告警,截图可以让一线处理人员更快完成「识别问题 -> 定位上下文 -> 判断影响面」。

核心价值

1. 降低告警理解成本

收到告警后可直接查看关键页面快照,无需先手动打开系统确认现场状态。

2. 提升协作效率

截图可作为统一上下文,在 IM、工单、复盘中减少信息传递偏差。

3. 缩短故障处理链路

告警信息和现场画面同时到达,帮助值班人员更快判断是否需要升级处理。

使用场景

场景一:业务大盘异常告警

问题描述:核心业务指标触发告警后,希望通知中附带业务看板截图,便于快速确认是否为整体波动。

效果:值班人员在通知中即可看到关键图表趋势,减少来回切换页面的时间。

场景二:发布后质量巡检

问题描述:发布窗口内触发异常告警,希望自动附加发布监控页面截图,便于判断是否与发布相关。

效果:可快速区分“发布引发波动”与“外部因素波动”,提高处置准确性。

场景三:多团队协同排障

问题描述:跨团队告警升级时,接手方缺少统一现场信息。

效果:通过截图将同一时间点的现场状态同步给相关团队,减少沟通成本。

配置步骤

步骤 1:新增截图处理器

  • 进入【告警】-> 【工作流】菜单,新增工作流
  • 处理器类型选择"告警截图"

配置界面截图

步骤 2:配置截图参数

2.1 截图对象

  • 仪表盘:监控面板页面截图(可使用模板变量)。
  • URL类型:普通页面地址截图。如有必要,可设置 headers(用于认证等场景)。

配置界面截图

2.2 变量渲染

可在 URL/仪表盘链接中引用告警上下文变量。

支持引用告警事件的所有字段和标签。常用变量引用举例如下:

变量 说明
{{$event.rule_name}} 当前告警规则名称
{{$event.rule_id}} 当前告警规则id
{{$event.datasource_id}} 告警数据源 id

如果告警中携带了相关标签信息,可以引用标签,举例如下:

变量 说明
{{$labels.cluster}} 当前告警所属集群
{{$labels.service}} 当前告警所属服务
{{$labels.instance}} 当前告警实例(主机/Pod)
{{$labels.namespace}} 当前告警命名空间
{{$labels.region}} 当前告警地域标签
{{$labels.env}} 当前告警环境标签(prod/staging 等)

配置界面截图

2.3 截图超时时间

  • 超时时间:单次截图任务最大执行时长,超时后按失败处理
  • 截图超时,不影响告警消息发送

支持的通知媒介

告警截图的发送,依赖通知媒介支持图片消息。 目前,可以支持告警截图发送的通知媒介类型如下:

  • flashduty
  • 钉钉群机器人
  • 飞书群机器人
  • 微信群机器人
  • 钉钉应用
  • 飞书应用

最佳实践

1. 一条规则对应一类截图目标

将“业务总览截图”“服务详情截图”等拆分为多个处理器,便于维护和排查。

2. 关注访问权限

确保截图服务对目标页面具备访问权限,否则会出现空白图或登录页截图。

3. 与其他处理器组合

可与 Relabel、告警抑制、附加信息丰富等处理器组合,先规范标签,再截图并增强告警上下文。

常见问题

Q1:截图处理会影响告警发送时延吗?

A:会有一定影响。建议通过合理设置超时(超时时间不建议配置过长,避免影响告警时效性)、控制截图数量、优化目标页面加载速度来降低额外时延。

Q2:哪些告警适合使用截图?

A:建议优先用于需要“看趋势/看上下文”的告警类型,例如业务波动、发布质量、核心链路健康度等场景。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云