告警截图(商业版)
概述
告警截图(Alert Shot)是告警事件的一种增强处理器。它会在告警触发后,根据配置自动抓取目标页面或监控面板截图,并将图片信息附加到告警中,帮助值班人员更直观地判断问题范围和严重程度。
相比只看文本告警,截图可以让一线处理人员更快完成「识别问题 -> 定位上下文 -> 判断影响面」。
核心价值
1. 降低告警理解成本
收到告警后可直接查看关键页面快照,无需先手动打开系统确认现场状态。
2. 提升协作效率
截图可作为统一上下文,在 IM、工单、复盘中减少信息传递偏差。
3. 缩短故障处理链路
告警信息和现场画面同时到达,帮助值班人员更快判断是否需要升级处理。
使用场景
场景一:业务大盘异常告警
问题描述:核心业务指标触发告警后,希望通知中附带业务看板截图,便于快速确认是否为整体波动。
效果:值班人员在通知中即可看到关键图表趋势,减少来回切换页面的时间。
场景二:发布后质量巡检
问题描述:发布窗口内触发异常告警,希望自动附加发布监控页面截图,便于判断是否与发布相关。
效果:可快速区分“发布引发波动”与“外部因素波动”,提高处置准确性。
场景三:多团队协同排障
问题描述:跨团队告警升级时,接手方缺少统一现场信息。
效果:通过截图将同一时间点的现场状态同步给相关团队,减少沟通成本。
配置步骤
步骤 1:新增截图处理器
- 进入【告警】-> 【工作流】菜单,新增工作流
- 处理器类型选择"告警截图"

步骤 2:配置截图参数
2.1 截图对象
- 仪表盘:监控面板页面截图(可使用模板变量)。
- URL类型:普通页面地址截图。如有必要,可设置 headers(用于认证等场景)。

2.2 变量渲染
可在 URL/仪表盘链接中引用告警上下文变量。
支持引用告警事件的所有字段和标签。常用变量引用举例如下:
| 变量 | 说明 |
|---|---|
{{$event.rule_name}} |
当前告警规则名称 |
{{$event.rule_id}} |
当前告警规则id |
{{$event.datasource_id}} |
告警数据源 id |
如果告警中携带了相关标签信息,可以引用标签,举例如下:
| 变量 | 说明 |
|---|---|
{{$labels.cluster}} |
当前告警所属集群 |
{{$labels.service}} |
当前告警所属服务 |
{{$labels.instance}} |
当前告警实例(主机/Pod) |
{{$labels.namespace}} |
当前告警命名空间 |
{{$labels.region}} |
当前告警地域标签 |
{{$labels.env}} |
当前告警环境标签(prod/staging 等) |

2.3 截图超时时间
- 超时时间:单次截图任务最大执行时长,超时后按失败处理
- 截图超时,不影响告警消息发送
支持的通知媒介
告警截图的发送,依赖通知媒介支持图片消息。 目前,可以支持告警截图发送的通知媒介类型如下:
- flashduty
- 钉钉群机器人
- 飞书群机器人
- 微信群机器人
- 钉钉应用
- 飞书应用
最佳实践
1. 一条规则对应一类截图目标
将“业务总览截图”“服务详情截图”等拆分为多个处理器,便于维护和排查。
2. 关注访问权限
确保截图服务对目标页面具备访问权限,否则会出现空白图或登录页截图。
3. 与其他处理器组合
可与 Relabel、告警抑制、附加信息丰富等处理器组合,先规范标签,再截图并增强告警上下文。
常见问题
Q1:截图处理会影响告警发送时延吗?
A:会有一定影响。建议通过合理设置超时(超时时间不建议配置过长,避免影响告警时效性)、控制截图数量、优化目标页面加载速度来降低额外时延。
Q2:哪些告警适合使用截图?
A:建议优先用于需要“看趋势/看上下文”的告警类型,例如业务波动、发布质量、核心链路健康度等场景。