告警截图(商业版)

本文介绍夜莺监控事件管道中的告警截图处理器,包括适用场景、配置方法、参数说明和常见问题。

概述

告警截图(Alert Shot)是告警事件的一种增强处理器。它会在告警触发后,根据配置自动抓取目标页面或监控面板截图,并将图片信息附加到告警中,帮助值班人员更直观地判断问题范围和严重程度。

相比只看文本告警,截图可以让一线处理人员更快完成「识别问题 -> 定位上下文 -> 判断影响面」。

核心价值

1. 降低告警理解成本

收到告警后可直接查看关键页面快照,无需先手动打开系统确认现场状态。

2. 提升协作效率

截图可作为统一上下文,在 IM、工单、复盘中减少信息传递偏差。

3. 缩短故障处理链路

告警信息和现场画面同时到达,帮助值班人员更快判断是否需要升级处理。

使用场景

场景一:业务大盘异常告警

问题描述:核心业务指标触发告警后,希望通知中附带业务看板截图,便于快速确认是否为整体波动。

效果:值班人员在通知中即可看到关键图表趋势,减少来回切换页面的时间。

场景二:发布后质量巡检

问题描述:发布窗口内触发异常告警,希望自动附加发布监控页面截图,便于判断是否与发布相关。

效果:可快速区分“发布引发波动”与“外部因素波动”,提高处置准确性。

场景三:多团队协同排障

问题描述:跨团队告警升级时,接手方缺少统一现场信息。

效果:通过截图将同一时间点的现场状态同步给相关团队,减少沟通成本。

配置步骤

步骤 1:新增截图处理器

  • 进入【告警】-> 【工作流】菜单,新增工作流
  • 处理器类型选择"告警截图"

配置界面截图

步骤 2:配置截图参数

2.1 截图对象

  • 仪表盘:监控面板页面截图(可使用模板变量)。
  • URL类型:普通页面地址截图。如有必要,可设置 headers(用于认证等场景)。

配置界面截图

2.2 变量渲染

可在 URL/仪表盘链接中引用告警上下文变量。

支持引用告警事件的所有字段和标签。常用变量引用举例如下:

变量 说明
{{$event.rule_name}} 当前告警规则名称
{{$event.rule_id}} 当前告警规则id
{{$event.datasource_id}} 告警数据源 id

如果告警中携带了相关标签信息,可以引用标签,举例如下:

变量 说明
{{$labels.cluster}} 当前告警所属集群
{{$labels.service}} 当前告警所属服务
{{$labels.instance}} 当前告警实例(主机/Pod)
{{$labels.namespace}} 当前告警命名空间
{{$labels.region}} 当前告警地域标签
{{$labels.env}} 当前告警环境标签(prod/staging 等)

配置界面截图

2.3 截图超时时间

  • 超时时间:单次截图任务最大执行时长,超时后按失败处理
  • 截图超时,不影响告警消息发送

支持的通知媒介

告警截图的发送,依赖通知媒介支持图片消息。 目前,可以支持告警截图发送的通知媒介类型如下:

  • flashduty
  • 钉钉群机器人
  • 飞书群机器人
  • 微信群机器人
  • 钉钉应用
  • 飞书应用

最佳实践

1. 一条规则对应一类截图目标

将“业务总览截图”“服务详情截图”等拆分为多个处理器,便于维护和排查。

2. 关注访问权限

确保截图服务对目标页面具备访问权限,否则会出现空白图或登录页截图。

3. 与其他处理器组合

可与 Relabel、告警抑制、附加信息丰富等处理器组合,先规范标签,再截图并增强告警上下文。

常见问题

Q1:截图处理会影响告警发送时延吗?

A:会有一定影响。建议通过合理设置超时(超时时间不建议配置过长,避免影响告警时效性)、控制截图数量、优化目标页面加载速度来降低额外时延。

Q2:哪些告警适合使用截图?

A:建议优先用于需要“看趋势/看上下文”的告警类型,例如业务波动、发布质量、核心链路健康度等场景。

更新时间 2026-04-10

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云