告警截圖處理器(Alert Shot)— 告警觸發後自動擷取儀表板或 URL 截圖並附加到告警中。
概述
告警截圖(Alert Shot)是告警事件的一種增強處理器。它會在告警觸發後,根據設定自動擷取目標頁面或監控面板截圖,並將圖片資訊附加到告警中,協助值班人員更直觀地判斷問題範圍與嚴重程度。
相比只看文字告警,截圖可以讓一線處理人員更快完成「辨識問題 -> 定位上下文 -> 判斷影響面」。
核心價值
1. 降低告警理解成本
收到告警後可直接檢視關鍵頁面快照,無需先手動開啟系統確認現場狀態。
2. 提升協作效率
截圖可作為統一上下文,在 IM、工單、回顧中減少資訊傳遞偏差。
3. 縮短故障處理鏈路
告警資訊與現場畫面同時到達,協助值班人員更快判斷是否需要升級處理。
使用場景
場景一:業務大盤異常告警
問題描述:核心業務指標觸發告警後,希望通知中附帶業務看板截圖,便於快速確認是否為整體波動。
效果:值班人員在通知中即可看到關鍵圖表趨勢,減少來回切換頁面的時間。
場景二:發布後品質巡檢
問題描述:發布視窗內觸發異常告警,希望自動附加發布監控頁面截圖,便於判斷是否與發布相關。
效果:可快速區分「發布引發波動」與「外部因素波動」,提升處置準確性。
場景三:多團隊協同排障
問題描述:跨團隊告警升級時,接手方缺少統一現場資訊。
效果:透過截圖將同一時間點的現場狀態同步給相關團隊,減少溝通成本。
設定步驟
步驟 1:新增截圖處理器
- 進入【告警】->【事件處理流水線】選單,新增流水線
- 處理器類型選擇「告警截圖」

步驟 2:設定截圖參數
2.1 截圖物件
- 儀表板:監控面板頁面截圖(可使用範本變數)。
- URL 類型:普通頁面位址截圖。如有必要,可設定 headers(用於認證等場景)。

2.2 變數渲染
可在 URL/儀表板連結中引用告警上下文變數。
支援引用告警事件的所有欄位與標籤。常用變數引用舉例如下:
| 變數 | 說明 |
|---|---|
{{$event.rule_name}} |
目前告警規則名稱 |
{{$event.rule_id}} |
目前告警規則 id |
{{$event.datasource_id}} |
告警資料來源 id |
如果告警中攜帶了相關標籤資訊,可以引用標籤,舉例如下:
| 變數 | 說明 |
|---|---|
{{$labels.cluster}} |
目前告警所屬叢集 |
{{$labels.service}} |
目前告警所屬服務 |
{{$labels.instance}} |
目前告警實例(主機/Pod) |
{{$labels.namespace}} |
目前告警命名空間 |
{{$labels.region}} |
目前告警地域標籤 |
{{$labels.env}} |
目前告警環境標籤(prod/staging 等) |

2.3 截圖逾時時間
- 逾時時間:單次截圖任務最大執行時長,逾時後按失敗處理
- 截圖逾時,不影響告警訊息傳送
支援的通知媒介
告警截圖的傳送,依賴通知媒介支援圖片訊息。 目前,可以支援告警截圖傳送的通知媒介類型如下:
- flashduty
- 釘釘群機器人
- 飛書群機器人
- 微信群機器人
- 釘釘應用
- 飛書應用
最佳實踐
1. 一條規則對應一類截圖目標
將「業務總覽截圖」「服務詳情截圖」等拆分為多個處理器,便於維護與排查。
2. 關注存取權限
確保截圖服務對目標頁面具備存取權限,否則會出現空白圖或登入頁截圖。
3. 與其他處理器組合
可與 Relabel、告警抑制、附加資訊增強等處理器組合,先規範標籤,再截圖並增強告警上下文。
常見問題
Q1:截圖處理會影響告警傳送時延嗎?
A:會有一定影響。建議透過合理設定逾時(逾時時間不建議設定過長,避免影響告警時效性)、控制截圖數量、最佳化目標頁面載入速度來降低額外時延。
Q2:哪些告警適合使用截圖?
A:建議優先用於需要「看趨勢/看上下文」的告警類型,例如業務波動、發布品質、核心鏈路健康度等場景。