告警截圖處理器(Alert Shot)— 告警觸發後自動擷取儀表板或 URL 截圖並附加到告警中。

概述

告警截圖(Alert Shot)是告警事件的一種增強處理器。它會在告警觸發後,根據設定自動擷取目標頁面或監控面板截圖,並將圖片資訊附加到告警中,協助值班人員更直觀地判斷問題範圍與嚴重程度。

相比只看文字告警,截圖可以讓一線處理人員更快完成「辨識問題 -> 定位上下文 -> 判斷影響面」。

核心價值

1. 降低告警理解成本

收到告警後可直接檢視關鍵頁面快照,無需先手動開啟系統確認現場狀態。

2. 提升協作效率

截圖可作為統一上下文,在 IM、工單、回顧中減少資訊傳遞偏差。

3. 縮短故障處理鏈路

告警資訊與現場畫面同時到達,協助值班人員更快判斷是否需要升級處理。

使用場景

場景一:業務大盤異常告警

問題描述:核心業務指標觸發告警後,希望通知中附帶業務看板截圖,便於快速確認是否為整體波動。

效果:值班人員在通知中即可看到關鍵圖表趨勢,減少來回切換頁面的時間。

場景二:發布後品質巡檢

問題描述:發布視窗內觸發異常告警,希望自動附加發布監控頁面截圖,便於判斷是否與發布相關。

效果:可快速區分「發布引發波動」與「外部因素波動」,提升處置準確性。

場景三:多團隊協同排障

問題描述:跨團隊告警升級時,接手方缺少統一現場資訊。

效果:透過截圖將同一時間點的現場狀態同步給相關團隊,減少溝通成本。

設定步驟

步驟 1:新增截圖處理器

  • 進入【告警】->【事件處理流水線】選單,新增流水線
  • 處理器類型選擇「告警截圖」

設定介面截圖

步驟 2:設定截圖參數

2.1 截圖物件

  • 儀表板:監控面板頁面截圖(可使用範本變數)。
  • URL 類型:普通頁面位址截圖。如有必要,可設定 headers(用於認證等場景)。

設定介面截圖

2.2 變數渲染

可在 URL/儀表板連結中引用告警上下文變數。

支援引用告警事件的所有欄位與標籤。常用變數引用舉例如下:

變數 說明
{{$event.rule_name}} 目前告警規則名稱
{{$event.rule_id}} 目前告警規則 id
{{$event.datasource_id}} 告警資料來源 id

如果告警中攜帶了相關標籤資訊,可以引用標籤,舉例如下:

變數 說明
{{$labels.cluster}} 目前告警所屬叢集
{{$labels.service}} 目前告警所屬服務
{{$labels.instance}} 目前告警實例(主機/Pod)
{{$labels.namespace}} 目前告警命名空間
{{$labels.region}} 目前告警地域標籤
{{$labels.env}} 目前告警環境標籤(prod/staging 等)

設定介面截圖

2.3 截圖逾時時間

  • 逾時時間:單次截圖任務最大執行時長,逾時後按失敗處理
  • 截圖逾時,不影響告警訊息傳送

支援的通知媒介

告警截圖的傳送,依賴通知媒介支援圖片訊息。 目前,可以支援告警截圖傳送的通知媒介類型如下:

  • flashduty
  • 釘釘群機器人
  • 飛書群機器人
  • 微信群機器人
  • 釘釘應用
  • 飛書應用

最佳實踐

1. 一條規則對應一類截圖目標

將「業務總覽截圖」「服務詳情截圖」等拆分為多個處理器,便於維護與排查。

2. 關注存取權限

確保截圖服務對目標頁面具備存取權限,否則會出現空白圖或登入頁截圖。

3. 與其他處理器組合

可與 Relabel、告警抑制、附加資訊增強等處理器組合,先規範標籤,再截圖並增強告警上下文。

常見問題

Q1:截圖處理會影響告警傳送時延嗎?

A:會有一定影響。建議透過合理設定逾時(逾時時間不建議設定過長,避免影響告警時效性)、控制截圖數量、最佳化目標頁面載入速度來降低額外時延。

Q2:哪些告警適合使用截圖?

A:建議優先用於需要「看趨勢/看上下文」的告警類型,例如業務波動、發布品質、核心鏈路健康度等場景。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云