本功能為商業版功能。本文從原理和資料流的角度,介紹夜鶯監控的告警引擎的相關知識,協助使用者理解告警流程,排查告警問題。
功能概述
告警聚合是一項重要的告警降噪功能,通過將相似或相關的告警事件合併為一條通知傳送,可以有效減少告警通知的數量,避免告警風暴對運維人員造成的干擾,讓故障處理人員能夠更專注於真正需要關注的問題。
使用場景
1. 批次伺服器故障
當機房網路故障或批次伺服器重啟時,可能瞬間產生成百上千條告警。通過按照叢集、告警級別等維度聚合,可以將同一批次的告警合併通知。
2. 微服務鏈路告警
微服務架構中,一個上游服務故障可能導致下游多個服務連鎖告警。通過按照業務組、服務名稱等維度聚合,可以快速定位問題根源。
3. 同類指標批次告警
比如多台伺服器同時出現磁碟空間不足,通過按照告警規則、指標名稱聚合,可以在一次通知中看到所有受影響的伺服器列表。
設定步驟
步驟一:進入通知規則設定
- 登入監控平台,進入「告警管理」-「通知規則」頁面
- 點選「新建通知規則」或編輯已有規則

步驟二:開啟聚合功能
在通知規則設定頁面,找到「聚合設定」區塊:
- 開啟聚合開關:開啟「開啟聚合」選項

步驟三:設定聚合維度
聚合功能支援兩種設定方式:
1. 預設維度聚合(推薦初次使用)
這是最簡單的設定方式,系統會按照預設的維度自動聚合告警:
- 告警規則:相同告警規則觸發的告警聚合在一起
- 告警等級:相同嚴重程度的告警聚合在一起
聚合時間間隔:設定在多長時間內收到的告警會被聚合(建議設定為 30-120 秒)

2. 細粒度聚合
如果預設維度不能滿足需求,可以使用細粒度聚合進行更精確的控制:

-
點選「新增細粒度聚合」按鈕
-
設定篩選條件:
- 標籤篩選:例如
service=nginx表示只對 nginx 服務的告警進行聚合 - 屬性篩選:例如選擇特定的業務組或資料來源
- 標籤篩選:例如
-
設定聚合維度:
- 按標籤聚合:選擇要作為聚合維度的標籤鍵,如
host、region - 按屬性聚合:選擇系統屬性作為聚合維度
- 按標籤聚合:選擇要作為聚合維度的標籤鍵,如
-
設定聚合時間視窗:在指定時間內的告警會被聚合
步驟四:儲存並生效
- 完成設定後,點選頁面底部的「儲存」按鈕
- 設定會立即生效,新產生的告警將按照設定的規則進行聚合
常見問題
Q1:為什麼設定了聚合但告警還是單獨傳送?
可能原因:
- 告警不滿足聚合條件(不同維度或超出時間視窗)
- 聚合功能未正確開啟
- 告警級別不在設定的適用範圍內
Q2:聚合會不會導致告警延遲?
答:會有一定延遲,延遲時間等於設定的聚合時間視窗。
Q3:如何查看被聚合的告警詳情?
答:在聚合通知中會包含告警事件列表連結,點選通知中的連結可以查看完整的告警事件列表。