本功能為商業版功能。本文從原理和資料流的角度,介紹夜鶯監控的告警引擎的相關知識,協助使用者理解告警流程,排查告警問題。

功能概述

告警聚合是一項重要的告警降噪功能,通過將相似或相關的告警事件合併為一條通知傳送,可以有效減少告警通知的數量,避免告警風暴對運維人員造成的干擾,讓故障處理人員能夠更專注於真正需要關注的問題。

使用場景

1. 批次伺服器故障

當機房網路故障或批次伺服器重啟時,可能瞬間產生成百上千條告警。通過按照叢集告警級別等維度聚合,可以將同一批次的告警合併通知。

2. 微服務鏈路告警

微服務架構中,一個上游服務故障可能導致下游多個服務連鎖告警。通過按照業務組服務名稱等維度聚合,可以快速定位問題根源。

3. 同類指標批次告警

比如多台伺服器同時出現磁碟空間不足,通過按照告警規則指標名稱聚合,可以在一次通知中看到所有受影響的伺服器列表。

設定步驟

步驟一:進入通知規則設定

  1. 登入監控平台,進入「告警管理」-「通知規則」頁面
  2. 點選「新建通知規則」或編輯已有規則

n3bEbr

步驟二:開啟聚合功能

在通知規則設定頁面,找到「聚合設定」區塊:

  1. 開啟聚合開關:開啟「開啟聚合」選項

BQey3K

步驟三:設定聚合維度

聚合功能支援兩種設定方式:

1. 預設維度聚合(推薦初次使用)

這是最簡單的設定方式,系統會按照預設的維度自動聚合告警:

  • 告警規則:相同告警規則觸發的告警聚合在一起
  • 告警等級:相同嚴重程度的告警聚合在一起

聚合時間間隔:設定在多長時間內收到的告警會被聚合(建議設定為 30-120 秒)

SdTNMg

2. 細粒度聚合

如果預設維度不能滿足需求,可以使用細粒度聚合進行更精確的控制:

T0REGJ

  1. 點選「新增細粒度聚合」按鈕

  2. 設定篩選條件:

    • 標籤篩選:例如 service=nginx 表示只對 nginx 服務的告警進行聚合
    • 屬性篩選:例如選擇特定的業務組或資料來源
  3. 設定聚合維度:

    • 按標籤聚合:選擇要作為聚合維度的標籤鍵,如 hostregion
    • 按屬性聚合:選擇系統屬性作為聚合維度
  4. 設定聚合時間視窗:在指定時間內的告警會被聚合

步驟四:儲存並生效

  1. 完成設定後,點選頁面底部的「儲存」按鈕
  2. 設定會立即生效,新產生的告警將按照設定的規則進行聚合

常見問題

Q1:為什麼設定了聚合但告警還是單獨傳送?

可能原因

  • 告警不滿足聚合條件(不同維度或超出時間視窗)
  • 聚合功能未正確開啟
  • 告警級別不在設定的適用範圍內

Q2:聚合會不會導致告警延遲?

:會有一定延遲,延遲時間等於設定的聚合時間視窗。

Q3:如何查看被聚合的告警詳情?

:在聚合通知中會包含告警事件列表連結,點選通知中的連結可以查看完整的告警事件列表。

參考資料

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云