告警引擎

夜莺( Nightingale )告警引擎能介绍

告警引擎是告警很重要的一环,作用是每个数据源都可以关联一个告警引擎集群,告警引擎会定期同步告警启用状态下的告警规则,连接到各个时序库数据源进行查询数据做异常判断。

告警引擎001

在系统配置中告警引擎模块可以查看当前告警引擎信息。

告警引擎002

引擎集群:告警引擎名称。 引擎实例:告警引擎实例 IP 地址信息。 数据源:告警引擎关联的数据源。 上次心跳时间:告警引擎上次上报数据时间。 注意:如果告警无法正常发送,可以排查一下数据源是否关联告警引擎和告警引擎网络通信是否正常。

常见问题

Q1:告警引擎状态显示异常怎么办?

A:

  • 检查 server / center / alert 进程是否都在跑(ps aux | grep n9e);
  • 数据库连接是否正常(异常会导致引擎拉规则失败);
  • 日志(/var/log/n9e/server.log)找 alert engine 相关错误。

Q2:告警引擎多机部署怎么配?

A:n9e Server 同时承载告警引擎功能 — 多机部署时自动 HA(基于数据库的领导者选举)。也可以单独跑 n9e-edge 在边缘机房就近评估告警,减少跨机房延迟。

Q3:能横向扩展告警引擎容量吗?

A:

  • 多个 n9e Server 实例自动分担规则 — 每台拿一部分;
  • 单机能跑几万条规则;超过 10 万级别建议拆多实例 + 按业务组分片;
  • 监控 server 的 alert_eval_duration 指标,确认评估耗时是否在合理范围。

Q4:怎么强制重新拉取告警规则到内存?

A:n9e Server 默认每隔几秒从数据库拉新规则,实时同步。极端情况下重启 n9e Server 即可重新加载所有规则。

参考资料

更新时间 2025-03-13

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云