夜莺-Nightingale
夜莺V7
项目介绍 功能概览
部署升级 部署升级
数据接入 数据接入
告警管理 告警管理
数据查看 数据查看
功能介绍 功能介绍
API FAQ
夜莺V6
项目介绍 架构介绍
快速开始 快速开始
黄埔营
安装部署 安装部署
升级
采集器 采集器
使用手册 使用手册
API API
数据库表结构 数据库表结构
FAQ FAQ
开源生态
Prometheus
版权声明
第1章:天降奇兵 第1章:天降奇兵
第2章:探索PromQL 第2章:探索PromQL
第3章:Prometheus告警处理 第3章:Prometheus告警处理
第4章:Exporter详解 第4章:Exporter详解
第5章:数据与可视化 第5章:数据与可视化
第6章:集群与高可用 第6章:集群与高可用
第7章:Prometheus服务发现 第7章:Prometheus服务发现
第8章:监控Kubernetes 第8章:监控Kubernetes
第9章:Prometheus Operator 第9章:Prometheus Operator
参考资料

如何使用告警自愈模块?

关键字 ibex-server

夜莺告警自愈功能需要配合 ibex 这个模块来使用,在告警触发的时候,自动去告警的机器执行某个脚本。 ibex-server调用关系如下图所示,所以使用告警自愈模块只需要再部署 ibex-server 即可。

20230524191231

因为夜莺需要通过调用 ibex 的 HTTP 接口来下发任务,所以首先要在夜莺里增加配置,告诉它 ibex-server 的 HTTP 地址,其次 Categraf 是通过周期性请求 ibex-server 的 RPC 接口来获取新任务以及上报已经执行任务的结果,所以也需要在 Categraf 的配置文件里添加 ibex-server 的 RPC 地址。

ibex-server 的安装可以参考使用 ibex 模块做告警自愈脚本的下发执行,它也能通过多实例组成集群方式。安装完后就可以在夜莺中进行配置,菜单位置:告警自愈-自愈配置:

Address = "http://127.0.0.1:10090"
BasicAuthUser = "ibex"
BasicAuthPass = "ibex"
Timeout = 3000

然后在 Categraf 的主配置文件中修改配置:

[global]
...
# 机器名,作为本机的唯一标识,会为时序数据自动附加一个 agent_hostname=$hostname 的标签
# hostname 配置如果为空,自动取本机的机器名
# hostname 配置如果不为空,就使用用户配置的内容作为hostname
# 用户配置的hostname字符串中,可以包含变量,目前支持两个变量,
# $hostname 和 $ip,如果字符串中出现这两个变量,就会自动替换
# $hostname 自动替换为本机机器名,$ip 自动替换为本机IP
hostname = ""

...

# 是否启用告警自愈agent
[ibex]
enable = true
## ibex flush interval
interval = "1000ms"
## n9e ibex server rpc address
servers = ["127.0.0.1:20090"]
## temp script dir
meta_dir = "./meta"

随后就可以启动 Categraf ,当日志中出现关键字[*agent.IbexAgent] started代表 ibex-agent 插件正常启动。最后我们就可以选择告警自愈-执行历史-创建临时任务选项,即可进行告警自愈的测试。

💡 注意告警自愈里 Host 值需要填写成要执行脚本机器中 Categraf 所对应的 hostname 值。通常,你可以到机器列表页面,筛选机器,然后点击机器标识那一列表头上的按钮来复制机器列表。

更新

新版本的夜莺已经把告警自愈模块 ibex 的服务端代码揉进了 n9e 二进制,所以不需要单独部署 ibex-server 了,也不需要在页面上配置 ibex-server 的地址了,只需要在 n9e 的配置文件中找到 Ibex 相关配置项,Enable 即可。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat