一张图详解开源监控夜莺(Nightingale)的架构

巴辉特 2024-07-19 07:06:10

夜莺监控是一款开源云原生观测分析工具,采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 100 多个版本。

夜莺最初由滴滴开发和开源,并于 2022 年 5 月 11 日,捐赠予中国计算机学会开源发展委员会(CCF ODC),为 CCF ODC 成立后接受捐赠的第一个开源项目。夜莺的核心研发团队,也是 Open-Falcon 项目原核心研发人员,从 2014 年(Open-Falcon 是 2014 年开源)算起来,也有 10 年了,只为把监控这个事情做好。

夜莺架构

夜莺架构

整体来看,分三大部分:

  • 中间紫色部分:夜莺的服务端相关模块,是夜莺的核心组件,包括夜莺进程本身,以及依赖的 mysql、redis,图上也画了时序库 VictoriaMetrics 和 Prometheus,这部分其实不是必须的,后面会讲到。
  • 左侧蓝色部分:是各类采集器,我们推荐您使用 categraf,和夜莺的整合最为丝滑,当然,您也可以使用 telegraf、datadog-agent 等其他社区常见采集器。
  • 右侧红色部分:是告警通道,夜莺可以把告警发给钉钉、企微、飞书、Slack 等 IM,也可以发邮件、电话、短信,也可以通过 Webhook 推给第三方,如果您对告警收敛、降噪、排班、认领升级等功能有诉求,可以接入 FlashDuty 事件 OnCall 中心

下面我们详细解释各个部分的功能。

夜莺服务端

中间灰色部分是夜莺服务端,即 n9e 进程,包含三个功能,分别是:

  • Pushgateway:接收各类采集器推送的指标数据,这个是可选的,待会会讲到。
  • WebUI:夜莺的 Web 界面,提供给用户配置监控、查看监控数据、查看告警等功能。
  • AlertEngine:告警引擎,根据用户配置的告警规则,连到各个时序库数据源,查询数据做异常判断。

Pushgateway

Pushgateway 是 n9e 进程的一部分能力,可以接收各类采集器推送的指标数据,然后转发给时序库。不同的采集器推送的数据格式不同,比如 categraf 是按照 Prometheus remote write 协议推送的,datadog-agent 有自己的格式,telegraf 则比较开放,支持 OpenTSDB、InfluxDB、Prometheus 等格式。Pushgateway 提供多种数据接收接口,接收到数据之后,会把监控指标数据转发给时序库。

以 categraf 为例,categraf 采集了数据推送给夜莺,需要配置服务端的地址,配置样例如下:

[[writers]]
url = "http://127.0.0.1:17000/prometheus/v1/write"
basic_auth_user = ""
...

这里的 127.0.0.1:17000,要改成您的环境的夜莺的地址。这里的 /prometheus/v1/write 就是夜莺提供的一个 API,用于接收 prometheus remote write 协议的数据。夜莺还提供了其他数据接收的 API,具体可以参考这里

夜莺收到数据后,需要转发给时序库,那夜莺怎么知道要转发给那些地址呢?在夜莺的配置文件 etc/config.toml 中配置:

[[Pushgw.Writers]]
Url = "http://127.0.0.1:9090/api/v1/write"
...

这里的 127.0.0.1:9090 是 prometheus 地址样例,夜莺转发数据给时序库也是走的 prometheus remote write 协议,所以上面的 Url 的 urlpath 是 /api/v1/write,这是 prometheus 的数据接收路径。注意,这个配置文件是 toml 格式,在 toml 中 [[]] 表示数组,这意味着,你可以配置多份 [[Pushgw.Writers]] 区块,即,夜莺可以同时转发数据给多个时序库。

上面讲解的数据流是 categraf 作为采集器,采集了数据推给夜莺,夜莺再转发给时序库,那如果你不用 categraf,比如你使用 prometheus 直接抓取各类 exporter 的数据,数据已经在时序库了,那这个 Pushgateway 其实就没用了,夜莺的配置文件 etc/config.toml 中也不需要配置 Pushgw 相关的信息。

不过,如果不使用 categraf,夜莺的机器列表就会为空,告警自愈功能也没法用了,所以我们推荐您使用 categraf 作为机器常规指标的采集器,在每个机器上部署 categraf,至于各类中间件、数据库的监控数据,倒不强求使用 categraf 采集。

另外,categraf 的配置文件 conf/config.toml 中还有 heartbeat 的配置,配置的是夜莺的 heartbeat 地址,注意修改为您的夜莺地址。heartbeat 会采集机器的一些元信息上报给夜莺,之后您可以在夜莺页面的机器列表中,点击各个机器,看到具体有哪些元信息。

WebUI

夜莺提供了一个 WebUI 页面,用于查看监控数据、管理告警规则、查看生成的告警事件等等,页面有权限控制体系,如果您想把监控能力开放给公司所有团队,让各个团队自助服务,权限体系就比较有用了。

夜莺 v7 版本默认监听的端口是 17000,您在浏览器中使用 http://your_n9e_ip:17000 就可以访问到夜莺的 WebUI 页面,如果您想修改端口,可以修改配置文件 etc/config.toml 中的 HTTP.Port 配置项(在配置文件中搜索 17000 就可以看到具体在哪个位置了)。

AlertEngine

告警引擎是夜莺最核心的能力。通常一个公司会有多个时序库,管理告警规则比较费劲,使用夜莺的话,可以在一个地方维护告警规则,然后生效到不同的时序库。

您要针对某些时序库的数据做告警,首先要在页面配置数据源,目前支持 Prometheus 兼容的各类数据源,比如 Thanos、VictoriaMetrics、M3DB、Prometheus 等,也支持接入 TDEngine、Loki 数据源,对这些数据源的数据做告警判断。

注意,对于某个时序库,即便已经在夜莺的 etc/config.toml 中配置在 [[Pushgw.Writers]] 下面了。也还是需要在夜莺的 WebUI 页面配置数据源,这是因为,夜莺的告警引擎是根据数据源中配置的 URL 来查询数据的。

告警引擎会根据告警规则的配置,拿着规则中的 promql,周期性查询时序库,如果查到了就产生告警事件,查到几条数据就产生几条事件。当然,如果告警规则中配置了持续时长,那就是说,只有连续几次查询都查到了,才会产生告警事件。告警引擎的判定逻辑参考这里:触发告警和恢复的底层逻辑是什么?

服务端高可用

夜莺依赖 mysql、redis,mysql 和 redis 的高可用社区有很多方案,这里不再赘述。对于 n9e 进程本身的高可用,非常简单,就是找多个机器,每个机器部署一个 n9e 进程即可,集群中的多个 n9e 进程,其配置完全一样。

多个 n9e 前面最好是搞一个负载均衡,用户使用负载均衡的地址来访问夜莺,Categraf 中的夜莺的地址也配置为负载均衡的地址。

边缘模式

如果某公司是多机房,某个机房与其他机房的网络质量很差。比如,夜莺 n9e 进程部署在北京,某个时序库部署在美东,美东和北京的网络不好,此时 n9e 作为告警引擎,周期性查询美东的时序库,就经常会超时,导致告警不准确。怎么办呢?

我们提供了 n9e-edge 模块,用于这类边缘机房的场景。在这里,可以把 n9e-edge 部署在美东,n9e-edge 会从中心 n9e 同步告警规则,缓存在内存中,然后查询美东的时序库做告警判定,即便美东和国内网络断了,美东的 n9e-edge 内存中还缓存了一份告警引擎,可以继续判定告警。

n9e-edge 要连 n9e 进程的 API,所以,我们要在 n9e-edge 的配置文件中给出中心 n9e 的地址,即 CenterApi 相关的配置项,具体可以参考:边缘机房部署夜莺,应对网络割裂的情况

总结

本文从大面上讲解了开源夜莺的架构,希望对您有帮助,夜莺的 github 地址是:https://github.com/ccfos/nightingale 如果您对此开源项目感兴趣,可以 star 一下留备后用。

联系我们交流

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat