夜莺专业版
- 开源版:免费的、代码公开的,可以在快猫星云网站下载编译好的版本,也可以在 GitHub 获取源代码编译;
- 专业版:是快猫星云对夜莺开源版本从功能、体验、安全、技术保障等方面加以增强的版本,具体介绍见本文;
- 企业版:是快猫星云以开源夜莺监控(Nightingale)为内核打造的,从
数据
、到平台
、再到场景
真正一体化的统一观测平台,并将国内顶级互联网公司的可观测性实践和方法论融入产品中,是业务稳定性保障,特别是故障处理的真帮手。包含北极星、灭火图、事件墙、多维日志分析等商业模块,也包含专业版的所有能力;
本文重点介绍的是专业版相较开源版的功能增强。
开源版和专业版的对比概览
功能 | 开源版 | 专业版 | |
---|---|---|---|
告警管理 | Metrics 指标阈值告警 | √ | √ |
Host 机器失联、时间偏移告警 | √ | √ | |
ElasticSearch 日志告警 | √ | ||
智能告警引擎(利用算法做智能告警) | √ | ||
规则管理:屏蔽规则、订阅规则、记录规则 | √ | √ | |
活跃告警、历史告警管理 | √ | √ | |
告警升级、告警聚合、关联查询、自定义通知模板 | √ | ||
全局屏蔽、服务日历 | √ | ||
通知渠道 | 内置支持阿里云电话、短信通知渠道 | √ | |
内置支持腾讯云电话、短信通知渠道 | √ | ||
扩展数据源 | SLS数据源(告警、看图) | √ | |
CLS数据源(告警、看图) | √ | ||
InfluxDB数据源(告警、看图) | √ | ||
ClickHouse数据源(告警、看图) | √ | ||
Zabbix数据源(看图) | √ | ||
数据可视化 | 指标即时查询 | √ | √ |
指标快捷视图 | √ | √ | |
自定义仪表盘+内置常用仪表盘 | √ | √ | |
ElasticSearch 可视化 | √ | √ | |
指标预聚合 | √ | ||
巡检报告 | √ | ||
机器管理 | 机器分组打标签 | √ | √ |
基础metadata信息展示 | √ | √ | |
扩展metadata信息展示 | √ | ||
categraf 采集规则管理下发 | √ | ||
categraf 版本升级管理 | √ | ||
基础设施 | 网络设备 | √ | |
拨测 | √ | ||
Pingmesh | √ | ||
人员组织 | 用户管理、团队管理、业务组管理 | √ | √ |
角色管理、权限管理 | √ | √ | |
系统配置 | 数据源管理 | √ | √ |
通知媒介、渠道、模板配置 | √ | √ | |
单点登录(OIDC、CAS等) | √ | √ | |
操作审计 | 告警规则修改审计记录 | √ | |
软件质保 | 以上商业模块软件质保 | √ | |
开源夜莺技术支持 仓库:github.com/ccfos/nightingale | √ | ||
Categraf技术支持 仓库:github.com/flashcatcloud/categraf | √ |
下面着重从「告警引擎增强」、「数据采集增强」、「更多的数据源支持」、「标准化定价」几个方面,介绍夜莺专业版。
可视化增强
巡检报告
巡检报告功能可以帮助用户定期生成和发送夜莺仪表盘的快照报告,可以用于以下几种使用场景:
- 对于业务负责人或管理层,可按天/周/月为其自动生成汇总的系统运行状态报告。
- 对于需要对外提供SLA的服务,定期生成服务可用性报告,并发送给客户,提升客户信任。
- 定期生成业务运营相关的仪表盘报告(如用户增长、销售额等),供决策者参考。
- 将不同团队关注的仪表盘报告定期发送给相关人员,促进团队间的信息共享。
巡检报告效果截图如下
记录规则增强
专业版的记录规则,可以支持从多个时序库或者日志库中查询数据,然后生成新的时序指标,写入的时序库中,用来配置仪表盘和配置告警规则,可以在下面几个场景使用
- 可以生成服务和基础组件的 SLA 指标,之后配置告警和仪表盘
- 可以从业务系统的日志或者时序数据中提取关键的业务指标,如订单量、交易额等,作为一级核心指标,配置大盘和告警规则
- 计算集群和模块维度的容量指标,配置相关的仪表盘和告警规则,从全局视角查看服务整体的容量水平
告警引擎增强
日志告警
ElasticSearch 通常用于存储日志,我们经常需要对异常关键字做告警,或者从日志中提取指标对指标做告警(很多业务没有直接埋点,使用日志来暴露各类指标),指标、日志相关的告警规则都可以集成到夜莺来统一管理。
告警规则的配置原理,就是填写 ElasticSearch 查询 API 所需要的各类参数,包括索引、查询条件等,夜莺就会拿着这些查询条件去查询 ElasticSearch,如果查询到了数据并触发了阈值,则告警。对于 ElasticSearch 触发的告警,在告警详情页面会提供快捷入口,方便地查看告警时刻相关的日志。
同样的,如果您使用的是ClickHouse
或者阿里云SLS
存储日志,也可以在夜莺中对来自这些系统的日志配置告警策略,原理和使用方法与ElasticSearch
类似。
智能告警
有些指标具有很强的规律,而且不适合配置固定的阈值,此时就可以引入智能告警引擎,通过算法自动计算动态阈值,如果真实数据偏离动态阈值过多,则告警。比如下图灰色部分,就是通过算法预测的动态阈值范围,紫色的线是真实数据,在红圈位置因为有个下跌,跌破了动态阈值范围,就自动告警了。
智能告警引擎,会单独部署一个机器学习的训练模块,整个架构如图所示:
智能告警模块安装完成之后,在夜莺告警规则配置页面,会多出一个智能告警的选项,如下图所示:
选择智能告警之后,只需填写要监控的指标,不需要填写阈值,点击保存即可,之后在告警规则列表页,智能告警的规则右侧会有一个“训练结果”的按钮:
点击“训练结果”,可以进入训练结果详情页,点击曲线详情,可以看到曲线学习出来的动态基线。如果曲线偏离到基线之外,夜莺的告警引擎会发出告警通知。
告警全局屏蔽
使用全局屏蔽,管理员可以一键对整个平台的告警进行屏蔽,做一些计划性维护工作时,可以更方便地屏蔽告警。
告警日历
对于一些业务,会有交易日和非交易日的场景,在非交易日的时候,服务会关闭,期间不需要任何告警通知。此时可以使用服务日历的功能,配置好哪些是非交易日,在告警规则中关联了服务日历之后,只有在交易日告警规则才会生效,不再需要频繁地修改规则的生效时间。
内置阿里云腾讯云电话短信通道
开源版本也可以实现这个能力,不过需要自行编写 notify.py
脚本,专业版的用户只需要在页面配置认证信息就可以自动打通了,更加便捷,具体配置如下。
告警操作记录审计
有时告警规则改出问题,难以追根溯源,通过审计功能可以记录所有规则修改,知道何时新增、删除了规则,何时修改了规则以及修改了具体什么内容。并且可以对比改了具体哪些字段。
数据采集增强
采集规则集中管理和下发
开源版本的 Categraf 采集监控数据,是需要修改本地配置文件的,每次修改完成配置之后,还需要手工重启 Categraf
或者发送 HUP
信号,很不方便。专业版提供了页面上中心化管理采集策略的能力。比如 MySQL、Redis、进程、端口、Ping 等等所有插件的采集配置,都可以在页面上管理。
创建采集规则的时候,可以选择生效的机器范围,采集的插件,以及采集配置。右侧还会有个 Markdown
的提示信息,作为文档辅助。
设备元信息采集和展示
默认开源版本的机器列表,只有少量信息展示,如下图:
专业版本采集了更多更详细的机器 metadata
信息,点击某个机器即可看到详情。
网络设备数据采集模板化
开源的 Categraf
也提供了采集网络设备监控数据的能力,不过配置起来非常复杂,需要自己整理各种 OID
,专业版的网络设备管理,提供了网络设备管理和监控数据采集两个能力,可以在网络设备页面添加待监控的网络设备,选择使用哪个采集agent、以及内置的采集模板,实现非常方便地采集设备的监控数据。
下图是采集模板样例:
拨测
拨测是一种用于监测和评估网络性能的技术。它通过模拟真实用户的行为,定期发送测试数据包到目标网络或服务器,并收集关于网络延迟、丢包率等指标的信息。
夜莺专业版的拨测功能,提供了 HTTP(s)
、ICMP
、TCP
、UDP
、WSDL
等多种协议,对目标进行探测,可以从平均时延、连接超时、成功率等维度展示探测目标的可用性。
网络诊断 Pingmesh
Pingmesh
是一种用于测量和监控网络性能的技术,通过在一组通信对等体之间执行 Ping
测试来评估网络的可用性和延迟。
夜莺专业版的 Pingmesh
功能,提供了 TCP
、UDP
、ICMP
三种协议,在设备之间进行互相探测,并绘制各个层面的连通性视图,从全局视角观测整个网络的连通性。
IDC之间连通性:
机柜之间连通性:
机器之间连通性:
更多的数据源支持
阿里云 SLS
SLS 是阿里云的日志产品,如果您有些数据是在 SLS,也可以在夜莺里配置管理告警规则(和 ElasticSearch 告警引擎的原理类似),可以在夜莺里绘图可视化。
ElasticSearch 中您要选择索引,在 SLS 中您要选择项目、日志库等信息,这是 SLS 特有的概念。
如果您使用的是腾讯云的日志服务CLS,也可以在夜莺专业版中找到相应的数据源。
InfluxDB
InfluxDB 和 ElasticSearch、SLS 的告警类似,也是输入一个查询条件获得输出,对输出的结果进行阈值判断,当然了,这里的查询条件需要使用 Influx 的 QL。
ClickHouse
ClickHouse 因为其优秀的性能被越来越多的公司采用,夜莺专业版也可以接入 ClickHouse 作为数据源,对 ClickHouse 的数据进行查询告警和可视化
Zabbix
Zabbix 作为老牌的监控工具,仍然被很多公司采用,作为机器、网络设备监控的首选工具,夜莺可以接入 Zabbix 作为数据源,目前可以对 Zabbix 数据做可视化,告警引擎尚未对接 Zabbix。
标准化定价
夜莺专业版,按照所部署的采集器数量,采用按年订阅制方式收费,该订阅费用包括以上所有功能的授权和相应的软件质量保障。
您可以直接联系我们或者在云市场下单。