专业版

Flashcat专业版,是快猫星云在开源夜莺的基础上,从功能、体验、安全、技术保障等方面加以增强的版本,适用于以开源版本为基础,并希望进一步快速完善可观测性平台的企业。

Flashcat 有三个版本:开源版专业版企业版

  1. 开源版:免费的、代码公开的,可以在快猫星云网站下载编译好的版本,也可以在 GitHub 获取源代码编译;
  2. 专业版:是快猫星云对夜莺开源版本从功能、体验、安全、技术保障等方面加以增强的版本,具体介绍见本文
  3. 企业版:是快猫星云以开源夜莺监控(Nightingale)为内核打造的,从数据、到平台、再到场景真正一体化的统一观测平台,并将国内顶级互联网公司的可观测性实践和方法论融入产品中,是业务稳定性保障,特别是故障处理的真帮手。包含北极星、灭火图、事件墙、多维日志分析等商业模块,也包含专业版的所有能力;

本文重点介绍的是专业版相较开源版的功能增强。

开源版和专业版的对比概览

功能 开源版 专业版
告警管理 Metrics 指标阈值告警
Host 机器失联、时间偏移告警
ElasticSearch 日志告警
智能告警引擎(利用算法做智能告警)
规则管理:屏蔽规则、订阅规则、记录规则
活跃告警、历史告警管理
告警升级、告警聚合、关联查询、自定义通知模板
全局屏蔽、服务日历
通知渠道 内置支持阿里云电话、短信通知渠道
内置支持腾讯云电话、短信通知渠道
扩展数据源 SLS数据源(告警、看图)
CLS数据源(告警、看图)
InfluxDB数据源(告警、看图)
ClickHouse数据源(告警、看图)
Zabbix数据源(看图)
数据可视化 指标即时查询
指标快捷视图
自定义仪表盘+内置常用仪表盘
ElasticSearch 可视化
指标预聚合
巡检报告
机器管理 机器分组打标签
基础metadata信息展示
扩展metadata信息展示
categraf 采集规则管理下发
categraf 版本升级管理
基础设施 网络设备
拨测
Pingmesh
人员组织 用户管理、团队管理、业务组管理
角色管理、权限管理
系统配置 数据源管理
通知媒介、渠道、模板配置
单点登录(OIDC、CAS等)
操作审计 告警规则修改审计记录
软件质保 以上商业模块软件质保
开源夜莺技术支持 仓库:github.com/ccfos/nightingale
Categraf技术支持 仓库:github.com/flashcatcloud/categraf

下面着重从「告警引擎增强」、「数据采集增强」、「更多的数据源支持」、「标准化定价」几个方面,介绍夜莺专业版。


可视化增强


巡检报告

巡检报告功能可以帮助用户定期生成和发送夜莺仪表盘的快照报告,可以用于以下几种使用场景:

  • 对于业务负责人或管理层,可按天/周/月为其自动生成汇总的系统运行状态报告。
  • 对于需要对外提供SLA的服务,定期生成服务可用性报告,并发送给客户,提升客户信任。
  • 定期生成业务运营相关的仪表盘报告(如用户增长、销售额等),供决策者参考。
  • 将不同团队关注的仪表盘报告定期发送给相关人员,促进团队间的信息共享。

巡检报告效果截图如下 report

记录规则增强

专业版的记录规则,可以支持从多个时序库或者日志库中查询数据,然后生成新的时序指标,写入的时序库中,用来配置仪表盘和配置告警规则,可以在下面几个场景使用

  • 可以生成服务和基础组件的 SLA 指标,之后配置告警和仪表盘
  • 可以从业务系统的日志或者时序数据中提取关键的业务指标,如订单量、交易额等,作为一级核心指标,配置大盘和告警规则
  • 计算集群和模块维度的容量指标,配置相关的仪表盘和告警规则,从全局视角查看服务整体的容量水平

告警引擎增强


日志告警

ElasticSearch 通常用于存储日志,我们经常需要对异常关键字做告警,或者从日志中提取指标对指标做告警(很多业务没有直接埋点,使用日志来暴露各类指标),指标、日志相关的告警规则都可以集成到夜莺来统一管理。

image

告警规则的配置原理,就是填写 ElasticSearch 查询 API 所需要的各类参数,包括索引、查询条件等,夜莺就会拿着这些查询条件去查询 ElasticSearch,如果查询到了数据并触发了阈值,则告警。对于 ElasticSearch 触发的告警,在告警详情页面会提供快捷入口,方便地查看告警时刻相关的日志。

image

同样的,如果您使用的是ClickHouse或者阿里云SLS存储日志,也可以在夜莺中对来自这些系统的日志配置告警策略,原理和使用方法与ElasticSearch类似。

智能告警

有些指标具有很强的规律,而且不适合配置固定的阈值,此时就可以引入智能告警引擎,通过算法自动计算动态阈值,如果真实数据偏离动态阈值过多,则告警。比如下图灰色部分,就是通过算法预测的动态阈值范围,紫色的线是真实数据,在红圈位置因为有个下跌,跌破了动态阈值范围,就自动告警了。

image

智能告警引擎,会单独部署一个机器学习的训练模块,整个架构如图所示:

image

智能告警模块安装完成之后,在夜莺告警规则配置页面,会多出一个智能告警的选项,如下图所示:

image

选择智能告警之后,只需填写要监控的指标,不需要填写阈值,点击保存即可,之后在告警规则列表页,智能告警的规则右侧会有一个“训练结果”的按钮:

image

点击“训练结果”,可以进入训练结果详情页,点击曲线详情,可以看到曲线学习出来的动态基线。如果曲线偏离到基线之外,夜莺的告警引擎会发出告警通知。

image

告警全局屏蔽

使用全局屏蔽,管理员可以一键对整个平台的告警进行屏蔽,做一些计划性维护工作时,可以更方便地屏蔽告警。

image

告警日历

对于一些业务,会有交易日和非交易日的场景,在非交易日的时候,服务会关闭,期间不需要任何告警通知。此时可以使用服务日历的功能,配置好哪些是非交易日,在告警规则中关联了服务日历之后,只有在交易日告警规则才会生效,不再需要频繁地修改规则的生效时间。

image

image

内置阿里云腾讯云电话短信通道

开源版本也可以实现这个能力,不过需要自行编写 notify.py 脚本,专业版的用户只需要在页面配置认证信息就可以自动打通了,更加便捷,具体配置如下。

image

告警操作记录审计

有时告警规则改出问题,难以追根溯源,通过审计功能可以记录所有规则修改,知道何时新增、删除了规则,何时修改了规则以及修改了具体什么内容。并且可以对比改了具体哪些字段。

image


数据采集增强


采集规则集中管理和下发

开源版本的 Categraf 采集监控数据,是需要修改本地配置文件的,每次修改完成配置之后,还需要手工重启 Categraf 或者发送 HUP 信号,很不方便。专业版提供了页面上中心化管理采集策略的能力。比如 MySQL、Redis、进程、端口、Ping 等等所有插件的采集配置,都可以在页面上管理。

image

创建采集规则的时候,可以选择生效的机器范围,采集的插件,以及采集配置。右侧还会有个 Markdown 的提示信息,作为文档辅助。

image

设备元信息采集和展示

默认开源版本的机器列表,只有少量信息展示,如下图:

image

专业版本采集了更多更详细的机器 metadata 信息,点击某个机器即可看到详情。

image

网络设备数据采集模板化

开源的 Categraf 也提供了采集网络设备监控数据的能力,不过配置起来非常复杂,需要自己整理各种 OID,专业版的网络设备管理,提供了网络设备管理和监控数据采集两个能力,可以在网络设备页面添加待监控的网络设备,选择使用哪个采集agent、以及内置的采集模板,实现非常方便地采集设备的监控数据。

image

image

下图是采集模板样例:

image

拨测

拨测是一种用于监测和评估网络性能的技术。它通过模拟真实用户的行为,定期发送测试数据包到目标网络或服务器,并收集关于网络延迟、丢包率等指标的信息。

夜莺专业版的拨测功能,提供了 HTTP(s)ICMPTCPUDPWSDL等多种协议,对目标进行探测,可以从平均时延、连接超时、成功率等维度展示探测目标的可用性。

image

image

网络诊断 Pingmesh

Pingmesh 是一种用于测量和监控网络性能的技术,通过在一组通信对等体之间执行 Ping 测试来评估网络的可用性和延迟。

夜莺专业版的 Pingmesh 功能,提供了 TCPUDPICMP 三种协议,在设备之间进行互相探测,并绘制各个层面的连通性视图,从全局视角观测整个网络的连通性。

IDC之间连通性:

image

机柜之间连通性:

image

机器之间连通性:

image


更多的数据源支持


阿里云 SLS

SLS 是阿里云的日志产品,如果您有些数据是在 SLS,也可以在夜莺里配置管理告警规则(和 ElasticSearch 告警引擎的原理类似),可以在夜莺里绘图可视化。

image

ElasticSearch 中您要选择索引,在 SLS 中您要选择项目、日志库等信息,这是 SLS 特有的概念。

如果您使用的是腾讯云的日志服务CLS,也可以在夜莺专业版中找到相应的数据源。

InfluxDB

InfluxDB 和 ElasticSearch、SLS 的告警类似,也是输入一个查询条件获得输出,对输出的结果进行阈值判断,当然了,这里的查询条件需要使用 Influx 的 QL。

image

ClickHouse

ClickHouse 因为其优秀的性能被越来越多的公司采用,夜莺专业版也可以接入 ClickHouse 作为数据源,对 ClickHouse 的数据进行查询告警和可视化

image

Zabbix

Zabbix 作为老牌的监控工具,仍然被很多公司采用,作为机器、网络设备监控的首选工具,夜莺可以接入 Zabbix 作为数据源,目前可以对 Zabbix 数据做可视化,告警引擎尚未对接 Zabbix。

image


标准化定价


夜莺专业版,按照所部署的采集器数量,采用按年订阅制方式收费,该订阅费用包括以上所有功能的授权和相应的软件质量保障。

您可以直接联系我们或者在云市场下单。

更多的数据源

Prometheus、InfluxDB、Zabbix、ElasticSearch、OpenSearch、ClickHouse、Jaeger、SkyWalking、SLS、MySQL等。提供了对接 ES / 阿里云 SLS 数据源,配置告警规则,发送告警通知,查看日志原文,在统一的平台支持指标监控和日志监控的能力。

更贴心的技术支持

专项支持群、5*8 时间段内视频会议、夜莺产品内部培训、远程故障排除协助、性能调优建议、BUG优先修复等

更便捷的采集配置管理和下发

对Categraf的采集配置,可以在页面上进行集中的管理、配置和下发。对于交换机等网络设备,提供了开箱即用的模版文件,集中管理和下发。

专业版

从 Open-Falcon 到 Nightingale、Categraf,快猫星云技术团队在监控领域已经深耕十年之久,支持和服务了数千家企业,是开源监控的行业引领者。我们看到很多公司从开源监控受益,也看到很多公司因为缺乏行业最佳实践,在可观测性体系建设中走了不少弯路,包括如何选型工具和构建平台,如何对可观测性数据进行治理,如何利用好可观测性数据,打通各个维度数据之间的串联关系,快速定位和止损故障。

快猫星云创始团队,均来自于阿里、百度、滴滴,快猫星云以开源夜莺为内核打造的统一可观测平台,是国内顶级互联网公司可观测性实践和服务稳定性保障方法论的产品化落地,我们致力于帮助企业快速构建统一的可观测性体系以及构建数据驱动的稳定性治理框架。下面是专业版与开源版的对比说明,您可以联系我们进一步了解专业版的更多信息。

当然,您也可以单独购买相关的插件,比如智能告警插件、ES日志告警插件。
数据源管理
Prometheus
ElasticSearch
Jaeger
OpenSearch
ClickHouse
阿里云 SLS
腾讯云 CLS
Zabbix
InfluxDB
MySQL/Oracle/PostgreSQL/SQLServer
SkyWalking
Zipkin
数据采集器
指标(Metrics)采集
日志(Logging)采集
Tracing 数据收集
物理机/虚拟机数据采集
容器/K8s数据采集
交换机/网络设备数据采集
常用中间件/数据库数据采集
Windows 数据采集
数据采集规则集中管理和下发
仪表盘
内置仪表盘模版
导入Grafana模版
指标仪表盘
日志仪表盘
多数据源支持
告警管理
指标(Metrics)阈值告警
主机(Host)失联告警/时间偏移告警
告警规则管理:屏蔽、订阅、记录规则
活跃告警/历史告警管理
内置众多告警策略模版
日志(Logging)告警
智能告警
内置电话/短信通道(阿里云/腾讯云)
告警聚合降噪
告警升级
告警自愈
告警自愈脚本管理,自愈脚本和告警规则关联管理
分布式链路追踪
Jaeger 数据源
SkyWalking 数据源
Zipkin 数据源
Elastic APM 数据源
阿里云 SLS trace 数据源
Pinpoint 数据源
基础设施
主机分组、标签管理
主机基础元信息(metadata)展示和管理
内置多种基础设施的数据采集规则模版
主机扩展元信息(metadata)展示和管理
Categraf 采集规则集中管理和下发
人员组织
用户管理
团队管理
组织管理
角色管理
权限管理
系统配置
数据源自定义配置
通知媒介、通知渠道、通知模版自定义配置
单点登录自定义配置(OAuth、LDAP、OIDC、CAS等)
操作审计
支持关键操作和敏感操作的审计记录
技术支持
技术支持获取途径
技术支持响应级别
专家解决方案
开源版
GitHub Issue
一周
专业版
专项支持群、视频会议
7×12
7×12 专家技术支持
开源版
Flashcat
Flashduty