夜莺-Nightingale
夜莺V7+
夜莺V6
采集器-Categraf
插件配置
Flashcat 企业版
开源生态
Telegraf
Prometheus
版权声明
第1章:天降奇兵
第2章:探索PromQL
开篇
理解时间序列
Metrics类型
初识PromQL
PromQL操作符
PromQL聚合操作
PromQL内置函数
在HTTP API中使用PromQL
最佳实践:4个黄金指标和USE方法
小结
第3章:Prometheus告警处理
开篇
Prometheus告警简介
自定义Prometheus告警规则
部署Alertmanager
Alertmanager配置概述
基于标签的告警处理路由
使用Receiver接收告警信息
告警模板详解
屏蔽告警通知
使用Recoding Rules优化性能
小结
第4章:Exporter详解
第5章:数据与可视化
第6章:集群与高可用
第7章:Prometheus服务发现
第8章:监控Kubernetes
开篇
初识Kubernetes
在Kubernetes下部署Prometheus
Kubernetes下的服务发现
使用Prometheus监控Kubernetes集群
基于Prometheus的弹性伸缩
小结
第9章:Prometheus Operator
参考资料
夜莺 v6 开始取消了 target_up 指标
为什么在夜莺 v6 里没有 target_up 指标了,机器都是失联状态?
这其实是两个问题。
1、夜莺 v6 里确实不会自动生成 target_up 指标了,这个指标在 v5 里是用来做机器失联告警的,而在 v6 里,我们使用 Host 类型的告警规则来实现机器失联告警,所以不再需要 target_up 指标了。创建告警规则的时候,选择 Host 类型即可配置机器失联告警,也可以配置机器时间偏移告警:
2、页面上机器状态是 DOWN,表示夜莺已经至少 2 分钟不曾收到这个机器的相关监控数据了,这个 2 分钟窗口是写死的,后面的版本会把这个窗口做成自定义的,允许用户在页面选择。
3、那些 unknown 状态的字段是因为机器上的 categraf 没有开启 heartbeat,没有通过心跳上报机器的这些元信息,当然,也可能是这些 IP 并非表示机器,而是网络设备
4、我们不推荐大家把网络设备放到机器列表中,即网络设备的监控数据上报的时候,不推荐使用 ident 作为唯一标识,snmp 插件中有个 agent_host_tag 用于配置交换机的 IP 对应的标签 Key,不建议配置为 ident,建议维持默认,就叫 agent_host。只要不叫 ident,交换机就不会出现在页面的机器列表里。
agent_host_tag = "agent_host"
那我想查看交换机台账列表应该怎么做?可以参考 这个大盘 来制作交换机的台账仪表盘.