快猫监控
夜莺监控V6
夜莺监控V5
Categraf
Telegraf
Prometheus
版权声明
第1章:天降奇兵
第2章:探索PromQL
开篇
理解时间序列
Metrics类型
初识PromQL
PromQL操作符
PromQL聚合操作
PromQL内置函数
在HTTP API中使用PromQL
最佳实践:4个黄金指标和USE方法
小结
第3章:Prometheus告警处理
开篇
Prometheus告警简介
自定义Prometheus告警规则
部署Alertmanager
Alertmanager配置概述
基于标签的告警处理路由
使用Receiver接收告警信息
告警模板详解
屏蔽告警通知
使用Recoding Rules优化性能
小结
第4章:Exporter详解
第5章:数据与可视化
第6章:集群与高可用
第7章:Prometheus服务发现
第8章:监控Kubernetes
开篇
初识Kubernetes
在Kubernetes下部署Prometheus
Kubernetes下的服务发现
使用Prometheus监控Kubernetes集群
基于Prometheus的弹性伸缩
小结
第9章:Prometheus Operator
参考资料
智能告警
Telegraf调研笔记3:kernel、system、processes相关指标采集
kernel
kernel相关的指标,Telegraf采集的不太多,相关配置和采集内容如下:
# Get kernel statistics from /proc/stat
[[inputs.kernel]]
# no configuration
# Output:
kernel,host=10-255-0-34 boot_time=1624622463i,context_switches=15118293984i,entropy_avail=3117i,interrupts=9688656581i,processes_forked=64968689i 1636203352000000000
保持这个配置不动即可
system
system相关的指标,要指定一下配置,把uptime_format这个field给干掉,这个内容是个字符串,Prom生态不支持,配置如下:
# Read metrics about system load & uptime
[[inputs.system]]
## Uncomment to remove deprecated metrics.
fielddrop = ["uptime_format"]
system相关的指标,会采集load1、load5、load15,有些朋友可能希望这个值除以CPU核数,得到平均每个CPU的负载,在Prom生态也比较简单:
system_load1 / system_n_cpus
processes
processes相关的指标,主要是采集了系统的进程总数情况,有多少僵尸进程、多少running、多少sleeping等,没有额外配置项:
# Get the number of processes and group them by status
[[inputs.processes]]
# no configuration
建议processes_total这个指标要配置告警,比如某个cron写挫了,结束不了但是每个周期都会新建,就会造成系统中进程过多。大家可以采集一下看看自己的系统的情况,取平均total,乘以2作为阈值,后面再逐步治理。