夜莺-Nightingale
夜莺V7
项目介绍 功能概览
部署升级 部署升级
数据接入 数据接入
告警管理 告警管理
数据查看 数据查看
功能介绍 功能介绍
API FAQ
夜莺V6
项目介绍 架构介绍
快速开始 快速开始
黄埔营
安装部署 安装部署
升级
采集器 采集器
使用手册 使用手册
API API
数据库表结构 数据库表结构
FAQ FAQ
开源生态
Prometheus
版权声明
第1章:天降奇兵 第1章:天降奇兵
第2章:探索PromQL 第2章:探索PromQL
第3章:Prometheus告警处理 第3章:Prometheus告警处理
第4章:Exporter详解 第4章:Exporter详解
第5章:数据与可视化 第5章:数据与可视化
第6章:集群与高可用 第6章:集群与高可用
第7章:Prometheus服务发现 第7章:Prometheus服务发现
第8章:监控Kubernetes 第8章:监控Kubernetes
第9章:Prometheus Operator 第9章:Prometheus Operator
参考资料

Telegraf调研笔记3:kernel、system、processes相关指标采集

kernel

kernel相关的指标,Telegraf采集的不太多,相关配置和采集内容如下:

# Get kernel statistics from /proc/stat
[[inputs.kernel]]
  # no configuration

# Output:
kernel,host=10-255-0-34 boot_time=1624622463i,context_switches=15118293984i,entropy_avail=3117i,interrupts=9688656581i,processes_forked=64968689i 1636203352000000000

保持这个配置不动即可

system

system相关的指标,要指定一下配置,把uptime_format这个field给干掉,这个内容是个字符串,Prom生态不支持,配置如下:

# Read metrics about system load & uptime
[[inputs.system]]
  ## Uncomment to remove deprecated metrics.
  fielddrop = ["uptime_format"]

system相关的指标,会采集load1、load5、load15,有些朋友可能希望这个值除以CPU核数,得到平均每个CPU的负载,在Prom生态也比较简单:

system_load1 / system_n_cpus

processes

processes相关的指标,主要是采集了系统的进程总数情况,有多少僵尸进程、多少running、多少sleeping等,没有额外配置项:

# Get the number of processes and group them by status
[[inputs.processes]]
  # no configuration

建议processes_total这个指标要配置告警,比如某个cron写挫了,结束不了但是每个周期都会新建,就会造成系统中进程过多。大家可以采集一下看看自己的系统的情况,取平均total,乘以2作为阈值,后面再逐步治理。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat