Telegraf调研笔记3：kernel、system、processes相关指标采集

kernel

kernel相关的指标，Telegraf采集的不太多，相关配置和采集内容如下：

# Get kernel statistics from /proc/stat
[[inputs.kernel]]
  # no configuration

# Output:
kernel,host=10-255-0-34 boot_time=1624622463i,context_switches=15118293984i,entropy_avail=3117i,interrupts=9688656581i,processes_forked=64968689i 1636203352000000000

保持这个配置不动即可

system

system相关的指标，要指定一下配置，把uptime_format这个field给干掉，这个内容是个字符串，Prom生态不支持，配置如下：

# Read metrics about system load & uptime
[[inputs.system]]
  ## Uncomment to remove deprecated metrics.
  fielddrop = ["uptime_format"]

system相关的指标，会采集load1、load5、load15，有些朋友可能希望这个值除以CPU核数，得到平均每个CPU的负载，在Prom生态也比较简单：

system_load1 / system_n_cpus

processes

processes相关的指标，主要是采集了系统的进程总数情况，有多少僵尸进程、多少running、多少sleeping等，没有额外配置项：

# Get the number of processes and group them by status
[[inputs.processes]]
  # no configuration

建议processes_total这个指标要配置告警，比如某个cron写挫了，结束不了但是每个周期都会新建，就会造成系统中进程过多。大家可以采集一下看看自己的系统的情况，取平均total，乘以2作为阈值，后面再逐步治理。