夜莺-Nightingale
夜莺V6
项目介绍 架构介绍
快速开始 快速开始
黄埔营
安装部署 安装部署
升级
采集器 采集器
使用手册 使用手册
API API
数据库表结构 数据库表结构
FAQ FAQ
开源生态
Prometheus
版权声明
第1章:天降奇兵 第1章:天降奇兵
第2章:探索PromQL 第2章:探索PromQL
第3章:Prometheus告警处理 第3章:Prometheus告警处理
第4章:Exporter详解 第4章:Exporter详解
第5章:数据与可视化 第5章:数据与可视化
第6章:集群与高可用 第6章:集群与高可用
第7章:Prometheus服务发现 第7章:Prometheus服务发现
第8章:监控Kubernetes 第8章:监控Kubernetes
第9章:Prometheus Operator 第9章:Prometheus Operator
参考资料

Prometheus

选择 Prometheus 数据类型,输入 PromQL 表达式,例如下图查询服务器 CPU 利用率:

prometheus001

下面介绍下几个常用函数的使用

使用 rate 函数,按照设置的时间段,取counter在这个时间段中平均每秒的增量,查询主机 eth0 网卡每分钟的变化率,如下图:

prometheus002

使用 increase 函数,用来针对counter数据类型,截取其中一段时间总的增量,查询主机 eth0 网卡1分钟的增量,如下图:

prometheus003

使用 topk 函数,取前几位的最高值,实际使用的时候一般会用该函数进行瞬时报警,而不是为了观察曲线图。如下图统计1分钟内,cpu 使用的每秒的变化率,只查看前2个结果。

prometheus004

使用 count 函数,把数值符合条件的,输出数目进行累加加和,一般用它进行一些某户的监控判断,比如说企业中有100台服务器,如果只有10台服务器CPU使用率高于80%时候是不需要报警的,但是数量超过70台时就需要报警了,如下图所示,一共3台主机,主机 cpu 使用率大于20%的数量大于1报警表达式

prometheus005

Table 视图与Graph 视图

Table 视图:查看原始数据,可以体现采集上报频率的原始数据,通过查看 Table 视图数据可以看到原始数据结果、上报时间和上报间隔。 Table 使用场景 一般是查询指标原始值,核对指标上报时间是否出现不符合预期(延迟)等,通过对比上报数据时间和上报数据间隔,可以判断上报数据值和上报数据状态是否有异常。如下图所示:

prometheus006

Graph 视图:通常用于查看时间序列数据的趋势,Graph视图绘图的查询条件中有一个重要的step参数,是自动计算(或手动输入)参数,当它和配置文件的采集频率不一致时, Graph 查询到的值就不是原始数据。如下图举例

prometheus007

指定 step 参数值为15秒,查询结果会和原始数据查询结果差异很大。

prometheus008

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat