夜莺-Nightingale
夜莺V7
项目介绍 功能概览
部署升级 部署升级
数据接入 数据接入
告警管理 告警管理
数据查看 数据查看
功能介绍 功能介绍
API FAQ
夜莺V6
项目介绍 架构介绍
快速开始 快速开始
黄埔营
安装部署 安装部署
升级
采集器 采集器
使用手册 使用手册
API API
数据库表结构 数据库表结构
FAQ FAQ
开源生态
Prometheus
版权声明
第1章:天降奇兵 第1章:天降奇兵
第2章:探索PromQL 第2章:探索PromQL
第3章:Prometheus告警处理 第3章:Prometheus告警处理
第4章:Exporter详解 第4章:Exporter详解
第5章:数据与可视化 第5章:数据与可视化
第6章:集群与高可用 第6章:集群与高可用
第7章:Prometheus服务发现 第7章:Prometheus服务发现
第8章:监控Kubernetes 第8章:监控Kubernetes
第9章:Prometheus Operator 第9章:Prometheus Operator
参考资料

Prometheus

选择 Prometheus 数据类型,输入 PromQL 表达式,例如下图查询服务器 CPU 利用率:

prometheus001

下面介绍下几个常用函数的使用

使用 rate 函数,按照设置的时间段,取counter在这个时间段中平均每秒的增量,查询主机 eth0 网卡每分钟的变化率,如下图:

prometheus002

使用 increase 函数,用来针对counter数据类型,截取其中一段时间总的增量,查询主机 eth0 网卡1分钟的增量,如下图:

prometheus003

使用 topk 函数,取前几位的最高值,实际使用的时候一般会用该函数进行瞬时报警,而不是为了观察曲线图。如下图统计1分钟内,cpu 使用的每秒的变化率,只查看前2个结果。

prometheus004

使用 count 函数,把数值符合条件的,输出数目进行累加加和,一般用它进行一些某户的监控判断,比如说企业中有100台服务器,如果只有10台服务器CPU使用率高于80%时候是不需要报警的,但是数量超过70台时就需要报警了,如下图所示,一共3台主机,主机 cpu 使用率大于20%的数量大于1报警表达式

prometheus005

Table 视图与Graph 视图

Table 视图:查看原始数据,可以体现采集上报频率的原始数据,通过查看 Table 视图数据可以看到原始数据结果、上报时间和上报间隔。 Table 使用场景 一般是查询指标原始值,核对指标上报时间是否出现不符合预期(延迟)等,通过对比上报数据时间和上报数据间隔,可以判断上报数据值和上报数据状态是否有异常。如下图所示:

prometheus006

Graph 视图:通常用于查看时间序列数据的趋势,Graph视图绘图的查询条件中有一个重要的step参数,是自动计算(或手动输入)参数,当它和配置文件的采集频率不一致时, Graph 查询到的值就不是原始数据。如下图举例

prometheus007

指定 step 参数值为15秒,查询结果会和原始数据查询结果差异很大。

prometheus008

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat