夜莺-Nightingale
夜莺V6
项目介绍
架构介绍
快速开始
黄埔营
安装部署
升级
采集器
使用手册
API
数据库表结构
alert_aggr_view
alert_cur_event
alert_his_event
alert_mute
alert_rule
alert_subscribe
alerting_engines
board
board_payload
builtin_cate
busi_group
busi_group_member
chart_share
configs
datasource
metric_view
notify_tpl
recording_rule
role
role_operation
sso_config
target
task_record
task_tpl
task_tpl_host
user_group
user_group_member
users
FAQ
转发数据给多个时序库
机器列表数据异常
数据流图
监控数据时有时无
查询原始监控数据
快捷视图详解
告警自愈模块使用
仪表盘里只展示我的机器
仪表盘里图表数据缺失
设置自定义告警通知方式
target_up指标的问题
夜莺可以监控 x 么
告警和恢复的判断逻辑
容量规划问题
connection refused
登录与认证
数据采集器Categraf
日志写到`/var/log/messages`
告警规则&告警模板如何引用变量
采集到的数据是字符串怎么处理
管理员密码忘记了
制作大盘如何添加图片
添加loki数据源报错
v6小版本升级有什么 sql 要执行吗
机器列表有展示,但采集数据查询不到
n9e 启动异常报错
n9e集群部署配置修改
告警触发/恢复的值怎么获取
推送 Promethus 报错 OOO
机器列表怎么忽略云资源
告警规则仅在本业务组生效失败
categraf 启动 oracle 插件报错
告警自愈不生效
n9e查询时序库EOF报错
手动编译项目报错
promQL 使用函数标签信息丢失
内存使用率+可用率不等于100
夜莺仪表盘有哪些内置变量
categraf配置文件支持热加载吗
导入 Grafana 仪表盘无效数据源
如何查看报错消息
采集器-Categraf
开源生态
Telegraf
Prometheus
版权声明
第1章:天降奇兵
第2章:探索PromQL
开篇
理解时间序列
Metrics类型
初识PromQL
PromQL操作符
PromQL聚合操作
PromQL内置函数
在HTTP API中使用PromQL
最佳实践:4个黄金指标和USE方法
小结
第3章:Prometheus告警处理
开篇
Prometheus告警简介
自定义Prometheus告警规则
部署Alertmanager
Alertmanager配置概述
基于标签的告警处理路由
使用Receiver接收告警信息
告警模板详解
屏蔽告警通知
使用Recoding Rules优化性能
小结
第4章:Exporter详解
第5章:数据与可视化
第6章:集群与高可用
第7章:Prometheus服务发现
第8章:监控Kubernetes
开篇
初识Kubernetes
在Kubernetes下部署Prometheus
Kubernetes下的服务发现
使用Prometheus监控Kubernetes集群
基于Prometheus的弹性伸缩
小结
第9章:Prometheus Operator
参考资料
MySQL
查询表格
和在终端登录 MySQL 之后,输入 SQL 查询类似,例如查询整个表的数据:
select * from database_name.table_name limit 10
查询时序图
- 必须在 SQL 中使用 as time 的语法指定哪一列是时间列,然后 group by time order by time desc 对时间做排序,例如
select count(*) as count, trigger_time as time
from n9e_v6_plus.alert_his_event
group by time
order by time
desc LIMIT 100
- 可以使用 where 条件,执行查询某一个时间段的数据,样例如下
2.1 查询最近一分钟的数据,也可以把 WEEK 换成 MINUTE、 SECOND、HOUR、DAY、MONTH 等
SELECT count(*) AS count, trigger_time AS time FROM n9e_v6_plus.alert_his_event WHERE FROM_UNIXTIME(trigger_time) >= DATE_SUB(NOW(), INTERVAL 1 WEEK)
2.2 查询某一个时间段的数据,trigger_time 是 unix 时间戳 (1720061167) 的情况WHERE 语句可以直接写 WHERE trigger_time >= 1720060214 AND trigger_time < 1720061214或者 trigger_time >= $__unixEpochFrom() AND trigger_time < $__unixEpochTo(), $__unixEpochFrom() 表示开始的unix时间戳,$__unixEpochTo() 表示结束时间的unix时间戳
SELECT count(*) AS count, trigger_time AS time
FROM n9e_v6_plus.alert_his_event
WHERE trigger_time >= $__unixEpochFrom() AND trigger_time < $__unixEpochTo()
GROUP BY time
ORDER BY time DESC
2.3 查询最近 7 天每分钟产生的告警数量
SELECT FROM_UNIXTIME(trigger_time, '%Y-%m-%d %H:%i:00') AS alert_minute,COUNT(*) AS alert_count
FROM n9e_v6_plus.alert_his_event
WHERE trigger_time >= UNIX_TIMESTAMP(DATE_SUB(NOW(), INTERVAL 7 DAY))
GROUP BY alert_minute
ORDER BY alert_minute DESC LIMIT 100;
2.4 查询最近 7 天每分钟产生的告警数量
SELECT FROM_UNIXTIME(trigger_time, '%Y-%m-%d %H:%i:00') AS alert_minute,COUNT(*) AS alert_count
FROM n9e_v6_plus.alert_his_event
WHERE trigger_time >= UNIX_TIMESTAMP(DATE_SUB(NOW(), INTERVAL 7 DAY))
GROUP BY alert_minute
ORDER BY alert_minute DESC;
2.5 alert_his_event 样例表结构如下
CREATE TABLE `alert_his_event` (
`id` bigint unsigned not null AUTO_INCREMENT,
`cate` varchar(128) not null,
`rule_id` bigint unsigned not null,
`rule_name` varchar(255) not null,
`prom_ql` varchar(8192) not null comment 'promql',
`first_trigger_time` bigint,
`trigger_time` bigint not null,
`trigger_value` varchar(255) not null,
PRIMARY KEY (`id`),
KEY (`trigger_time`, `rule_id`)
) ENGINE=InnoDB DEFAULT CHARSET = utf8mb4;
宏变量使用
在配置仪表盘的时候,一般我们要查询数据的时间范围不是固定的,需要随着仪表盘右上角的时间返回变化而变化,这个时候就需要使用和时间相关的宏变量了,下面是我们目前支持的宏变量以及使用说明 (备注:下面说明中的 1494410783 是前端传的 start_time,1494410983 是前端传的 end_time)
宏变量 | 描述 |
---|---|
$__timeFilter(dateColumn) | 如果 dateColumn 格式是 %Y-%m-%d %H:%i:%s ,可以使用此宏变量,将被替换为 dateColumn BETWEEN FROM_UNIXTIME(1494410783) AND FROM_UNIXTIME(1494410983) |
$__timeFrom() |
如果时间列格式是%Y-%m-%d %H:%i:%s ,可以使用此宏变量,将被替换为当前时间选择的开始时间。FROM_UNIXTIME(1494410783) |
$__timeTo() |
如果时间列格式是%Y-%m-%d %H:%i:%s ,可以使用此宏变量,将被替换为当前时间选择的结束时间。FROM_UNIXTIME(1494410983) |
$__unixEpochFilter(dateColumn) |
如果 dateColumn 格式是 Unix时间戳。将会被替换为 dateColumn > 1494410783 AND dateColumn < 1494497183 |
$__unixEpochFrom() |
将被替换为当前活动时间选择的开始时间,以Unix时间戳表示。例如,1494410783 |
$__unixEpochTo() |
将被替换为当前活动时间选择的结束时间, 以Unix时间戳表示。例如,1494497183 |
$__unixEpochNanoFilter(dateColumn) |
如果 dateColumn 格式是以纳秒时间戳表示。将会被替换为 dateColumn > 1494410783152415214 AND dateColumn < 1494410983142514872 |
$__unixEpochNanoFrom() |
将被替换为当前活动时间选择的开始时间,以纳秒时间戳表示。例如,1494410783152415214 |
$__unixEpochNanoTo() |
将被替换为当前活动时间选择的结束时间,以纳秒时间戳表示。例如,1494410983142514872 |
$__timeGroup(dateColumn,'5m') |
在 group by 的时候使用,以 5m 为分组粒度,对数据进行计算 |
$__unixEpochGroup(dateColumn,'5m') |
在 group by 的时候使用,以 5m 为分组粒度,对数据进行计算 |
宏变量使用示例
以上面的 alert_his_event 表为例,查询一段时间范围内每分钟的告警数量的 SQL 如下
SELECT
$__unixEpochGroup(trigger_time, '1m') AS time,
COUNT(*) AS alert_count
FROM
n9e_v6_plus.alert_his_event
WHERE
$__unixEpochFilter(trigger_time)
GROUP BY
time
ORDER BY
time