夜莺-Nightingale
夜莺V7
夜莺V6
项目介绍
架构介绍
快速开始
黄埔营
安装部署
升级
采集器
使用手册
API
数据库表结构
users
target
user_group
user_group_member
task_tpl
task_tpl_host
task_record
sso_config
role
role_operation
recording_rule
notify_tpl
metric_view
datasource
configs
chart_share
busi_group
busi_group_member
builtin_cate
board
board_payload
alerting_engines
alert_subscribe
alert_rule
alert_mute
alert_his_event
alert_cur_event
alert_aggr_view
FAQ
转发数据给多个时序库
机器列表数据异常
数据流图
监控数据时有时无
查询原始监控数据
快捷视图详解
告警自愈模块使用
仪表盘里只展示我的机器
仪表盘里图表数据缺失
设置自定义告警通知方式
target_up指标的问题
夜莺可以监控 x 么
告警和恢复的判断逻辑
容量规划问题
connection refused
登录与认证
数据采集器Categraf
日志写到`/var/log/messages`
告警规则&告警模板如何引用变量
采集到的数据是字符串怎么处理
管理员密码忘记了
制作大盘如何添加图片
添加loki数据源报错
v6小版本升级有什么 sql 要执行吗
机器列表有展示,但采集数据查询不到
n9e 启动异常报错
n9e集群部署配置修改
推送 Promethus 报错 OOO
机器列表怎么忽略云资源
告警规则仅在本业务组生效失败
categraf 启动 oracle 插件报错
告警自愈不生效
n9e查询时序库EOF报错
手动编译项目报错
promQL 使用函数标签信息丢失
内存使用率+可用率不等于100
夜莺仪表盘有哪些内置变量
categraf配置文件支持热加载吗
导入 Grafana 仪表盘无效数据源
如何查看报错消息
采集器-Categraf
开源生态
Telegraf
Prometheus
版权声明
第1章:天降奇兵
第2章:探索PromQL
开篇
理解时间序列
Metrics类型
初识PromQL
PromQL操作符
PromQL聚合操作
PromQL内置函数
在HTTP API中使用PromQL
最佳实践:4个黄金指标和USE方法
小结
第3章:Prometheus告警处理
开篇
Prometheus告警简介
自定义Prometheus告警规则
部署Alertmanager
Alertmanager配置概述
基于标签的告警处理路由
使用Receiver接收告警信息
告警模板详解
屏蔽告警通知
使用Recoding Rules优化性能
小结
第4章:Exporter详解
第5章:数据与可视化
第6章:集群与高可用
第7章:Prometheus服务发现
第8章:监控Kubernetes
开篇
初识Kubernetes
在Kubernetes下部署Prometheus
Kubernetes下的服务发现
使用Prometheus监控Kubernetes集群
基于Prometheus的弹性伸缩
小结
第9章:Prometheus Operator
参考资料
dcgm插件
前置依赖
dcgm采集插件是fork dcgm-exporter,插件是与nvidia-dcgm交互获取数据, 所以需要先安装nvidia-dcgm服务. 如果是ubuntu系列的os,可以通过 apt-get install -y datacenter-gpu-manage=1:3.3.5
, 注意这里的版本号, 不要搞错。 如果是centos, 可以在这里下载。
安装完成后,通过systemctl start nvidia-dcgm.service
启动服务,通过systemctl status nvidia-dcgm.service
来查看服务状态,服务处于active 再进行下一步的配置。
配置
配置文件在 conf/input.dcgm/exporter.toml
。 请确保 conf/input.dcgm/
目录下包含了 1.x-compatibility-metrics.csv
default-counters.csv
dcp-metrics-included.csv
这3个文件。
#[[instances]]
# 指定使用的指标定义文件, 一般使用 default-counters.csv就够了,也可以尝试用其他两个csv文件
# path to the file, that contains the DCGM fields to collect
# collectors = "conf/input.dcgm/default-counters.csv"
# 是否是K8s环境,设置为true会附件Pod的信息
# Enable kubernetes mapping metrics to kubernetes pods
# kubernetes=false
# 指标中是否附加 gpu id 作为一个标签
# Choose Type of GPU ID to use to map kubernetes resources to pods. Possible values: "uid", "device-name"
# kubernetes-gpu-id-type = "uid"
# 是否使用 1.x 的ns
# Use old 1.x namespace
# use-old-namespace = false
# 支持的选项是f g i
# f: FlexKey 如果MIG被禁用,则监控所有GPU;如果MIG被启用,则监控所有GPU实例
# g: MajorKey 监控top-level entities:GPU或NvSwitches或CPU
# i: MinorKey 监控sub-level entities: GPU实例/NvLinks/CPU核心 - 如果MIG被禁用,则不能指定该选项
cpu-devices = "f"
# 与cpu-devices的选项一样
# gpu devices
devices = "f"
# 与cpu-devices的选项一样
switch-devices = "f"
# 使用ConfigMap
# ConfigMap <NAMESPACE>:<NAME> for metric data
configmap-data = "none"
# 这里就是前置依赖的nvidia-dcgm服务, 如果是本机采集,则使用localhost:5555 ,如果是远程采集,则使用远端IP:5555
# Connect to remote hostengine at <HOST>:<PORT>
# remote-hostengine-info = "localhost:5555"
# 允许用户在没有实际GPU硬件的环境中模拟GPU, 仅用于测试
# Accept GPUs that are fake, for testing purposes only
# fake-gpus = false
# 将GPU型号名称中的每个空格替换为破折号,确保标识符连续且无空格。
# Replaces every blank space in the GPU model name with a dash, ensuring a continuous, space-free identifier.
# replace-blanks-in-model-name = false