夜莺-Nightingale
夜莺V7
项目介绍 功能概览
部署升级 部署升级
数据接入 数据接入
告警管理 告警管理
数据查看 数据查看
功能介绍 功能介绍
API FAQ
夜莺V6
项目介绍 架构介绍
快速开始 快速开始
黄埔营
安装部署 安装部署
升级
采集器 采集器
使用手册 使用手册
API API
数据库表结构 数据库表结构
FAQ FAQ
开源生态
Prometheus
版权声明
第1章:天降奇兵 第1章:天降奇兵
第2章:探索PromQL 第2章:探索PromQL
第3章:Prometheus告警处理 第3章:Prometheus告警处理
第4章:Exporter详解 第4章:Exporter详解
第5章:数据与可视化 第5章:数据与可视化
第6章:集群与高可用 第6章:集群与高可用
第7章:Prometheus服务发现 第7章:Prometheus服务发现
第8章:监控Kubernetes 第8章:监控Kubernetes
第9章:Prometheus Operator 第9章:Prometheus Operator
参考资料

dcgm插件

前置依赖

dcgm采集插件是fork dcgm-exporter,插件是与nvidia-dcgm交互获取数据, 所以需要先安装nvidia-dcgm服务. 如果是ubuntu系列的os,可以通过 apt-get install -y datacenter-gpu-manage=1:3.3.5, 注意这里的版本号, 不要搞错。 如果是centos, 可以在这里下载。

安装完成后,通过systemctl start nvidia-dcgm.service 启动服务,通过systemctl status nvidia-dcgm.service来查看服务状态,服务处于active 再进行下一步的配置。

配置

dcgm插件,依赖cgo,所以需要下载categraf的cgo版本(只支持linux amd64)

配置文件在 conf/input.dcgm/exporter.toml。 请确保 conf/input.dcgm/目录下包含了 1.x-compatibility-metrics.csv default-counters.csv dcp-metrics-included.csv 这3个文件。

#[[instances]]
# 指定使用的指标定义文件, 一般使用 default-counters.csv就够了,也可以尝试用其他两个csv文件
# path to the file, that contains the DCGM fields to collect
# collectors = "conf/input.dcgm/default-counters.csv"

# 是否是K8s环境,设置为true会附件Pod的信息
# Enable kubernetes mapping metrics to kubernetes pods
# kubernetes=false

# 指标中是否附加 gpu id 作为一个标签
# Choose Type of GPU ID to use to map kubernetes resources to pods. Possible values: "uid", "device-name"
# kubernetes-gpu-id-type = "uid"

# 是否使用 1.x 的ns
# Use old 1.x namespace
# use-old-namespace = false

# 支持的选项是f g i 
# f: FlexKey 如果MIG被禁用,则监控所有GPU;如果MIG被启用,则监控所有GPU实例
# g: MajorKey 监控top-level entities:GPU或NvSwitches或CPU 
# i: MinorKey 监控sub-level entities: GPU实例/NvLinks/CPU核心 - 如果MIG被禁用,则不能指定该选项
  cpu-devices = "f"

# 与cpu-devices的选项一样
# gpu devices
  devices = "f"

# 与cpu-devices的选项一样
  switch-devices = "f"

# 使用ConfigMap 
# ConfigMap <NAMESPACE>:<NAME> for metric data
  configmap-data = "none"

# 这里就是前置依赖的nvidia-dcgm服务, 如果是本机采集,则使用localhost:5555 ,如果是远程采集,则使用远端IP:5555
# Connect to remote hostengine at <HOST>:<PORT>
# remote-hostengine-info = "localhost:5555"

# 允许用户在没有实际GPU硬件的环境中模拟GPU, 仅用于测试
# Accept GPUs that are fake, for testing purposes only
# fake-gpus = false

# 将GPU型号名称中的每个空格替换为破折号,确保标识符连续且无空格。 
# Replaces every blank space in the GPU model name with a dash, ensuring a continuous, space-free identifier.
# replace-blanks-in-model-name = false
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat