Iluvatar 采集插件
本文介绍监控数据采集器 Categraf 的 天数gpu 指标采集插件iluvatar与配置
前置依赖
iluvatar 采集插件是fork ix-exporter,插件是与天数GPU驱动交互获取数据, 所以需要先安装ixsmi服务. 可以在天数官网-客户支持-资源中心下载。
推荐:企业版本>=v0.5.16 iluvatar插件与ix-exporter版本 版本对应关系
| categraf版本 | 企业版本 | ixsmi驱动版本 |
|---|---|---|
| - | >=v0.5.16 | >=V4.3.0 |
安装完成后,执行再补充一个so文件,执行如下命令
cd /usr/local/corex/lib64 && wget --header="Referer: http://flashcat.cloud" download.flashcat.cloud/libixdcgm.so.3.1.0 && ln -s libixdcgm.so.3.1.0 libixdcgm.so.3 && ln -s libixdcgm.so.3 libixdcgm.so
配置
iluvatar插件,需要下载categraf的iluvatar版本(只支持linux amd64)
配置文件在 conf/input.iluvatar/iluvatar.toml。
[[instances]]
# # 可选配置: metrics 的 yaml 配置文件的绝对路径。如果不配置,插件会生成默认配置并在 /tmp/categraf_ix_metrics.yaml 使用
# metrics_config = ""
# # 可选配置: 远程 ix-hostengine 的连接地址 (例如: 127.0.0.1:5555)。
# # 留空时,插件以 Embedded (内嵌) 模式启动,无需独立部署 hostengine 进程,但宿主机必须已>安装底层驱动 (CoreX)。
# remote_hostengine = ""
# # 全局或实例级别的超时配置,采集通常耗时较短,单位是 ms,默认不配会受全局控制
# timeout_ms = 5000
采集的指标和说明
| 指标名 | 说明 | 单位 |
|---|---|---|
iluvatar_ix_temperature |
GPU 温度 | °C |
iluvatar_ix_fan_speed |
风扇转速 | % |
iluvatar_ix_sm_clock |
SM 核心频率 | MHz |
iluvatar_ix_mem_clock |
显存频率 | MHz |
iluvatar_ix_mem_total |
显存总量 | MiB |
iluvatar_ix_mem_used |
已用显存 | MiB |
iluvatar_ix_mem_free |
可用显存 | MiB |
iluvatar_ix_gpu_utilization |
GPU 使用率 | % |
iluvatar_ix_mem_utilization |
显存带宽使用率 | % |
iluvatar_ix_sm_utilization |
SM 使用率 | % |
iluvatar_ix_power_usage |
功耗 | W |
iluvatar_ix_pcie_rx_throughput |
PCIe 读吞吐量 | KB/s |
iluvatar_ix_pcie_tx_throughput |
PCIe 写吞吐量 | KB/s |
iluvatar_ix_pcie_replay_counter |
PCIe 重传计数 | - |
iluvatar_ix_xid_errors |
最近一次 XID 错误码 | - |
iluvatar_ix_ecc_sbe_vol_status |
单比特 ECC 错误状态 | 0/1 |
iluvatar_ix_ecc_dbe_vol_status |
双比特 ECC 错误状态 | 0/1 |
iluvatar_ix_process_info |
GPU 进程显存占用 | MiB |