监控GPU和InfiniBand的三种方法

监控 GPU 服务器和 InfiniBand 是确保高性能计算环境稳定运行的重要环节,是智算中心运行保障的关键能力。

透过 node-exporter 彻底弄懂机器监控:01. node-exporter 框架讲解

node-exporter 是 Prometheus 的官方 exporter 之一,用于监控 Linux 系统的各种指标。本文是专栏第一篇,介绍 node-exporter 的框架,后面会逐步深入 node-exporter 的原理和实现。

Prometheus 聚合查询的两个方案

多个 Prometheus 集群或者多个 VictoriaMetrics 集群,在 Grafana 和夜莺里通常需要创建多个不同的数据源,这也就意味着,数据没法聚合查询,比如统一做一下 sum 之类的运算会比较麻烦,本文讲述两种 Prometheus 生态的聚合查询方案,以供参考。

夜莺监控 v7.beta4 发版,仪表盘变量和业务组下的机器联动

仪表盘中的变量获取来源通常来自时序库,如果要查看机器相关的仪表盘数据,并做到方便的筛选,需要机器相关的指标提前打上各类标签,这个版本开始,仪表盘变量提供了一个新的筛选方式,可以和仪表盘所在业务组联动,自动获取业务组下的机器了

夜莺监控(Nightingale)上线内置指标功能

Prometheus 生态里如果要查询数据,需要编写 promql,对于普通用户来说,门槛有点高。通常有两种解法,一个是通过 AI 的手段做翻译,你用大白话跟 AI 提出你的诉求,让 AI 帮你写 promql,另一种是平台里内置现成的 promql,覆盖常用场景开箱即用。夜莺监控(Nightingale)最近上线了内置指标功能,即采用方案二,效果很棒值得尝试。

Prometheus 监控平台组件深度讲解

Prometheus 是一个非常流行的监控系统,作为运维或者 SRE 工程师一定要非常熟悉,即便是普通的研发,平时也要查问题,也要会使用 Prometheus。要了解一个开源项目,需要了解其架构和设计逻辑,本文会对 Prometheus 监控平台各个组件做深度讲解

已经有 Prometheus 了,还需要夜莺?

Prometheus 和 Nightingale 都被看做是监控系统,这俩是什么关系?相互替代还是相互协同?

记住三个关键开源许可证,选择开源项目不再犯难

开源许可证对比:陆续有一些知名开源项目,出于保护商业利益的角度出发,更改了自己的开源许可证,比如:Redis、Zabbix、Grafana、ElasticSearch、Kibana 等,开源许可证应该怎么选?

细说夜莺监控系统告警自愈机制

虽说监控系统最侧重的功能是指标采集、存储、分析、告警,为了能够快速恢复故障,告警自愈机制也是需要重点投入建设的,所有可以固化为脚本的应急预案都可以使用告警自愈机制来快速驱动

ETL 工具之日志提取组件选型比较

什么是ETL?ETL 是指 Extract、Transform、Load 的缩写,是一种常见的数据处理模式,用于将数据从一个数据源抽取(Extract)出来,经过转换(Transform)后加载(Load)到目标数据仓库或数据库中。如果数据源是日志文件,那么最通用的技术栈是ELK。本文对比 logstash 以及 fc-stash 两个 ETL 工具,供大家参考
标签
aiops apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo devops dns docker ebpf elastalert elasticsearch etcd etl flashcat flashduty flashduty-changelog gitops golang google grok_exporter hadoop haproxy hdfs iac ilo im协同 jaeger jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor logging logs metrics metricsql mimirtool monitoring mtail mysql netflix nightingale node-exporter nsenter observability oncall open-falcon openmetrics opentelemetry oracle监控 otel pingmesh postgresql product-feature prometheus prometheus告警 promql promxy rancher salt scheduler signoz skywalking sli slo snmp snmp-exporter sre telegraf tidb traces troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警协同 告警抑制 告警引擎 告警指派 告警自愈 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控设计思考 监控系统 开源 开源监控 开源夜莺 可观测性 可观测性论坛 可观测性体系建设 快猫 快猫星云 灭火图 企业微信 人工智能 日志分析 日志告警 容器 事件监控 手把手构建生产级监控系统 提问的智慧 网络可观测性 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维监控 运维监控系统实战笔记 智能告警 自监控
开源版
Flashcat
Flashduty