监控GPU和InfiniBand的三种方法
介绍 GPU 服务器与 InfiniBand 的监控方案,对比 nvidia-smi 和 DCGM,并演示如何结合 Categraf 与 Exporter 接入夜莺。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
介绍 GPU 服务器与 InfiniBand 的监控方案,对比 nvidia-smi 和 DCGM,并演示如何结合 Categraf 与 Exporter 接入夜莺。
node-exporter 是 Prometheus 的官方 exporter 之一,用于监控 Linux 系统的各种指标。本文是专栏第一篇,介绍 node-exporter 的框架,后面会逐步深入 node-exporter 的原理和实现。
多个 Prometheus 集群或者多个 VictoriaMetrics 集群,在 Grafana 和夜莺里通常需要创建多个不同的数据源,这也就意味着,数据没法聚合查询,比如统一做一下 sum 之类的运算会比较麻烦,本文讲述两种 Prometheus 生态的聚合查询方案,以供参考。
仪表盘中的变量获取来源通常来自时序库,如果要查看机器相关的仪表盘数据,并做到方便的筛选,需要机器相关的指标提前打上各类标签,这个版本开始,仪表盘变量提供了一个新的筛选方式,可以和仪表盘所在业务组联动,自动获取业务组下的机器了
Prometheus 生态里如果要查询数据,需要编写 promql,对于普通用户来说,门槛有点高。通常有两种解法,一个是通过 AI 的手段做翻译,你用大白话跟 AI 提出你的诉求,让 AI 帮你写 promql,另一种是平台里内置现成的 promql,覆盖常用场景开箱即用。夜莺监控(Nightingale)最近上线了内置指标功能,即采用方案二,效果很棒值得尝试。
Prometheus 是一个非常流行的监控系统,作为运维或者 SRE 工程师一定要非常熟悉,即便是普通的研发,平时也要查问题,也要会使用 Prometheus。要了解一个开源项目,需要了解其架构和设计逻辑,本文会对 Prometheus 监控平台各个组件做深度讲解
Prometheus 和 Nightingale 都被看做是监控系统,这俩是什么关系?相互替代还是相互协同?
开源许可证对比:陆续有一些知名开源项目,出于保护商业利益的角度出发,更改了自己的开源许可证,比如:Redis、Zabbix、Grafana、ElasticSearch、Kibana 等,开源许可证应该怎么选?
虽说监控系统最侧重的功能是指标采集、存储、分析、告警,为了能够快速恢复故障,告警自愈机制也是需要重点投入建设的,所有可以固化为脚本的应急预案都可以使用告警自愈机制来快速驱动
什么是ETL?ETL 是指 Extract、Transform、Load 的缩写,是一种常见的数据处理模式,用于将数据从一个数据源抽取(Extract)出来,经过转换(Transform)后加载(Load)到目标数据仓库或数据库中。如果数据源是日志文件,那么最通用的技术栈是ELK。本文对比 logstash 以及 fc-stash 两个 ETL 工具,供大家参考
浏览器侧看到请求超时,status code 502,即 bad gateway,可能的原因有哪些呢?本文从 SRE 视角给一些常见的排查思路
容器网络最为典型的是 host network 和 bridge network,本文对二者做对比解释
支持对告警标签进行增强;IM集成卡片内容丰富;故障列表支持自定义展示;协作空间支持排序和收藏
你唯一需要的是宽事件 “Wide Events”,而非三大支柱 “Metrics、Logs、Traces”。本文作者曾是 Meta 员工,个中思路值得借鉴。
本文重点介绍如何将 Ingress Nginx 集成进 Skywalking,将其作为 Skywalking 的一个节点,并且在access log 中打印TraceID,从而在出现故障的时候,可以通过日志中的TraceID快速找到调用链路,达到快速故障定位的效果。
远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件 3.打印 HTTP 请求
夜莺监控 V5 和 V6 版本都支持故障自愈功能,但是均需要单独部署 ibex 模块,从 V7 beta2 版本开始,夜莺内置集成了 ibex 模块,无需单独部署 ibex,大大简化了部署流程。
访问某个 HTTP 域名接口,偶发性超时,原因可能多种多样,比如 DNS 解析问题、网络质量问题、对端服务负载问题等,在客户端没有良好埋点的情况下,排查起来比较费劲,只能挨个方向尝试,这里送大家一个小工具,可以快速采样 DNS 解析延迟,快速确认是否是 DNS 解析问题。
ulimit 是 Linux 系统中的一个命令,用于设置用户进程的资源限制。在使用 ulimit 时,有两个天坑需要注意。
本文将结合实战经验,介绍一种日志分析的实现,分析如何在稳定性保障中用好日志这个维度,以及日志如何与指标、链路相互配合形成故障定位的最佳实践。