监控GPU和InfiniBand的三种方法

监控 GPU 服务器和 InfiniBand 是确保高性能计算环境稳定运行的重要环节,是智算中心运行保障的关键能力。
监控GPU和InfiniBand的三种方法

透过 node-exporter 彻底弄懂机器监控:01. node-exporter 框架讲解

node-exporter 是 Prometheus 的官方 exporter 之一,用于监控 Linux 系统的各种指标。本文是专栏第一篇,介绍 node-exporter 的框架,后面会逐步深入 node-exporter 的原理和实现。
透过 node-exporter 彻底弄懂机器监控:01. node-exporter 框架讲解

Prometheus 聚合查询的两个方案

多个 Prometheus 集群或者多个 VictoriaMetrics 集群,在 Grafana 和夜莺里通常需要创建多个不同的数据源,这也就意味着,数据没法聚合查询,比如统一做一下 sum 之类的运算会比较麻烦,本文讲述两种 Prometheus 生态的聚合查询方案,以供参考。
Prometheus 聚合查询的两个方案

夜莺监控 v7.beta4 发版,仪表盘变量和业务组下的机器联动

仪表盘中的变量获取来源通常来自时序库,如果要查看机器相关的仪表盘数据,并做到方便的筛选,需要机器相关的指标提前打上各类标签,这个版本开始,仪表盘变量提供了一个新的筛选方式,可以和仪表盘所在业务组联动,自动获取业务组下的机器了

夜莺监控(Nightingale)上线内置指标功能

Prometheus 生态里如果要查询数据,需要编写 promql,对于普通用户来说,门槛有点高。通常有两种解法,一个是通过 AI 的手段做翻译,你用大白话跟 AI 提出你的诉求,让 AI 帮你写 promql,另一种是平台里内置现成的 promql,覆盖常用场景开箱即用。夜莺监控(Nightingale)最近上线了内置指标功能,即采用方案二,效果很棒值得尝试。
夜莺监控(Nightingale)上线内置指标功能

Prometheus 监控平台组件深度讲解

Prometheus 是一个非常流行的监控系统,作为运维或者 SRE 工程师一定要非常熟悉,即便是普通的研发,平时也要查问题,也要会使用 Prometheus。要了解一个开源项目,需要了解其架构和设计逻辑,本文会对 Prometheus 监控平台各个组件做深度讲解
Prometheus 监控平台组件深度讲解

已经有 Prometheus 了,还需要夜莺?

Prometheus 和 Nightingale 都被看做是监控系统,这俩是什么关系?相互替代还是相互协同?
已经有 Prometheus 了,还需要夜莺?

记住三个关键开源许可证,选择开源项目不再犯难

开源许可证对比:陆续有一些知名开源项目,出于保护商业利益的角度出发,更改了自己的开源许可证,比如:Redis、Zabbix、Grafana、ElasticSearch、Kibana 等,开源许可证应该怎么选?
记住三个关键开源许可证,选择开源项目不再犯难

细说夜莺监控系统告警自愈机制

虽说监控系统最侧重的功能是指标采集、存储、分析、告警,为了能够快速恢复故障,告警自愈机制也是需要重点投入建设的,所有可以固化为脚本的应急预案都可以使用告警自愈机制来快速驱动
细说夜莺监控系统告警自愈机制

ETL 工具之日志提取组件选型比较

什么是ETL?ETL 是指 Extract、Transform、Load 的缩写,是一种常见的数据处理模式,用于将数据从一个数据源抽取(Extract)出来,经过转换(Transform)后加载(Load)到目标数据仓库或数据库中。如果数据源是日志文件,那么最通用的技术栈是ELK。本文对比 logstash 以及 fc-stash 两个 ETL 工具,供大家参考
ETL 工具之日志提取组件选型比较

排查 502 Bad Gateway 的常见思路

浏览器侧看到请求超时,status code 502,即 bad gateway,可能的原因有哪些呢?本文从 SRE 视角给一些常见的排查思路
排查 502 Bad Gateway 的常见思路

大白话浅析容器网络

容器网络最为典型的是 host network 和 bridge network,本文对二者做对比解释
大白话浅析容器网络

FlashDuty Changelog 2024-04-22 | 标签增强、IM集成、故障列表与协作空间优化

支持对告警标签进行增强;IM集成卡片内容丰富;故障列表支持自定义展示;协作空间支持排序和收藏
FlashDuty Changelog 2024-04-22 | 标签增强、IM集成、故障列表与协作空间优化

网络监控:无线监控这个面板好养眼

来自社区用户写的文章,利用Categraf+VictoriaMetrics替换SNMP EXporter+Prometheus,紧接上篇对交换机的监控,本篇是一个无线设备的监控的案例
网络监控:无线监控这个面板好养眼

你唯一需要的是“Wide Events”,而非“Metrics、Logs、Traces”

你唯一需要的是宽事件 “Wide Events”,而非三大支柱 “Metrics、Logs、Traces”。本文作者曾是 Meta 员工,个中思路值得借鉴。
你唯一需要的是“Wide Events”,而非“Metrics、Logs、Traces”

手摸手教你把Ingress Nginx集成进Skywalking

本文重点介绍如何将 Ingress Nginx 集成进 Skywalking,将其作为 Skywalking 的一个节点,并且在access log 中打印TraceID,从而在出现故障的时候,可以通过日志中的TraceID快速找到调用链路,达到快速故障定位的效果。
手摸手教你把Ingress Nginx集成进Skywalking

网络监控:交换机监控新姿势

来自社区用户写的文章,在网络监控领域利用Categraf+VictoriaMetrics替换SNMP EXporter+Prometheus,使其更加友好和方便,并且性能和扩展性进一步提高
网络监控:交换机监控新姿势

写了一个 SRE 调试工具,类似一个小木马

远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件 3.打印 HTTP 请求
写了一个 SRE 调试工具,类似一个小木马

夜莺监控 V7 第二个 beta 版本发布,内置集成故障自愈能力,简化部署

夜莺监控 V5 和 V6 版本都支持故障自愈功能,但是均需要单独部署 ibex 模块,从 V7 beta2 版本开始,夜莺内置集成了 ibex 模块,无需单独部署 ibex,大大简化了部署流程。

SRE 必备利器:域名 DNS 探测排障工具

访问某个 HTTP 域名接口,偶发性超时,原因可能多种多样,比如 DNS 解析问题、网络质量问题、对端服务负载问题等,在客户端没有良好埋点的情况下,排查起来比较费劲,只能挨个方向尝试,这里送大家一个小工具,可以快速采样 DNS 解析延迟,快速确认是否是 DNS 解析问题。
SRE 必备利器:域名 DNS 探测排障工具

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google grok_exporter hadoop hana haproxy hdfs helm httpstat iac ibex ilo im协同 incident it监控 jaeger jenkins jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat