利用 OpenTelemetry 实现尾采样

尾采样正在彻底改变各组织处理遥测数据的方式,在优化存储成本和系统性能的同时,以前所未有的精度捕获最有价值的追踪数据。

夜莺里如何引用标签和注解变量

夜莺里如何引用标签和注解变量?本文集中介绍了夜莺里引用标签和注解变量的两种场景,分别是告警规则和消息模板。
夜莺里如何引用标签和注解变量

SLI指南针:保真度和粒度

SLI 是可靠性工程中的一个基本概念。如果运用得当,它能从消费者的角度,依据业务目标对服务水平进行量化。本文介绍了 SLI 指南针,这是一种二维思维模型,可帮助您快速评估现有服务等级指标(SLI)的信噪比,并根据成本和复杂性评估服务等级指标。目标是帮助资深工程师、技术和工程负责人根据产品成熟度、预算、时间安排和使用模式选择合适的服务等级指标(SLI)。
SLI指南针:保真度和粒度

Grafana侧重可视化,那多数据源告警呢?

Grafana可以对接多种数据源,对其中的数据做可视化分析。实际上,Grafana也可以配置告警规则,只是设计上相对拧巴,用户用的比较少。今天为大家介绍另一款开源项目,侧重点就是多数据源告警,希望可以帮到大家。这个项目叫夜莺监控。
Grafana侧重可视化,那多数据源告警呢?

Prometheus 监控 Kubernetes Cluster 最新极简教程

本文介绍如何在 Kubernetes 集群中安装和使用 Prometheus 进行监控,包括安装 kube-prometheus-stack、查询数据、使用 Grafana 可视化等
Prometheus 监控 Kubernetes Cluster 最新极简教程

夜莺监控的几种架构模式详解

本文介绍夜莺监控(Nightingale)的几种架构模式,包括仅作为告警引擎、数据流经夜莺、边缘架构等
夜莺监控的几种架构模式详解

监控系统如何选型:Zabbix vs Prometheus

Zabbix 和 Prometheus 都是开源监控领域的佼佼者。具体在落地是如何选型呢?本文从两个产品的发展历史、集成度、演进等方面做一些对比,希望能帮助你做出更好的选择。

NetFlix SRE 实践

这是来自 NetFlix 的 CORE 团队的 SRE 工程师 Hank Jacobs 分享的 NetFlix SRE 实践,介绍了 NetFlix CORE 团队的职责、工作方式以及他们如何确保 Netflix 服务的稳定性和可靠性。

NetFlix 面试题:从 A-Z 列出 Unix 命令

这是某位仁兄去 NetFlix 面试的面试题之一,面试官要求应聘者在 5 分钟内尽可能多的写出 Unix 相关命令。以下是按字母顺序排列的常见Unix命令列表。

为 Prometheus 告警规则增加 UI 管理能力

Prometheus 体系貌似已经成为新时代的监控标准,运维出去找工作,很多公司都要求掌握 Prometheus 相关知识。但是,Prometheus 实际在应用时,通常会遇到一个典型问题:告警规则管理问题。今天为大家介绍一个开源项目,就是来解决这个问题的,它的名字是:Nightingale,即夜莺监控。
为 Prometheus 告警规则增加 UI 管理能力

如何监控多个进程的存活和CPU、内存占用

本文介绍如何使用夜莺监控(Nightingale)和 Categraf 来监控多个进程的存活性以及 CPU、内存等资源占用情况。
如何监控多个进程的存活和CPU、内存占用

何为 Prometheus 高基数?为何有时会有高基数峰值?

本文将探讨 Prometheus 中的高基数概念,分析其产生的原因以及如何应对高基数带来的挑战。
何为 Prometheus 高基数?为何有时会有高基数峰值?

我构建了公司第一个监控系统,这里是我学到的

本文分享了作者在构建公司第一个监控系统时的经验和教训,涵盖了自定义指标、最佳实践、验证指标管道等方面。
我构建了公司第一个监控系统,这里是我学到的

Java 程序监控 - Actuator、Micrometer、JMX、组件自身暴露指标

该博客涵盖了 Java 程序监控的多种方式,包括 Actuator、Micrometer、JMX 和组件自身暴露指标。

可观测性体系建设五步心法:明业务、立规范、采数据、显特征、获洞见

笔者做监控 11 年,在可观测性领域创业 4 年,与各类客户沟通较多,发现很多企业想要建设可观测性体系,但是不得章法,我把整个建设过程做了一个简单总结,梳理一下其中的脉络,希望对你有所启发。

引入 AI 分析故障,Flashduty 又进步了

Flashduty 作为一站式告警 On-call 平台,会把各个监控系统的告警事件聚拢到一起,把相似的告警收敛为故障(incident),所以,在 Flashduty 中要提供故障本身的分析总结能力,这就理所当然。
引入 AI 分析故障,Flashduty 又进步了

底层的告警,上层应用应该收吗?

我是业务应用的 DEV 或 SRE,我的应用依赖了底层服务和基础设施,比如依赖基础网络、Kubernetes、MySQL、收银台服务,那这些基础服务如果出问题,我应该收告警吗?夜莺里有个订阅规则,是不是就是为此设计的?

CPU 负载高,到底应不应该告警??

CPU 负载高,到底应不应该告警?这个问题困扰了很多监控新手、老手。今天我们就来聊聊这个问题。

HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析

第三届 CCF·夜莺开源创新论坛,于 2025.7.4 在京举行,论坛上,众多可观测性领域的专家齐聚一堂,共同分享、探讨监控、可观测性、AI 相关的议题。来自“滴滴出行”的内核专家张同浩,带来了主题为《HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析》的分享,笔者在现场作为观众受益良多,现将其内容整理如下,供大家参考。
HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析

突破指标上限:Zepto 借助 Mimir 实现的可观测性演进

在 Zepto,我们的可观测性平台经历了从 Prometheus + Thanos 到 Grafana Mimir 的重大转变。本文将深入探讨这一演进过程中的挑战、解决方案以及我们如何实现高效的多租户指标存储。
突破指标上限:Zepto 借助 Mimir 实现的可观测性演进

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控告警 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 面试题 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 尾采样 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat