夜莺里如何引用标签和注解变量
夜莺里如何引用标签和注解变量?本文集中介绍了夜莺里引用标签和注解变量的两种场景,分别是告警规则和消息模板。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
夜莺里如何引用标签和注解变量?本文集中介绍了夜莺里引用标签和注解变量的两种场景,分别是告警规则和消息模板。
SLI 是可靠性工程中的一个基本概念。如果运用得当,它能从消费者的角度,依据业务目标对服务水平进行量化。本文介绍了 SLI 指南针,这是一种二维思维模型,可帮助您快速评估现有服务等级指标(SLI)的信噪比,并根据成本和复杂性评估服务等级指标。目标是帮助资深工程师、技术和工程负责人根据产品成熟度、预算、时间安排和使用模式选择合适的服务等级指标(SLI)。
Grafana可以对接多种数据源,对其中的数据做可视化分析。实际上,Grafana也可以配置告警规则,只是设计上相对拧巴,用户用的比较少。今天为大家介绍另一款开源项目,侧重点就是多数据源告警,希望可以帮到大家。这个项目叫夜莺监控。
本文介绍如何在 Kubernetes 集群中安装和使用 Prometheus 进行监控,包括安装 kube-prometheus-stack、查询数据、使用 Grafana 可视化等
本文介绍夜莺监控(Nightingale)的几种架构模式,包括仅作为告警引擎、数据流经夜莺、边缘架构等
Zabbix 和 Prometheus 都是开源监控领域的佼佼者。具体在落地是如何选型呢?本文从两个产品的发展历史、集成度、演进等方面做一些对比,希望能帮助你做出更好的选择。
这是来自 NetFlix 的 CORE 团队的 SRE 工程师 Hank Jacobs 分享的 NetFlix SRE 实践,介绍了 NetFlix CORE 团队的职责、工作方式以及他们如何确保 Netflix 服务的稳定性和可靠性。
这是某位仁兄去 NetFlix 面试的面试题之一,面试官要求应聘者在 5 分钟内尽可能多的写出 Unix 相关命令。以下是按字母顺序排列的常见Unix命令列表。
Prometheus 体系貌似已经成为新时代的监控标准,运维出去找工作,很多公司都要求掌握 Prometheus 相关知识。但是,Prometheus 实际在应用时,通常会遇到一个典型问题:告警规则管理问题。今天为大家介绍一个开源项目,就是来解决这个问题的,它的名字是:Nightingale,即夜莺监控。
本文将探讨 Prometheus 中的高基数概念,分析其产生的原因以及如何应对高基数带来的挑战。
本文分享了作者在构建公司第一个监控系统时的经验和教训,涵盖了自定义指标、最佳实践、验证指标管道等方面。
梳理 Java 程序的几种监控方式:Spring Boot Actuator、Micrometer、JMX 以及组件自带指标,并给出暴露 Prometheus 指标的思路。
笔者做监控 11 年,在可观测性领域创业 4 年,与各类客户沟通较多,发现很多企业想要建设可观测性体系,但是不得章法,我把整个建设过程做了一个简单总结,梳理一下其中的脉络,希望对你有所启发。
Flashduty 作为一站式告警 On-call 平台,会把各个监控系统的告警事件聚拢到一起,把相似的告警收敛为故障(incident),所以,在 Flashduty 中要提供故障本身的分析总结能力,这就理所当然。
我是业务应用的 DEV 或 SRE,我的应用依赖了底层服务和基础设施,比如依赖基础网络、Kubernetes、MySQL、收银台服务,那这些基础服务如果出问题,我应该收告警吗?夜莺里有个订阅规则,是不是就是为此设计的?
CPU 负载高,到底应不应该告警?这个问题困扰了很多监控新手、老手。今天我们就来聊聊这个问题。
第三届 CCF·夜莺开源创新论坛,于 2025.7.4 在京举行,论坛上,众多可观测性领域的专家齐聚一堂,共同分享、探讨监控、可观测性、AI 相关的议题。来自“滴滴出行”的内核专家张同浩,带来了主题为《HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析》的分享,笔者在现场作为观众受益良多,现将其内容整理如下,供大家参考。
在 Zepto,我们的可观测性平台经历了从 Prometheus + Thanos 到 Grafana Mimir 的重大转变。本文将深入探讨这一演进过程中的挑战、解决方案以及我们如何实现高效的多租户指标存储。
在本文中,我们将使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建一个完整的可观测性技术栈。我们将逐步介绍如何配置这些工具,以实现日志和指标的收集、存储和可视化。
想要在 SRE 职业生涯中实现工资翻倍?本文将介绍 SRE 需要掌握的关键能力,从硬核技术到跨团队协作,帮助你在竞争中脱颖而出。