Prometheus 监控 Kubernetes Cluster 最新极简教程

本文介绍如何在 Kubernetes 集群中安装和使用 Prometheus 进行监控,包括安装 kube-prometheus-stack、查询数据、使用 Grafana 可视化等
Prometheus 监控 Kubernetes Cluster 最新极简教程

夜莺监控的几种架构模式详解

本文介绍夜莺监控(Nightingale)的几种架构模式,包括仅作为告警引擎、数据流经夜莺、边缘架构等
夜莺监控的几种架构模式详解

监控系统如何选型:Zabbix vs Prometheus

Zabbix 和 Prometheus 都是开源监控领域的佼佼者。具体在落地是如何选型呢?本文从两个产品的发展历史、集成度、演进等方面做一些对比,希望能帮助你做出更好的选择。

NetFlix SRE 实践

这是来自 NetFlix 的 CORE 团队的 SRE 工程师 Hank Jacobs 分享的 NetFlix SRE 实践,介绍了 NetFlix CORE 团队的职责、工作方式以及他们如何确保 Netflix 服务的稳定性和可靠性。

NetFlix 面试题:从 A-Z 列出 Unix 命令

这是某位仁兄去 NetFlix 面试的面试题之一,面试官要求应聘者在 5 分钟内尽可能多的写出 Unix 相关命令。以下是按字母顺序排列的常见Unix命令列表。

为 Prometheus 告警规则增加 UI 管理能力

Prometheus 体系貌似已经成为新时代的监控标准,运维出去找工作,很多公司都要求掌握 Prometheus 相关知识。但是,Prometheus 实际在应用时,通常会遇到一个典型问题:告警规则管理问题。今天为大家介绍一个开源项目,就是来解决这个问题的,它的名字是:Nightingale,即夜莺监控。
为 Prometheus 告警规则增加 UI 管理能力

如何监控多个进程的存活和CPU、内存占用

本文介绍如何使用夜莺监控(Nightingale)和 Categraf 来监控多个进程的存活性以及 CPU、内存等资源占用情况。
如何监控多个进程的存活和CPU、内存占用

何为 Prometheus 高基数?为何有时会有高基数峰值?

本文将探讨 Prometheus 中的高基数概念,分析其产生的原因以及如何应对高基数带来的挑战。
何为 Prometheus 高基数?为何有时会有高基数峰值?

我构建了公司第一个监控系统,这里是我学到的

本文分享了作者在构建公司第一个监控系统时的经验和教训,涵盖了自定义指标、最佳实践、验证指标管道等方面。
我构建了公司第一个监控系统,这里是我学到的

Java 程序监控 - Actuator、Micrometer、JMX、组件自身暴露指标

该博客涵盖了 Java 程序监控的多种方式,包括 Actuator、Micrometer、JMX 和组件自身暴露指标。

可观测性体系建设五步心法:明业务、立规范、采数据、显特征、获洞见

笔者做监控 11 年,在可观测性领域创业 4 年,与各类客户沟通较多,发现很多企业想要建设可观测性体系,但是不得章法,我把整个建设过程做了一个简单总结,梳理一下其中的脉络,希望对你有所启发。

引入 AI 分析故障,Flashduty 又进步了

Flashduty 作为一站式告警 On-call 平台,会把各个监控系统的告警事件聚拢到一起,把相似的告警收敛为故障(incident),所以,在 Flashduty 中要提供故障本身的分析总结能力,这就理所当然。
引入 AI 分析故障,Flashduty 又进步了

底层的告警,上层应用应该收吗?

我是业务应用的 DEV 或 SRE,我的应用依赖了底层服务和基础设施,比如依赖基础网络、Kubernetes、MySQL、收银台服务,那这些基础服务如果出问题,我应该收告警吗?夜莺里有个订阅规则,是不是就是为此设计的?

CPU 负载高,到底应不应该告警??

CPU 负载高,到底应不应该告警?这个问题困扰了很多监控新手、老手。今天我们就来聊聊这个问题。

HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析

第三届 CCF·夜莺开源创新论坛,于 2025.7.4 在京举行,论坛上,众多可观测性领域的专家齐聚一堂,共同分享、探讨监控、可观测性、AI 相关的议题。来自“滴滴出行”的内核专家张同浩,带来了主题为《HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析》的分享,笔者在现场作为观众受益良多,现将其内容整理如下,供大家参考。
HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析

突破指标上限:Zepto 借助 Mimir 实现的可观测性演进

在 Zepto,我们的可观测性平台经历了从 Prometheus + Thanos 到 Grafana Mimir 的重大转变。本文将深入探讨这一演进过程中的挑战、解决方案以及我们如何实现高效的多租户指标存储。
突破指标上限:Zepto 借助 Mimir 实现的可观测性演进

使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建完整的可观测性技术栈

在本文中,我们将使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建一个完整的可观测性技术栈。我们将逐步介绍如何配置这些工具,以实现日志和指标的收集、存储和可视化。
使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建完整的可观测性技术栈

掌握这些能力,工资翻倍不成问题

想要在 SRE 职业生涯中实现工资翻倍?本文将介绍 SRE 需要掌握的关键能力,从硬核技术到跨团队协作,帮助你在竞争中脱颖而出。

负载均衡100,000个WebSocket连接:HAProxy、Nginx与自定义方案的对比

在处理100,000个WebSocket连接的挑战中,我们探索了HAProxy、Nginx和自定义解决方案的性能和可靠性。本文分享了我们的经验教训和最佳实践,帮助你在高并发场景下选择合适的负载均衡器。
负载均衡100,000个WebSocket连接:HAProxy、Nginx与自定义方案的对比

从首席工程师身上学到的10条经验教训

与首席工程师共事一年,我从他身上学到了10条宝贵的经验教训。这些经验教训改变了我的编码方式、沟通方式以及做出贡献的方式。以下是我从他身上学到的10条经验教训。

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控告警 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 面试题 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat