快猫星云博客 | 一站式智能观测平台 | 可观测性

Prometheus 告警恢复时，怎么获取恢复时的值？

Prometheus 告警事件中的 `$value` 表示当前告警触发时的值，但是在告警恢复时，Resolved 事件中的 `$value` 仍然是最新告警时的值，并非是恢复时的值，这是什么原因和原理？是否有办法来解决呢？

Posted by 巴辉特 on 2024-08-29 00:06:10

Flashcat方法产品技术 Prometheus

一张图说清告警值班 Oncall 全概念

告警集成、标签增强、聚合降噪、告警抑制、值班排班、认领升级转派、系统、通知、数据统计

Posted by 快猫星云 on 2024-08-27 00:00:00

flashduty 告警oncall 告警值班告警排班

SRE 必备知识 - Kafka 探秘之零拷贝技术

零拷贝技术可以大幅提升 Kafka 性能？原理和事实是什么？

Posted by Stanislav Kozlovski on 2024-08-26 00:06:10

他山之石可攻玉 Kafka

PagerDuty 国内替代方案

PagerDuty 是非常知名的告警事件聚合降噪的 OnCall 平台，市值几十亿美金的公司，起步甚早，深耕 global 市场，对于国内普通用户，如果想找一个 local 的替代方案，本文会介绍一个颇有竞争力的产品 Flashduty

Posted by 快猫星云 on 2024-08-21 00:06:10

flashduty 告警聚合告警降噪告警收敛告警认领告警排班 OnCall 告警协同告警升级 PagerDuty Flashduty

知乎：SLO 运营实践

在第二届 CCF 夜莺创新论坛上，知乎基础架构研发工程师邱天罡分享了知乎的可观测性体系实践和经验，以及如何利用 SLO 持续的度量、追踪和改进系统可用性。

Posted by 邱天罡-知乎 on 2024-08-20 09:08:08

Flashcat方法用户案例 SLO

期货行业的 Oncall 实践

期货行业的运维保障，具有一定的特殊性和独特的挑战，如何把相应的管理机制、技术要求、运营机制，落地到统一的监控事件响应平台，对于提升告警响应速度、降低运行维护压力，是我们提高系统的可靠性的关键抓手。

Posted by 快猫星云 on 2024-08-20 08:08:08

flashduty 用户案例 Oncall

使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标

如果您已经实施了跟踪但缺乏强大的指标功能怎么办？ SpanConnector 是一个通过将跟踪数据转换为可操作指标来弥补这一差距的工具。这篇文章详细介绍了 SpanConnector 的工作原理，提供了有关其配置和实现的指南。

Posted by Prathamesh Sonpatki on 2024-08-20 00:06:10

他山之石可攻玉可观测性可观测性体系建设 OpenTelemetry SpanConnector

解决方案：兼顾合规、便捷、可扩展，全球化的监控平台建设方案

中国企业出海，考虑到数据保护规则的要求以及跨大洲的网络传输条件受限，服务往往部署在全球多个 Region 或者多云上，这给系统的运行维护带来了一定的挑战，特别的聚焦在可观测性体系的建设上：1)需要在每个region独立部署一套可观测性工具，很多维护性和配置性的工作，需要重复搞多次；2)某些场景下，需要跨区域进行数据分析、制作报表的时候，力不从心；有的企业干脆选择把所有区域的可观测性数据，实时的汇聚到中心机房，集中维护和处理，也存在不小的隐患。

Posted by 快猫技术 on 2024-08-19 08:08:08

Flashcat方法解决方案出海监控工具监控系统监控系统合规 GDPR

9k star 监控系统，100% 国产，推荐了解

夜莺监控（Nightingale）应该算是国产监控当中 star 数量最高的开源项目了，目前已经 9000 多，如果你是从事运维、运维开发、基础设施相关的工作，可以了解看看

Posted by 夜莺开发小组 on 2024-08-19 06:06:10

夜莺 Nightingale

夜莺 v7.2.1 发版，支持查看告警事件通知记录

夜莺 v7.2.1 发版，告警详情页面支持查看告警事件通知记录

Posted by Nightingale on 2024-08-16 00:08:08

夜莺 Nightingale 夜莺监控开源夜莺

14条记录日志的最佳实践，请记好，吵架用

如何记录日志才是最佳实践，本文送你 14 条建议。关键点：确定日志记录的目标、区分日志级别、记录结构化日志、记录上下文、抽样、拥抱数据串联的力量、日志轮换、告警自动化、让团队都参与进来、不要记录一切、不要记录敏感信息、不要忽视日志对性能的影响、不要忽视日志安全、不要把日志看做银弹。

Posted by fulya.uluturk on 2024-08-15 00:06:10

Logging 日志

2024 年了，IT 运维监控系统都有哪些

时代变迁，我们一起来看看 2024 年的当下，哪些 IT 运维监控系统最值得关注。根据笔者对社区的观察来看，用户最多的几个产品分别是 Prometheus、Zabbix、Grafana、夜莺监控Nightingale。

Posted by 知识小二 on 2024-08-12 00:00:00

监控系统开源监控

运维 + AI，你得先搞懂这些

在会议现场，我分享了 Zenlayer 在 AI 方向的一些实践效果，有些基础知识、选型思考等，并未在大会现场展开，这里我会在这篇文章中进行一些补充，希望能够给大家带来一些启发。更多的是提供一种思路和需要了解的实现背景的逻辑，而不是给出固定化的实现方式，也是希望能够有更多活跃思考。

Posted by 钱誉 on 2024-08-07 00:00:00

AIOps 智能告警

在 Kubernetes 中部署 Alertmanager

Kubernetes 是当下最火爆的容器编排平台，很多软件都逐步迁移到了 Kubernetes，对于 Kubernetes 配套的监控系统，很多公司采用的是 Prometheus，Prometheus 配套的告警事件处理工具就是 Alertmanager，本文我们来看一下如何在 Kubernetes 中部署 Alertmanager

Posted by Bibin Wilson on 2024-08-06 00:06:10

Kubernetes Alertmanager Prometheus

在 Kubernetes 里部署 JMX Exporter 监控 Java 应用

本文会通过一个 Java 应用，演示 Prometheus JMX Exporter 在 Kubernetes 里的部署和配置方式。为了更好地理解 JMX Exporter，我们将使用 Spring Boot Java 应用程序并将所有 JMX 指标导出给 Prometheus。在本指南结束时，您将学习：

Posted by Bibin Wilson on 2024-07-31 00:06:10

Kubernetes JMX Exporter

第二届CCF·夜莺开发者创新论坛成功举办，免费领取 PPT

2024.7.26 相约北京，成功举办了第二届CCF·夜莺开发者创新论坛，来自字节跳动、滴滴、小米、作业帮、知乎、Zenlayer、国泰君安期货、大搜车、快猫等众多企业的讲师分享了各自对可观测性的理解和实践经验。

Posted by 夜莺运营小编 on 2024-07-29 00:06:10

夜莺开发者创新论坛夜莺监控开源监控

开源监控 - 夜莺项目 v7 正式发版了

经过一年的迭代，夜莺 v7 于 2024.7.26 在第二届 CCF·夜莺开发者创新论坛上正式发版

Posted by 村长 on 2024-07-29 00:00:08

夜莺 Nightingale 夜莺监控开源夜莺

Jenkins 高可用，到底怎么搞？

该博客涵盖了基本的 Jenkins 架构及其相关组件。如果您是 Jenkins 的初学者，它将帮助您了解 Jenkins 组件如何协同工作以及涉及的关键配置。

Posted by devopscube on 2024-07-24 15:06:10

Jenkins

Jenkins 架构详解 - 初学者指南

该博客涵盖了基本的 Jenkins 架构及其相关组件。如果您是 Jenkins 的初学者，它将帮助您了解 Jenkins 组件如何协同工作以及涉及的关键配置。

Posted by Bibin Wilson on 2024-07-24 08:06:10

Jenkins

实施 SLA、SLO 和 SLI：SRE 实用指南

Posted by Karthigayan Devan on 2024-07-23 16:10:10

SLA SLO SLI SRE

ai aiagent aiops alertmanager apache apiserver apm azure categraf catpaw ccf cdn chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl faq featureflag filelog flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia jvm k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki mcp-server metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis rum salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre syslog telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星不可变基础设施出海出海业务创业错误预算错误预算机制大厂实践大模型大模型智能oncall 滴滴夜莺钉钉钉钉通知飞书飞书通知分布式追踪服务稳定性告警告警oncall 告警丰富告警风暴告警规则告警降噪告警聚合告警排班告警认领告警升级告警事件告警收敛告警数据孤岛告警通知告警响应告警协同告警抑制告警引擎告警值班告警指派告警自愈根因定位故障故障复盘故障管理计算机学会架构师监控监控agent 监控方法论监控告警监控工具监控设计思考监控系统监控系统合规进程监控开源开源监控开源商业化开源夜莺可观测平台可观测性可观测性论坛可观测性体系建设客户案例快猫快猫星云连锁门店链路追踪埋点监控面试题灭火图普罗米修斯企微通知企业微信前端监控人工智能日志日志采集日志存储日志分析日志告警日志监控容器熔断时序库时序数据库事件监控手把手构建生产级监控系统他山之石提问的智慧通知规则统一监控网络可观测性网络排障尾采样稳定性保障稳定性方法论稳定性体系稳定性体系建设系统架构设计信创业务监控夜莺夜莺v8 夜莺短信告警夜莺黄埔营夜莺监控夜莺开发者创新论坛夜莺开源项目夜莺业务组夜莺用户案例医药健康仪表盘用户案例云厂商云原生监控云原生组织运维运维百家讲坛运维告警运维监控运维监控系统运维监控系统实战笔记智能oncall 智能告警自监控最佳实践