快猫星云博客 | 一站式智能观测平台 | 可观测性

可观测性 Observability 3.0 是个啥

可观测性 3.0 是个啥？本文介绍了可观测性 3.0 的背景、目标和实现方式，强调了成本效率和智能数据收集的重要性。

Posted by 翻译 on 2025-06-30 17:32:58

可观测性 Observability

大厂实践：Airbnb 使用 Impulse 进行负载测试

Airbnb 内部的负载测试框架 Impulse，支持上下文感知负载生成、依赖项模拟、流量收集等功能，帮助开发者进行自助式负载测试。

Posted by 翻译 on 2025-06-27 17:56:02

大厂实践

开源夜莺监控DIY发版时告警静默

使用夜莺监控 Pipeline 功能，轻松实现发版时告警静默，减少告警噪声，提高运维效率。

Posted by 网友投稿 on 2025-06-26 09:03:01

夜莺用户案例夜莺监控

5分钟学点架构模式 - 断路器模式

Circuit Breaker Pattern 是构建弹性、容错系统的重要工具。通过防止级联故障、提高系统稳定性和实现正常恢复，它在现代软件架构中发挥着至关重要的作用，尤其是在微服务环境中。无论您是构建大型企业应用程序还是较小的分布式系统，断路器都可以在故障条件下保持可靠运行方面改变游戏规则。

Posted by 翻译 on 2025-06-26 08:42:26

他山之石可攻玉熔断系统架构设计

夜莺监控V8发版，内置支持 DeepSeek 对接

夜莺监控发布了 v8.beta14 版本，新增 Postgres 告警支持和 AI Summary 处理器，增强业务监控能力。

Posted by 快猫运营团队 on 2025-06-23 19:56:50

夜莺夜莺监控

夜莺监控（Nightingale）与 Grafana 深度整合

夜莺监控（Nightingale）与 Grafana 深度整合，使用 SSO 解决登录问题，并将 Grafana 内嵌到夜莺中。

Posted by flycat on 2025-06-17 14:55:12

夜莺监控

十年磨一剑，运维监控、可观测性领域创业，拼的是产品细节和交付能力

从 2014 年开发 Open-Falcon 到后来开发 Nightingale 再到现在创业，算下来，在这个领域摸爬滚打 10 多年了。本文梳理了创业的原因、领域选择、痛点解决、产品区别等问题。

Posted by 秦晓辉 on 2025-06-17 09:42:05

创业运维监控可观测性

categraf 主配置文件解析

本文介绍categraf主配置文件config.toml解析

Posted by 笨鸟先飞@夜莺社区 on 2025-06-13 10:30:10

夜莺 Categraf Nightingale

夜莺V8.Beta13发版，支持MySQL数据源，更方便做业务指标监控了

Posted by 快猫运营团队 on 2025-06-09 09:15:09

夜莺夜莺监控

大厂出手了，微软推出 SRE agent 做故障定位

Azure SRE Agent 是一款 AI 驱动的工具，可以更轻松地维持生产云环境。它有助于快速有效地响应事件，减轻管理生产环境的工作量。

Posted by 译文 on 2025-06-06 09:03:04

SRE Azure AI

ELK的替代品：Opentelemetry + OpenSearch

从传统的ELK转向由OpenTelemetry和OpenSearch驱动的技术栈，能为您的日志需求提供更灵活、高效且真正开源的解决方案。您可以借助OTel实现标准化的遥测数据收集，从日志开始，之后再添加追踪和指标数据。这是在内部构建全栈可观测性系统的第一步

Posted by 译文 on 2025-06-04 11:51:28

他山之石可攻玉 OpenSearch Opentelemetry

夜莺V8.Beta11发版，支持CK告警、事件Pipeline等

Posted by 快猫运营团队 on 2025-06-03 08:58:03

夜莺夜莺监控

告警风暴肆虐：运维团队每年浪费 2000 小时在无效通知上，如何破局？

告警风暴是运维团队常见的痛点，严重影响工作效率和员工幸福感。通过治理告警规则、建立 On-call 机制、做好复盘、引入告警收敛降噪机制以及认领升级机制，可以有效减少告警打扰，提高团队的工作效率和满意度。行动起来吧，告别告警风暴，提升团队幸福感！

Posted by 快猫技术 on 2025-05-28 09:02:55

FlashDuty OnCall

如何处理复杂系统 - 我在 Google 工作时学到的

在 Google 工作时学到的关于复杂系统的经验和处理方法。

Posted by Teiva Harsanyi on 2025-05-26 14:15:40

SRE

运维想转SRE？先了解这7个原则

SRE （站点可靠性工程）是一种将运维问题视为软件问题的方法。本文介绍了 SRE 的七项原则，帮助运维人员转型为 SRE 专家。

Posted by 译文 on 2025-05-26 08:33:50

SRE

Stack Overflow 快死了

笔者前段时间建了几个 SRE 悬赏帮帮群，大家可以在群里相互悬赏问问题，不过明显感觉到 GPT 的出现让提问的需求变少了。今天偶尔刷到 Gergely Orosz 的文章，讲到 Stack Overflow 的数据，真是心有戚戚焉。

Posted by Gergely Orosz on 2025-05-19 14:19:50

顶级流媒体服务商 Spotify 2025.04 故障复盘报告，吃他人的堑长自己的智

本文是 Spotify 2025 年 4 月 16 日全球中断的故障复盘报告，分析了故障原因、时间线和改进措施。

Posted by Spotify on 2025-05-19 08:28:59

故障复盘

使用 Feature Flag 的常见错误，SRE 总要懂的一些最佳实践

希望本文能够帮助你更好地理解 Feature Flag 的使用，避免常见的错误和陷阱。Feature Flag 是一个强大的工具，但需要谨慎使用。通过遵循最佳实践，你可以充分利用它们的优势，同时避免潜在的问题。

Posted by Ian Vanagas on 2025-05-16 15:21:55

FeatureFlag

重新整理了机器的仪表盘和夜莺自身监控数据的仪表盘

在夜莺里重新整理了机器的仪表盘，包括 Categraf 作为采集器和 NodeExporter 作为采集器两种指标的仪表盘。也整理了夜莺 v8 版本的自身监控数据的仪表盘。自取。

Posted by 快猫运营团队 on 2025-05-14 15:41:42

夜莺夜莺监控

可观测性2.0？还是只是日志的卷土重来？

最近行业内讨论 Observability 2.0 又多起来了，怎么算是 2.0？如果我没记错，最原始的观点应该是 Honeycomb 的 CTO 提出来的。她说：三大支柱（指标、日志、链路追踪）时代是 Observability 1.0 时代，三类数据分散存储，不好统一分析，而 Observability 2.0 时代是三类数据统一存储，甚至不再归类为三类数据，而是统一归为“宽事件”数据，每个事件有很多字段和标签。

Posted by 快猫运营团队 on 2025-05-07 16:19:10

可观测性

ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google grok_exporter hadoop hana haproxy hdfs helm httpstat iac ibex ilo im协同 incident it监控 jaeger jenkins jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星不可变基础设施出海出海业务创业错误预算错误预算机制大厂实践大模型大模型智能oncall 滴滴夜莺钉钉钉钉通知飞书飞书通知服务稳定性告警告警oncall 告警丰富告警风暴告警规则告警降噪告警聚合告警排班告警认领告警升级告警事件告警收敛告警数据孤岛告警通知告警响应告警协同告警抑制告警引擎告警值班告警指派告警自愈根因定位故障故障复盘故障管理计算机学会架构师监控监控agent 监控方法论监控工具监控设计思考监控系统监控系统合规进程监控开源开源监控开源商业化开源夜莺可观测平台可观测性可观测性论坛可观测性体系建设客户案例快猫快猫星云连锁门店链路追踪埋点监控灭火图普罗米修斯企微通知企业微信人工智能日志日志存储日志分析日志告警日志监控容器熔断时序库时序数据库事件监控手把手构建生产级监控系统他山之石提问的智慧通知规则统一监控网络可观测性网络排障稳定性保障稳定性方法论稳定性体系稳定性体系建设系统架构设计信创业务监控夜莺夜莺v8 夜莺短信告警夜莺黄埔营夜莺监控夜莺开发者创新论坛夜莺开源项目夜莺业务组夜莺用户案例医药健康仪表盘用户案例云厂商云原生监控云原生组织运维运维百家讲坛运维告警运维监控运维监控系统运维监控系统实战笔记智能oncall 智能告警自监控最佳实践