可观测性 Observability 3.0 是个啥

可观测性 3.0 是个啥?本文介绍了可观测性 3.0 的背景、目标和实现方式,强调了成本效率和智能数据收集的重要性。
可观测性 Observability 3.0 是个啥

大厂实践:Airbnb 使用 Impulse 进行负载测试

Airbnb 内部的负载测试框架 Impulse,支持上下文感知负载生成、依赖项模拟、流量收集等功能,帮助开发者进行自助式负载测试。
大厂实践:Airbnb 使用 Impulse 进行负载测试

开源夜莺监控DIY发版时告警静默

使用夜莺监控 Pipeline 功能,轻松实现发版时告警静默,减少告警噪声,提高运维效率。
开源夜莺监控DIY发版时告警静默

5分钟学点架构模式 - 断路器模式

Circuit Breaker Pattern 是构建弹性、容错系统的重要工具。通过防止级联故障、提高系统稳定性和实现正常恢复,它在现代软件架构中发挥着至关重要的作用,尤其是在微服务环境中。无论您是构建大型企业应用程序还是较小的分布式系统,断路器都可以在故障条件下保持可靠运行方面改变游戏规则。
5分钟学点架构模式 - 断路器模式

夜莺监控V8发版,内置支持 DeepSeek 对接

夜莺监控发布了 v8.beta14 版本,新增 Postgres 告警支持和 AI Summary 处理器,增强业务监控能力。
夜莺监控V8发版,内置支持 DeepSeek 对接

夜莺监控(Nightingale)与 Grafana 深度整合

夜莺监控(Nightingale)与 Grafana 深度整合,使用 SSO 解决登录问题,并将 Grafana 内嵌到夜莺中。
夜莺监控(Nightingale)与 Grafana 深度整合

十年磨一剑,运维监控、可观测性领域创业,拼的是产品细节和交付能力

从 2014 年开发 Open-Falcon 到后来开发 Nightingale 再到现在创业,算下来,在这个领域摸爬滚打 10 多年了。本文梳理了创业的原因、领域选择、痛点解决、产品区别等问题。
十年磨一剑,运维监控、可观测性领域创业,拼的是产品细节和交付能力

categraf 主配置文件解析

本文介绍categraf主配置文件config.toml解析
categraf 主配置文件解析

夜莺V8.Beta13发版,支持MySQL数据源,更方便做业务指标监控了

本文介绍夜莺监控项目的最新版本 v8.0.0-beta13,新增了对 MySQL 数据源的支持,进一步增强了夜莺在业务指标监控方面的能力。
夜莺V8.Beta13发版,支持MySQL数据源,更方便做业务指标监控了

大厂出手了,微软推出 SRE agent 做故障定位

Azure SRE Agent 是一款 AI 驱动的工具,可以更轻松地维持生产云环境。它有助于快速有效地响应事件,减轻管理生产环境的工作量。
大厂出手了,微软推出 SRE agent 做故障定位

ELK的替代品:Opentelemetry + OpenSearch

从传统的ELK转向由OpenTelemetry和OpenSearch驱动的技术栈,能为您的日志需求提供更灵活、高效且真正开源的解决方案。您可以借助OTel实现标准化的遥测数据收集,从日志开始,之后再添加追踪和指标数据。这是在内部构建全栈可观测性系统的第一步

夜莺V8.Beta11发版,支持CK告警、事件Pipeline等

本文介绍夜莺监控项目的最新版本 v8.0.0-beta11,新增了对 ClickHouse 的告警支持、事件 Pipeline 功能等。这个版本的更新进一步增强了夜莺的功能和灵活性,适用于更广泛的监控场景。

告警风暴肆虐:运维团队每年浪费 2000 小时在无效通知上,如何破局?

告警风暴是运维团队常见的痛点,严重影响工作效率和员工幸福感。通过治理告警规则、建立 On-call 机制、做好复盘、引入告警收敛降噪机制以及认领升级机制,可以有效减少告警打扰,提高团队的工作效率和满意度。行动起来吧,告别告警风暴,提升团队幸福感!

如何处理复杂系统 - 我在 Google 工作时学到的

在 Google 工作时学到的关于复杂系统的经验和处理方法。

运维想转SRE?先了解这7个原则

SRE (站点可靠性工程)是一种将运维问题视为软件问题的方法。本文介绍了 SRE 的七项原则,帮助运维人员转型为 SRE 专家。

Stack Overflow 快死了

笔者前段时间建了几个 SRE 悬赏帮帮群,大家可以在群里相互悬赏问问题,不过明显感觉到 GPT 的出现让提问的需求变少了。今天偶尔刷到 Gergely Orosz 的文章,讲到 Stack Overflow 的数据,真是心有戚戚焉。
Stack Overflow 快死了

顶级流媒体服务商 Spotify 2025.04 故障复盘报告,吃他人的堑长自己的智

本文是 Spotify 2025 年 4 月 16 日全球中断的故障复盘报告,分析了故障原因、时间线和改进措施。
顶级流媒体服务商 Spotify 2025.04 故障复盘报告,吃他人的堑长自己的智

使用 Feature Flag 的常见错误,SRE 总要懂的一些最佳实践

希望本文能够帮助你更好地理解 Feature Flag 的使用,避免常见的错误和陷阱。Feature Flag 是一个强大的工具,但需要谨慎使用。通过遵循最佳实践,你可以充分利用它们的优势,同时避免潜在的问题。
使用 Feature Flag 的常见错误,SRE 总要懂的一些最佳实践

重新整理了机器的仪表盘和夜莺自身监控数据的仪表盘

在夜莺里重新整理了机器的仪表盘,包括 Categraf 作为采集器和 NodeExporter 作为采集器两种指标的仪表盘。也整理了夜莺 v8 版本的自身监控数据的仪表盘。自取。
重新整理了机器的仪表盘和夜莺自身监控数据的仪表盘

可观测性2.0?还是只是日志的卷土重来?

最近行业内讨论 Observability 2.0 又多起来了,怎么算是 2.0?如果我没记错,最原始的观点应该是 Honeycomb 的 CTO 提出来的。她说:三大支柱(指标、日志、链路追踪)时代是 Observability 1.0 时代,三类数据分散存储,不好统一分析,而 Observability 2.0 时代是三类数据统一存储,甚至不再归类为三类数据,而是统一归为“宽事件”数据,每个事件有很多字段和标签。

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google grok_exporter hadoop hana haproxy hdfs helm httpstat iac ibex ilo im协同 incident it监控 jaeger jenkins jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat