Stack Overflow 快死了

笔者前段时间建了几个 SRE 悬赏帮帮群,大家可以在群里相互悬赏问问题,不过明显感觉到 GPT 的出现让提问的需求变少了。今天偶尔刷到 Gergely Orosz 的文章,讲到 Stack Overflow 的数据,真是心有戚戚焉。
Stack Overflow 快死了

顶级流媒体服务商 Spotify 2025.04 故障复盘报告,吃他人的堑长自己的智

本文是 Spotify 2025 年 4 月 16 日全球中断的故障复盘报告,分析了故障原因、时间线和改进措施。
顶级流媒体服务商 Spotify 2025.04 故障复盘报告,吃他人的堑长自己的智

使用 Feature Flag 的常见错误,SRE 总要懂的一些最佳实践

希望本文能够帮助你更好地理解 Feature Flag 的使用,避免常见的错误和陷阱。Feature Flag 是一个强大的工具,但需要谨慎使用。通过遵循最佳实践,你可以充分利用它们的优势,同时避免潜在的问题。
使用 Feature Flag 的常见错误,SRE 总要懂的一些最佳实践

重新整理了机器的仪表盘和夜莺自身监控数据的仪表盘

在夜莺里重新整理了机器的仪表盘,包括 Categraf 作为采集器和 NodeExporter 作为采集器两种指标的仪表盘。也整理了夜莺 v8 版本的自身监控数据的仪表盘。自取。
重新整理了机器的仪表盘和夜莺自身监控数据的仪表盘

可观测性2.0?还是只是日志的卷土重来?

最近行业内讨论 Observability 2.0 又多起来了,怎么算是 2.0?如果我没记错,最原始的观点应该是 Honeycomb 的 CTO 提出来的。她说:三大支柱(指标、日志、链路追踪)时代是 Observability 1.0 时代,三类数据分散存储,不好统一分析,而 Observability 2.0 时代是三类数据统一存储,甚至不再归类为三类数据,而是统一归为“宽事件”数据,每个事件有很多字段和标签。

如何更快处理故障 - 论心理模型重叠的重要性

在处理复杂故障时,心理模型的重叠是至关重要的。通过扩展知识范围、跨团队轮换和事故演练,我们可以更快地解决问题,避免不必要的延误和损失。
如何更快处理故障 - 论心理模型重叠的重要性

可观测性第四大支柱:配置数据的监控

业内经常讲可观测性有三大支柱:指标、日志、链路追踪,本文作者认为,还有第四大支柱:那就是配置类数据。配置类数据的变更也会影响系统的稳定性,也值得被监控,方便我们快速排查问题。
可观测性第四大支柱:配置数据的监控

用截图页面丰富告警内容

Flashcat 提供了一个截图推送的功能,可在系统出现异常或触发重要告警时,将观测系统里的某个页面截图发送到IM群,并引导用户从这个截图页面进入观测系统,进行下一步的分析定位。
用截图页面丰富告警内容

Zabbix 数据实时导入到 Flashcat

本文介绍如何将Zabbix监控数据实时导入Flashcat,使用Categraf的Zabbix插件实现数据的统一转储,方便后续数据串联分析。
Zabbix 数据实时导入到 Flashcat

Linux主机监控最佳实践

本文主要介绍在Flashcat监控系统中,对Linux主机监控的最佳实践,包括如何管理Linux主机,以及对Linux主机做到监控开箱即用的最佳实践。
Linux主机监控最佳实践

顶级 SaaS 公司 Datadog 是如何做 OnCall 的

Datadog 是监控、可观测性领域的头部玩家,市值几百亿美金,拥有众多 SaaS 客户,对服务稳定性和可用性要求极高。Datadog 的 OnCall 实践也非常成熟,本文将介绍 Datadog 的 OnCall 实践,帮助大家更好地理解 OnCall 的重要性和实施方法。
顶级 SaaS 公司 Datadog 是如何做 OnCall 的

SRE 最应该监控的四大黄金指标

本文详细介绍了 SRE 最应该监控的指标,通过引入 Google 4 Golden Signals、RED、USE 等方法论,并配合 Prometheus 配置说明,全面梳理讲解了各类关键指标的定义、计算方法和应用场景,帮助读者深入理解 SRE 监控的核心要素。这些知识是算是 SRE 的必备知识了。

常见的监控数据采集器有哪些?各有什么优缺点

市面上有很多监控数据采集器,比如 Telegraf、Categraf、Exporter、Datadog-agent、Alloy 等,各自都有哪些优缺点,本文来唠唠这个话题。
常见的监控数据采集器有哪些?各有什么优缺点

老虎如何吃下天 - 可观测性加大模型

面对海量的观测数据和复杂的IT环境,如何有效的连接观测系统和大模型,产生智能化的效果,总有一种老虎吃天,无从下嘴的感觉。本文将介绍Flashcat如何解决这个难题,有效的引进大模型,以及相应的案例。
老虎如何吃下天 - 可观测性加大模型

可观测性的 10 个最佳实践

本文讲解可观测性的重要性和 10 个最佳实践。帮助您的企业在复杂的 IT 环境中更好的生存和发展。
可观测性的 10 个最佳实践

仪表盘变量(大盘变量)使用说明

夜莺监控的仪表盘支持变量功能,和 Grafana 类似,本文给新手一个简单的使用说明。
仪表盘变量(大盘变量)使用说明

夜莺开源版和商业版的区别

夜莺监控系统有两个版本,一个是开源版,一个是 Flashcat 商业版,开源版是免费的,主打的功能是统一告警引擎,商业版侧重点是一站式智能观测平台
夜莺开源版和商业版的区别

又来一个挑战 Elastic 的,初识 SigLens

Elastic Stack 在日志领域具备无与伦比的地位,各类新兴的开源项目都声称比 Elastic 更节省资源,同时检索速度也不慢,今天我们来看看 SigLens。
又来一个挑战 Elastic 的,初识 SigLens

AI 和可观测性到底如何整合?

这一波 AI 浪潮跟以往都不同,各个行业都看到了新的可能性,都想把 AI 引入自己的场景,看看能迸发什么样的助力。笔者所在的监控、可观测性领域,也有各种尝试,比如:把事件交给 AI 直接分析,让 AI 帮忙编写 Promql 等,有没有其他重磅的应用场景?
AI 和可观测性到底如何整合?

夜莺监控手把手配置 ElasticSearch 日志告警

本文从头到尾手把手教你如何配置 ElasticSearch 日志告警,包含搭建夜莺、接入数据源、配置告警规则、通知规则等,一步一步演示整个过程。
夜莺监控手把手配置 ElasticSearch 日志告警

标签
ai aiops alertmanager apache apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google grok_exporter hadoop hana haproxy hdfs helm httpstat iac ibex ilo im协同 incident it监控 jaeger jenkins jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 错误预算 错误预算机制 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat