监控重要事项:大规模系统的告警实践

在现代分布式系统中,性能不仅仅是速度——它是在规模上平衡延迟、可用性和资源效率的问题。有效的警报对于维持这种平衡至关重要。没有它,团队可能会错过真正的故障,对假阳性反应过度,或者对缓慢的退化视而不见。本指南概述了设计重要警报的实用方法——这样您就可以捕捉到出错的,忽略那些没有问题的,并自信地扩展。
监控重要事项:大规模系统的告警实践

一张图掌握在线系统健康状态

服务出现故障时,有没有一张图能够呈现出全系统各部分的健康状态,以便技术团队追查问题时快速找准范围,也方便经理、老板指挥故障处理时,心中有数,有的放矢?
一张图掌握在线系统健康状态

应用日志(Application Logging)记录的最佳实践

应用程序的日志是排查问题的关键手段,本文介绍了应用日志记录的最佳实践,包括日志级别、格式、存储等多个方面。

增强您的可观察性:将 Logrus 与 Grafana Loki 集成

Grafana Loki 是很知名的开源日志存储和查询系统,Logrus 是很知名的 Golang 日志库,本文介绍如何将它们集成在一起。通过 Logrus 的钩子机制,我们可以将日志直接发送到 Loki,增强可观察性。
增强您的可观察性:将 Logrus 与 Grafana Loki 集成

什么样的项目,可由运维负责稳定性?

什么样的项目,或者说项目达到什么标准,可由运维人员来共担稳定性?本文从可用性、性能、可观测性、SOP 等方面,给出一些建议。

监控指标太多,VictoriaMetrics 如何自保?

在监控、可观测性领域,指标的数量与日俱增,尤其是很多业务方会上报特别多稀奇古怪的指标,作为平台存储侧,VictoriaMetrics 在突发大流量下如何自保,就非常重要了。本文介绍了 VictoriaMetrics 的一些自保机制和配置选项,帮助用户在高负载情况下保持系统的稳定性。
监控指标太多,VictoriaMetrics 如何自保?

夜莺监控新版,中心端连不通的时序库也可以告警了

本文介绍夜莺新版本的一个重要更新,支持在中心端无法连通的时序库的告警。这个版本的更新增强了夜莺的灵活性和可用性,尤其是在复杂网络环境下的应用场景。希望大家能在实际使用中体验到这个新功能的便利。
夜莺监控新版,中心端连不通的时序库也可以告警了

我写了一个 vscode 插件,方便在 hugo markdown 中输入 ISO 8601 格式的时间

我写了一个 vscode 插件,方便在 hugo markdown 中输入 ISO 8601 格式的时间。对于经常要写 markdown 并且对 SEO 比较在意的人来说,这个插件还是很有用的。
我写了一个 vscode 插件,方便在 hugo markdown 中输入 ISO 8601 格式的时间

新发起一个开源项目,整理常用 Prometheus 告警规则,欢迎参与哈

很多公司都在使用 Prometheus 和 Nightingale,对于告警规则会有各自的沉淀,新发起一个开源项目,整理常用 Prometheus 告警规则,欢迎大家参与哈。

使用 Vector 采集日志并直接发送到 ElasticSearch

很多 ToB 的小环境,机器量不多,但是仍然希望日志被集中收集,此时不需要太复杂的架构,就直接使用 Vector 即可采集日志并直接发送到后端 ElasticSearch,本文来做一个演示备忘。
使用 Vector 采集日志并直接发送到 ElasticSearch

运维的价值为何经常被挑战?哪些工作更有价值?

运维这个工作岗位,作为业务背后的团队,做的很多工作不容易被看到,容易被挑战工作的价值,本文尝试来聊一下这个话题,看看运维工作应该侧重在哪些方向

ElasticSearch、Kibana 8.x 安装教程

想测试一下 Elastic 的 APM 能力,需要安装一个 ElasticSearch 和 Kibana 的测试环境,顺手记录到博客里,供新手查阅
ElasticSearch、Kibana 8.x 安装教程

告警的一体两面:漏报和误报

你好,我是一条告警事件,很多研发、运维人员都害怕我来,因为这意味着线上出现了问题。但是,有时候我不来,反而更可怕,因为这意味着问题可能已经存在,只是没有被发现。很多人都苦恼一个问题:到底应该按照什么原则来配置告警,才能不漏报、不乱报?笔者做监控这个方向 10 年了,今天就来分享一下我的一点心得,希望对你有所帮助。
告警的一体两面:漏报和误报

FlashDuty 日志监控如何获取日志原文

日志监控时,想要在告警消息中带上日志原文,应该如何操作?FlashDuty 提供了一个关联查询的功能,可以在告警事件中包含日志原文。
FlashDuty 日志监控如何获取日志原文

FlashDuty 告警规则 - 多个 PromQL 查询的功能说明

FlashDuty 不但是一个一站式告警 OnCall 平台,也提供了告警引擎能力,可以对接各种监控系统,本文介绍 FlashDuty 告警规则中多个 PromQL 查询的功能说明
FlashDuty 告警规则 - 多个 PromQL 查询的功能说明

夜莺监控 v8.0 新版通知规则实操 | 对接钉钉、飞书、企微通知

夜莺 v8 从 beta7 版本开始,抽象了通知规则的概念,本文介绍如何使用新版通知规则对接钉钉、飞书、企微通知,图文演示,手把手教程
夜莺监控 v8.0 新版通知规则实操 | 对接钉钉、飞书、企微通知

夜莺监控 v8.0 新版通知规则 | 对接钉钉告警,如何配置 at 人

夜莺 v8 从 beta7 版本开始,抽象了通知规则的概念,本文介绍如何使用新版通知规则对接钉钉通知,同时支持 at 人功能

夜莺监控 v8.0 新版通知规则 | 对接飞书告警

夜莺监控 v8 从 beta7 版本开始,抽象了通知规则的概念,本文介绍如何使用新版通知规则对接飞书通知。同时支持普通 text 消息模板和飞书卡片方式
夜莺监控 v8.0 新版通知规则 | 对接飞书告警

夜莺监控 v8 告警规则很好用,是不是就不需要 FlashDuty 了?

夜莺 v8 从 beta7 版本开始,抽象了通知规则的概念,可以非常方便的配置各种通知媒介,比如钉钉、短信、电话等。而且还有非常通用的 HTTP、脚本 通知方式,那么是不是就不需要 FlashDuty 了呢?
夜莺监控 v8 告警规则很好用,是不是就不需要 FlashDuty 了?

夜莺监控 v8.0 新版通知规则 | 对接企微告警

夜莺监控 v8 从 beta7 版本开始,抽象了通知规则的概念,本文介绍如何使用新版通知规则对接企微通知
夜莺监控 v8.0 新版通知规则 | 对接企微告警

标签
ai aiops alertmanager apache apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google grok_exporter hadoop hana haproxy hdfs helm httpstat iac ibex ilo im协同 incident it监控 jaeger jenkins jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 错误预算 错误预算机制 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat