包含标签 Oncall 的文章

告警降噪解析与实践

告警降噪是指在运维监控中,通过聚合、抑制、收敛等策略减少无用或重复告警的干扰,避免告警泛滥,确保运维人员只接收到关键信息。降噪可以减少对值班人员的打扰,同时确保他们能及时处理真正重要的告警事件。
告警降噪解析与实践

PagerDuty 国内替代方案

PagerDuty 是非常知名的告警事件聚合降噪的 OnCall 平台,市值几十亿美金的公司,起步甚早,深耕 global 市场,对于国内普通用户,如果想找一个 local 的替代方案,本文会介绍一个颇有竞争力的产品 FlashDuty
PagerDuty 国内替代方案

期货行业的 Oncall 实践

期货行业的运维保障,具有一定的特殊性和独特的挑战,如何把相应的管理机制、技术要求、运营机制,落地到统一的监控事件响应平台,对于提升告警响应速度、降低运行维护压力,是我们提高系统的可靠性的关键抓手。
期货行业的 Oncall 实践

晚上总被电话吵醒?OnCall来帮你

告警风暴是作为技术人员尤其是运维人员的巨大痛点,有时甚至一周七天每天被吵醒,而老板安排的活白天还要照干不误,导致精神疲惫,有没有什么办法可以破解这个难题呢?

天天报警值班,老子不干了

有些团队声称自己是 DevOps 团队,全员 OnCall,结果最后就是最好欺负的那些人干活最多,这不,我这个前同事就是因为这个原因,要离职了
天天报警值班,老子不干了

Google SRE 的 on-call 方法和工具

我们熟知的 Kubernetes 是 Google 内部容器编排工具 Borg 的开源实现,Prometheus 是 Google 内部监控工具 Borgmon 的开源版本。那么 Google 内部的 OnCall 工具 Outalator 有没有相关的产品呢?
Google SRE 的 on-call 方法和工具

SRE们,请不要小看了 排班OnCall

Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。
SRE们,请不要小看了 排班OnCall

标签
aiops alertmanager apache apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elastalert elasticsearch etcd etl flashcat flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google grok_exporter hadoop hana haproxy hdfs httpstat iac ibex ilo im协同 it监控 jaeger jenkins jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor logging logs loki metrics metricsql mimirtool monitoring mtail mysql netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opentelemetry oracle监控 otel pagerduty pingmesh postgresql product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警 告警oncall 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控工具 监控设计思考 监控系统 监控系统合规 开源 开源监控 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 灭火图 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 时序库 时序数据库 事件监控 手把手构建生产级监控系统 提问的智慧 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能告警 自监控
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat