所属分类 Flashduty 的文章

邮件告警还能这么玩?!

在现代的 IT 技术环境中,新的监控系统通常都支持非常丰富的通知媒介,比如电话、短信、钉钉、飞书、Slack 等,非常灵活。但是一些老旧的系统,不提供指标暴露方式,无法和监控系统良好对接,这些老古董通常只内置提供邮件告警这一种方式。这种情况应该如何处理呢?

FlashDuty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成

支持更高级的值班管理功能,支付服务日历、自定义操作和邮件集成

Flashduty 案例分享 - 途游游戏

Flashduty 作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者

Flashduty 案例分享 - 益丰大药房

Flashduty 作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者

FlashDuty Changelog 2023-10-30 | 告警路由与 Slack 应用

支持更高级的告警事件路由,支持在Slack内处理告警

FlashDuty Changelog 2023-09-21 | 自定义字段和开发者中心

通过自定义字段丰富故障信息,新增开发者秘钥管理和文档

FlashDuty Changelog 2023-09-07 | 新增深色模式与主题配置

支持动态切换深色模式与主题,为您带来更舒适的使用体验

普大喜奔:Uptime Kuma支持Flashduty啦

Uptime Kuma支持Flashduty

FlashDuty Changelog 2023-07-24

全面增强告警降噪与协同能力

监控系统自监控怎么做?

监控系统用于监控其他的系统、基础设施,绝对是 P0 级的服务,那监控系统的自监控应该怎么做才能避免循环依赖呢?

如何监控文件变化,比如密码修改导致 shadow 文件变化

在指标监控体系里,监控文件变化是一个比较棘手的问题,使用 catpaw 配合 FlashDuty 则可以很方便的解决这个问题

机器硬件监控,最简单的方案,没有之一

之前新东方的老师分享了他们通过 Telegraf、Loki、Nightingale 等工具来监控机器硬件状态的方案,具备很强的灵活性、平台性。本文会介绍一个相对轻量的方式,只需要一个二进制+一个脚本即可搞定,给各位朋友提供一种新的选择

core dump 路径定义以及监控

core dump 文件是排查问题的重要工具,如果某个进程 crash 了,出 core 了,需要及时知道,本文来聊聊如何定义 core dump 文件路径、文件命名以及如何监控

如何解决系统报错:nf_conntrack: table full, dropping packets

容器的宿主或者虚拟机的宿主,在流量比较大的时候,可能会遇到这个问题

太卷了,史上最简单的监控系统 catpaw 简介

实际上,这是一个绝对轻量的事件监控工具

FlashDuty Changelog 2023-05-18

告警管理+Webhook+阿里云SLS+腾讯蓝鲸集成

玩转Zabbix智能告警:降噪、排班、认领、升级、IM协同

集成Zabbix告警到FlashDuty,获得告警降噪、智能排班、IM协同等能力

告警通知时如何做到最佳降噪效果

很多监控告警的系统都声称自己的降噪比是多少多少,各位终端用户可能不好分辨到底效果如何,本文给大家推荐一个简单粗暴高效的方式。

SRE们,请不要小看了 排班OnCall

Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。

治理告警风暴,告警降噪的一些典型手段

很多公司希望提升服务稳定性,而上线了各类监控系统,指标的、链路的、日志的,而且只是指标层面可能就会有多个监控系统,这么多监控系统、这么多监控目标,如果没有良好的治理,很快就会产生告警风暴的问题,如何通过一些手段达到告警降噪的效果呢?

FlashDuty Changelog 2023-04-06

IM协同+监控集成+交互优化

告警聚合降噪、告警升级、告警认领、告警排班、告警协同,一网打尽

本文介绍如何利用FlashDuty完成告警聚合降噪、告警升级、告警认领、告警排班、告警协同等需求。每个公司大概率都同时使用多个监控系统,对告警事件做统一处理,是一个很强的需求,本文为大家讲解如何落地实践。

FlashDuty协作空间的设计逻辑和路由逻辑

协作空间是FlashDuty中一个重要概念,但是很多客户并不太了解,这里专门画了两页图,给大家做一个介绍。
标签
aiops apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo devops dns docker ebpf elastalert elasticsearch etcd flashcat flashduty flashduty-changelog gitops golang google grok_exporter hadoop haproxy hdfs iac ilo im协同 jaeger jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor metricsql mimirtool monitoring mtail mysql netflix nightingale nsenter observability oncall open-falcon openmetrics opentelemetry oracle监控 otel pingmesh postgresql product-feature prometheus prometheus告警 promql rancher salt scheduler signoz skywalking sli slo snmp snmp-exporter sre telegraf tidb troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警协同 告警抑制 告警引擎 告警指派 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控设计思考 监控系统 开源 开源监控 开源夜莺 可观测性 可观测性论坛 可观测性体系建设 快猫 快猫星云 灭火图 企业微信 人工智能 日志分析 日志告警 容器 事件监控 手把手构建生产级监控系统 提问的智慧 网络可观测性 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维监控 运维监控系统实战笔记 智能告警 自监控
开源版
Flashcat
Flashduty