Flashduty 监控告警功能简介
Flashduty 作为一款 OnCall 平台,核心解决的是告警事件产生之后的环节,包括收敛降噪、排班、认领升级、分发、协同等。实际 Flashduty 也提供了告警引擎功能,可以在 Flashduty 上管理告警规则,Flashduty 根据规则去查询各类数据源做异常判定,进而生成告警事件,类似 vmalert 的功能。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
Flashduty 作为一款 OnCall 平台,核心解决的是告警事件产生之后的环节,包括收敛降噪、排班、认领升级、分发、协同等。实际 Flashduty 也提供了告警引擎功能,可以在 Flashduty 上管理告警规则,Flashduty 根据规则去查询各类数据源做异常判定,进而生成告警事件,类似 vmalert 的功能。
在本文中,我们将了解 etcd 如何存储和管理 Kubernetes 集群的状态数据,以及它如何提供高可用性和数据一致性。我们还将了解应监控的关键指标,以确保 etcd 有效支持 Kubernetes 集群的运行状况和性能。通过监控 etcd 的资源、监视和 Raft 指标,您可以了解 etcd 集群的运行状况,并及时发现潜在的问题。这将有助于您确保 etcd 集群的稳定性和可靠性,从而提高 Kubernetes 集群的性能和可用性。
Kubernetes 集群逐渐变大,其中 ETCD 作为 Kubernetes 的存储,其稳定性尤为关键,我想确保 ETCD 集群稳定,应该从哪些方面着手落实?
SNMP 是监控网络设备的主要协议,但是确实比较麻烦,如果只是想简单高效的监控网络设备的关键问题并告警,使用 SNMP Trap 是一个不错的方式,本文介绍使用 snmptrapd、snmptt 搭配 Flashduty 完成 Trap 消息的告警
夜莺监控项目在上周突破了一万 star,算是一个小小的里程碑。本文聊聊做开源这几年的心路历程。一些小小的感悟。
SNMP trap 消息是 SNMP 设备主动向管理系统发送的异步通知,本文介绍如何使用 snmptrapd 和 snmptt 解析 SNMP Trap 消息,对于一些关键事件可以进行实时监控和告警,对系统稳定性有极大帮助
当我们聊 SNMP 的时候,提到的 SNMP trap PDU 是何含义?
Linux 中内存信息取自 /proc/meminfo,这个文件字段较多,很多新手不清楚每个字段的含义,本文做一个解释。
主动网站监控是企业提高客户满意度的秘密武器,通过确保网站的持续可用性、优化网站性能、提升网站内容的准确性和及时性、增强客户服务响应能力等方面,为客户提供更好的体验,赢得客户的信任和忠诚,实现企业的长期发展和商业成功。
Helm Chart 是 Kubernetes 应用程序的包装和部署工具。它使我们能够轻松地在多个环境中部署应用程序。在本 Helm Chart 教程中,我们了解了 Helm Chart 的结构、组件和最佳实践。
Kafka Topic 是 Kafka 消息队列中的核心概念,它提供了数据分类、隔离和并行处理的机制,帮助生产者和消费者之间实现解耦和高效通信。合理规划 Kafka Topic 对于构建高性能、高可用的数据处理系统至关重要,需要根据业务领域、数据量、一致性需求等因素来设计和管理 Topic,以确保系统的稳定性和可扩展性。
文章介绍了MySQL的几个重要调优配置,包括innodb_buffer_pool_size、innodb_log_file_size、max_connections等,说明了各配置作用及设置建议,助提升数据库性能。
夜莺 v8 大版本已经启动开发,预计 25 年 7 月份发正式版,相比 v7 大概会做四五个大功能,每个功能做完了做稳定了都会提前放出来供大家体验,以 beta 来命名,实际是稳定的,大家可以放心升级
告警事件 OnCall 平台如何选型?本文罗列了两个开源项目和一个商业项目,介绍了其优缺点,希望对大家有所帮助。OnCall 平台是 OnCall 文化落地的重要依托,选型时需慎重考虑。
文章介绍告警收敛概念、方法(基于规则、机器学习、时间序列分析)、案例及发展趋势,助企业优化告警管理。
OpenTelemetry 是一个开源项目,旨在标准化遥测数据的收集和处理。通过提供一组 API、库和代理,OpenTelemetry 使开发人员能够收集、处理和可视化来自应用程序、服务和系统的遥测数据。
OpenTelemetry 是一个开源可观测性框架,旨在提供统一的标准和工具,以便开发人员可以轻松地收集、生成、收集和导出遥测数据。这些数据包括日志、指标和跟踪,这些数据对于了解应用程序和基础设施的执行情况至关重要
在监控系统中,我们可以把一批告警聚合成一个故障,这个故障有严重程度、状态和处理进度。故障的标签是从告警中提取的,用于描述故障的维度信息。故障的处理进度是由处理人员操作的,处理进度的变化会触发通知和自动化操作。
讲解夜莺监控的指标视图功能,指标视图是一堆内置指标,用户可以选择其中的某个直接查看监控数据,无需手工编写 promql,通常来讲,专业的团队可以沉淀一批指标,然后普通研发人员直接查看,相对比较方便。
Java 这样的语言可以在运行时方便插桩,自动化程度极高,Go 这样的语言如何自动化完成插桩,是近年来业界一直在探索的方向,典型手段有 eBPF、二进制打补丁、编译时修改源码,Datadog 最终选择的是编译时修改源码的方式,本文会介绍 Datadog 的个中思考