PagerDuty 国内替代方案
PagerDuty 是非常知名的告警事件聚合降噪的 OnCall 平台,市值几十亿美金的公司,起步甚早,深耕 global 市场,对于国内普通用户,如果想找一个 local 的替代方案,本文会介绍一个颇有竞争力的产品 Flashduty
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
PagerDuty 是非常知名的告警事件聚合降噪的 OnCall 平台,市值几十亿美金的公司,起步甚早,深耕 global 市场,对于国内普通用户,如果想找一个 local 的替代方案,本文会介绍一个颇有竞争力的产品 Flashduty
在第二届 CCF 夜莺创新论坛上,知乎基础架构研发工程师邱天罡分享了知乎的可观测性体系实践和经验,以及如何利用 SLO 持续的度量、追踪和改进系统可用性。
期货行业的运维保障,具有一定的特殊性和独特的挑战,如何把相应的管理机制、技术要求、运营机制,落地到统一的监控事件响应平台,对于提升告警响应速度、降低运行维护压力,是我们提高系统的可靠性的关键抓手。
如果您已经实施了跟踪但缺乏强大的指标功能怎么办? SpanConnector 是一个通过将跟踪数据转换为可操作指标来弥补这一差距的工具。这篇文章详细介绍了 SpanConnector 的工作原理,提供了有关其配置和实现的指南。
中国企业出海,考虑到数据保护规则的要求以及跨大洲的网络传输条件受限,服务往往部署在全球多个 Region 或者多云上,这给系统的运行维护带来了一定的挑战,特别的聚焦在可观测性体系的建设上:1)需要在每个region独立部署一套可观测性工具,很多维护性和配置性的工作,需要重复搞多次;2)某些场景下,需要跨区域进行数据分析、制作报表的时候,力不从心;有的企业干脆选择把所有区域的可观测性数据,实时的汇聚到中心机房,集中维护和处理,也存在不小的隐患。
夜莺监控(Nightingale)应该算是国产监控当中 star 数量最高的开源项目了,目前已经 9000 多,如果你是从事运维、运维开发、基础设施相关的工作,可以了解看看
夜莺 v7.2.1 发版,告警详情页面支持查看告警事件通知记录
如何记录日志才是最佳实践,本文送你 14 条建议。关键点:确定日志记录的目标、区分日志级别、记录结构化日志、记录上下文、抽样、拥抱数据串联的力量、日志轮换、告警自动化、让团队都参与进来、不要记录一切、不要记录敏感信息、不要忽视日志对性能的影响、不要忽视日志安全、不要把日志看做银弹。
时代变迁,我们一起来看看 2024 年的当下,哪些 IT 运维监控系统最值得关注。根据笔者对社区的观察来看,用户最多的几个产品分别是 Prometheus、Zabbix、Grafana、夜莺监控Nightingale。
在会议现场,我分享了 Zenlayer 在 AI 方向的一些实践效果,有些基础知识、选型思考等,并未在大会现场展开,这里我会在这篇文章中进行一些补充,希望能够给大家带来一些启发。更多的是提供一种思路和需要了解的实现背景的逻辑,而不是给出固定化的实现方式,也是希望能够有更多活跃思考。
Kubernetes 是当下最火爆的容器编排平台,很多软件都逐步迁移到了 Kubernetes,对于 Kubernetes 配套的监控系统,很多公司采用的是 Prometheus,Prometheus 配套的告警事件处理工具就是 Alertmanager,本文我们来看一下如何在 Kubernetes 中部署 Alertmanager
本文会通过一个 Java 应用,演示 Prometheus JMX Exporter 在 Kubernetes 里的部署和配置方式。为了更好地理解 JMX Exporter,我们将使用 Spring Boot Java 应用程序并将所有 JMX 指标导出给 Prometheus。在本指南结束时,您将学习:
2024.7.26 相约北京,成功举办了第二届CCF·夜莺开发者创新论坛,来自字节跳动、滴滴、小米、作业帮、知乎、Zenlayer、国泰君安期货、大搜车、快猫等众多企业的讲师分享了各自对可观测性的理解和实践经验。
经过一年的迭代,夜莺 v7 于 2024.7.26 在第二届 CCF·夜莺 开发者创新论坛上正式发版
该博客涵盖了基本的 Jenkins 架构及其相关组件。如果您是 Jenkins 的初学者,它将帮助您了解 Jenkins 组件如何协同工作以及涉及的关键配置。
该博客涵盖了基本的 Jenkins 架构及其相关组件。如果您是 Jenkins 的初学者,它将帮助您了解 Jenkins 组件如何协同工作以及涉及的关键配置。
探索相关术语定义以及 SLA、SLO 和 SLI 如何帮助有效监控和维护系统性能。
在本指南中,我将使用实际例子讲解 Kubernetes Pod 的概念。
告警事件中一大堆标签不胜其扰?尤其是 Kubernetes 的告警事件,夜莺 v7.beta14 发版,支持灵活定义告警事件标签,用最简单的方式干掉没用的标签
本文详解夜莺的架构