7 张图,彻底讲透 Prometheus 架构原理
在本指南中,我们将详细了解 Prometheus 架构,以有效地理解、配置和利用 Prometheus。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
在本指南中,我们将详细了解 Prometheus 架构,以有效地理解、配置和利用 Prometheus。
这本关于 Kubernetes 架构的综合指南旨在通过插图详细解释每个 Kubernetes 组件。
运维工程师、SRE,应该掌握哪些技能才算合格?
网络配置、诊断和一般Linux 故障排除是 系统管理的重要组成部分。即使对于使用 Linux 系统的开发人员来说,了解Linux 网络命令也是一个优势。这篇文章将介绍Linux 系统中原生可用的重要的Linux 网络和故障排除命令。
很多公司听说可观测性好,就要上马可观测性项目,自研/采购,各种投入,结果发现效果很差,业务不认可,最终一地鸡毛
作为运维人员,晚上被告警吵醒绝对是最痛苦的经历之一。听说行业里有专门做 OnCall 的产品,比如 PagerDuty、Flashduty 等,莫非这些 OnCall 产品可以让运维人员晚上避免起床?本文从几个方面来介绍一下如何才能睡个好觉。
夜莺 v7.beta13 发版,继续优化细节,主要变更是提供日志的 KQL 查询模式、Prometheus 类型的数据源在即时查询时提供历史查询记录功能、记录规则提供 CRON 方式控制执行频率,可以借此指定固定时刻执行
从产品、服务与价格三个维度探讨IT管理人员在为开发运维团队寻找高效协作的故障管理解决方案时应该提出的问题。
告警风暴是作为技术人员尤其是运维人员的巨大痛点,有时甚至一周七天每天被吵醒,而老板安排的活白天还要照干不误,导致精神疲惫,有没有什么办法可以破解这个难题呢?
Redis 是极为常用的缓存数据库,本文介绍使用 Categraf 快速建设 Redis 监控,夜莺的模板中心中已经内置了一些模板,可以直接导入使用
MySQL 是极为常用的数据库,本文介绍使用 Categraf 快速建设 MySQL 监控,夜莺的模板中心中已经内置了一些模板,可以直接导入使用
夜莺擅长处理多 Prometheus 集群的告警管理,在仪表盘这块,提供了一些内置仪表盘,但从完善度来讲,是没法和 Grafana 生态相比的,从 v7.beta12.1 版本开始,夜莺支持了内置 Grafana 仪表盘,省得大家在系统之间跳来跳去了,对于已经习惯使用 Grafana 的用户,可以考虑升级到此版本
讲解 node-exporter 的 filefd 插件如何监控文件句柄,以及 ulimit 的一些坑
夜莺之前的版本也支持钉钉、企微、飞书通知,不过整体逻辑设计的比较绕,这个版本提供了一个更直观的配置方式,顺带优化了 at 人的功能
这是专栏第 8 篇,介绍一下 node-exporter 的 conntrack 插件。这个插件大家平时关注可能较少,但是在一些场景下,比如防火墙、NAT 网关等,需要监控 conntrack 表的使用情况。我就遇到过一次生产事故,就是因为 conntract 表满了,导致新连接无法建立,所以这个插件还是很有用的。
基于 opentelemetry-demo 微服务项目,演示如何用 OpenTelemetry 搭建端到端可观测性系统,查看 Trace、Metrics 和数据流转。
Prometheus 生态的原生做法,由于阈值是放在 promql 中的,恢复时的消息中难以拿到恢复时的值,夜莺 v7.0.0.beta10 版本开始,提供了一种较为简单的内置方式,解决这个问题
这个版本建立了集成中心的框架,并且修复了边缘机房机器失联告警的Bug,建议升级
A 服务调用 B 服务的 HTTP 接口,发现 B 服务返回超时,不确定是网络的问题还是 B 服务的问题,需要排查。此时 httpstat 就可以派上用场了,可以方便的看到各个通信环节的耗时,明确是 B 服务的问题还是网络侧的问题
围绕阿里巴巴 1-5-10 故障目标,说明如何用北极星指标、灭火图、事件墙和多维分析缩短发现、处置与恢复时间,帮助团队建立更快的应急响应机制。