Prometheus
Prometheus 是一个开源的监控和警报工具,最初由 SoundCloud 开发,现已成为云原生计算基金会(CNCF)的一部分。它广泛用于收集和存储时间序列数据,尤其适合微服务架构和 Kubernetes 环境。
Prometheus 相关文章
围绕 Prometheus 的实践、选型、案例和产品内容,按同一阅读路径持续整理。
Prometheus简介
Prometheus受启发于Google的Borgmon监控系统(相似的Kubernetes是从Google的Brog系统演变而来),从2012年开始由前Google工程师在Soundcloud以开源软件的形式进行研发,并且于2015年早期对外发布早期版本。2016年5月继Kubernetes之后成为第二个正式加入CNCF基金会的项目,同年6月正式发布1.0版本。2017年底发布了基于全新存储层的2.0版本,能更好地与容器平台、云平台配合
Zabbix 迁移不是推倒重来:企业监控现代化的低风险路径
面向长期使用 Zabbix 的企业团队,说明如何保留已有监控资产,先统一告警响应和责任归属,再分阶段引入现代可观测能力。
从 Prometheus、ES、SkyWalking 到 Flashcat:已有系统如何统一接入
已有 Prometheus、Elasticsearch、SkyWalking 等可观测系统不必推倒重来。先接入 Flashcat 统一查询和下钻,再治理 TraceID、标签和资源上下文,逐步形成灭火图、北极星和 AI 可用的排障路径。
10 分钟接入 Prometheus 告警到 Flashduty
本文给出 Prometheus Alertmanager 通过 Webhook 接入 Flashduty 的 10 分钟步骤,覆盖集成创建、receiver 配置、路由验证、测试告警、故障生成和通知分派检查。
云监控、Zabbix、Prometheus 告警如何统一接入一个平台
本文介绍如何把云监控、Zabbix、Prometheus、Grafana 和自研监控的告警统一接入 Flashduty,从专属集成、共享集成、路由规则、标签规范、Pipeline 清洗、协作空间和治理数据构建统一告警响应层。
Flashcat vs Grafana + Prometheus + ELK:差异不在数据展示,而在故障处理路径
对比 Flashcat 与 Grafana、Prometheus、ELK 等开源可观测性组合,说明真正差异不在数据展示能力,而在围绕故障发现、定位和恢复的一体化处理路径。
Prometheus Alertmanager 够用吗?什么时候需要专业 On-call 平台
本文从告警路由、值班表、自动升级、故障对象、IM 协同和数据化管理等维度,拆解 Prometheus Alertmanager 与专业 On-call 平台的职责边界,并说明如何把 Alertmanager 接入 Flashduty 补齐响应闭环。
用 catpaw 监控你的监控系统:给 Prometheus 和 Nightingale 加一层外部哨兵
监控系统本身也会失效。本文介绍如何用 catpaw 给 Prometheus、Nightingale、Alertmanager 增加独立外部哨兵,从 systemd、进程、HTTP、磁盘、日志、时间同步和 MCP 等角度降低监控失声与值班盲飞风险。
Prometheus 14 点实践经验分享
Prometheus 14 点最佳实践:包括 USE/RED 方法论、标签基数控制、指标命名规范、告警症状而非原因、rate 和 sum 顺序等核心经验,来自 PromCon 2017 的经典分享。
Prometheus 进阶函数 info 来了,苦 join 久已啊
详解 Prometheus 实验性 info 函数,告别复杂的 group_left join 语法实现标签 Enrichment。info 函数简化 PromQL 写法,并解决标签变化导致的 Churn Problem 和 many-to-many 匹配问题。
OpenTelemetry 整合 Prometheus?目前尚不美好
如果主要目标是在 Prometheus 中使用指标,直接用 OpenTelemetry SDK 埋点并不总是最佳选择。本文从目标健康监控、指标命名转换、资源标签、OTLP 接收配置、SDK 复杂度和性能开销等方面,解释为什么 Prometheus 原生客户端库仍然更适合 Prometheus 指标场景。
Prometheus 监控 Kubernetes Cluster 最新极简教程
Prometheus 监控 Kubernetes 极简教程:使用 kube-prometheus-stack 安装 Prometheus、Grafana、Alertmanager 和导出器,并完成查询、仪表板和告警配置。
监控系统如何选型:Zabbix vs Prometheus
Zabbix vs Prometheus 监控选型指南:从产品基因、静态资产与动态环境、集成度、生态演进、网络设备、Kubernetes、可观测性数据消费和团队能力角度判断如何选择。
为 Prometheus 告警规则增加 UI 管理能力
Prometheus 告警规则通常通过 YAML 和 Git 管理,跨团队自助、权限隔离、规则评审和通知治理都会变复杂。本文演示如何用 Nightingale 夜莺监控为 Prometheus alerting rules 增加 UI 管理能力,并介绍数据源接入、规则配置、Prometheus 规则导入和告警引擎能力。
何为 Prometheus 高基数?为何有时会有高基数峰值?
解释 Prometheus 高基数和基数峰值的含义、常见成因、对成本与性能的影响,以及在确有高基数业务需求时的处理思路。
我构建了公司第一个监控系统,这里是我学到的
译文分享作者用 Prometheus、Grafana 和 Alertmanager 构建公司第一个监控系统的经验,重点讨论自定义指标、最佳实践、指标管道验证和可观测性完成定义。
数据集成:Zabbix 数据实时导入到 Flashcat
介绍如何使用企业版 Categraf 的 Zabbix 插件将 Zabbix 监控数据实时导入 Flashcat,覆盖 Docker Compose 快速部署、Zabbix 7.2 HTTP Connector、API Token、文件导出方式、Categraf 配置、元数据缓存和指标转换流程。
夜莺监控手把手配置 Prometheus 告警
手把手演示如何用夜莺配置 Prometheus 告警,包括搭建夜莺、接入数据源、编写告警规则、配置通知规则与消息模板,适合告警入门与落地实操。
新发起一个开源项目,整理常用 Prometheus 告警规则,欢迎参与哈
sretalk/prometheus-rules 是一个整理常用 Prometheus 告警规则的开源项目,按 MySQL、Linux、Kubernetes、Prometheus、VictoriaMetrics 等目录组织规则,提供 Prometheus 规则格式和中英文版本,方便团队复用和共建。
Prometheus 的几个常见问题和错误用法
总结 Prometheus 使用中的常见问题和错误用法,包括 step 设置不合理、Grafana rate 时间范围写死、高基数标签、重复上报数据、without 和 by 聚合选择等。