八维通科技:20 多个机房、20+ 集群如何用夜莺实现统一监控与告警管理
八维通科技在全国管理 20 多个机房、20+ 套集群和上千台服务器,原有 Prometheus、Zabbix、CAT 多套监控分散。本文介绍其基于 Nightingale 商业版、VictoriaMetrics 和 vmagent 实现统一监控、告警治理与日志查询,并将运维维护成本降低约 50% 的落地实践。
汇总 Flashcat 博客中与 VictoriaMetrics 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
八维通科技在全国管理 20 多个机房、20+ 套集群和上千台服务器,原有 Prometheus、Zabbix、CAT 多套监控分散。本文介绍其基于 Nightingale 商业版、VictoriaMetrics 和 vmagent 实现统一监控、告警治理与日志查询,并将运维维护成本降低约 50% 的落地实践。
本文介绍 Zenlayer 面向全球边缘云业务构建公网质量监控平台的实践,涵盖 SmokePing 与 SmokeCAT 的早期探索、分布式拨测、样本筛选、VictoriaMetrics/VictoriaLogs 数据底座以及 IQSM IP 质量评分模型。
新浪CDN技术团队分享基于夜莺监控(Nightingale)和VictoriaMetrics构建CDN边缘节点监控体系的实践经验,涵盖监控选型对比、架构设计、Categraf批量部署、API集成及自动化运维闭环等关键环节。
本文介绍如何使用夜莺监控(Nightingale)和 Categraf 来监控多个进程的存活性以及 CPU、内存等资源占用情况。
在监控、可观测性领域,指标的数量与日俱增,尤其是很多业务方会上报特别多稀奇古怪的指标,作为平台存储侧,VictoriaMetrics 在突发大流量下如何自保,就非常重要了。本文介绍了 VictoriaMetrics 的一些自保机制和配置选项,帮助用户在高负载情况下保持系统的稳定性。
ictoriaMetrics 集群版相比单机版,更适合大规模的监控数据存储和查询。本文介绍集群版本的搭建方式,以及一些重要参数和注意事项。
VictoriaMetrics 18 条 Troubleshooting 建议,解决性能问题、部署运维问题、使用问题、以及一些关键指标等
VictoriaMetrics 的磁盘文件存储结构讲解,包括小 part、大 part、块、索引等。同时讲解 VictoriaMetrics 的存储保留时长。开源版可以通过搭建多个实例的方式对不同的数据设置不同的存储时长。
讲解 VictoriaMetrics 的高可以用(High availability)方案,即双写方案,这种方案简单,鲁棒性高。前面使用 vmauth 做 Proxy。如果采集侧也要使用多个 vmagent 做高可以用,那就需要在服务端启用 Deduplication
讲解 VictoriaMetrics 的容量规划,以及如何根据实际情况调整 VictoriaMetrics 的资源限制参数
VictoriaMetrics 期望做大一统的时序数据存储,可以对接各类采集器,比如 Prometheus 生态的各类 Exporter、Telegraf、Datadog-Agent、OpenTSDB collector、StatsD 等等。
如何在 Grafana 中对接 VictoriaMetrics,实现数据可视化展示。由于 VictoriaMetrics 完全兼容 Prometheus 的接口协议,可以把 VictoriaMetrics 看做是 Prometheus
讲解如何配置 Prometheus 使其把数据远程写入 VictoriaMetrics,这样就可以实现 Prometheus 的数据高可用和持久化。同时,我们也会了解如何给 Prometheus 添加标签,以及如何调整 remote write 的配置参数。
VictoriaMetrics 是一个非常优秀的时序数据库,它的性能、稳定性、易用性都非常好,是国内很多大厂的选择。本文是 VictoriaMetrics 中文教程第 02 篇,讲解 VictoriaMetrics 的安装,VictoriatMetrics 支持多种不同的安装方式,极为方便
VictoriaMetrics 是一个非常优秀的时序数据库,它的性能、稳定性、易用性都非常好,是国内很多大厂的选择。本文是 VictoriaMetrics 中文教程第 01 篇,对 VictoriaMetrics 进行了简单的介绍
多个 Prometheus 集群或者多个 VictoriaMetrics 集群,在 Grafana 和夜莺里通常需要创建多个不同的数据源,这也就意味着,数据没法聚合查询,比如统一做一下 sum 之类的运算会比较麻烦,本文讲述两种 Prometheus 生态的聚合查询方案,以供参考。
PromQL和MetricsQL是强大的查询语言。它们允许编写简单的查询,用于构建漂亮的时间序列数据图形。它们还允许编写复杂的查询,用于SLI / SLO计算和警报。但优化PromQL查询可能很困难。本文介绍了如何确定缓慢的PromQL查询,如何理解查询成本以及如何优化这些查询,使其执行更快并消耗更少的CPU和RAM。
在 VictoriaMetrics 中,有些指标不想要了,如何删除?或者有些数据不对,如何更新?