快猫星云博客 | 一站式智能观测平台 | 可观测性

夜莺 v7.5 发版，体验再提升

夜莺 v7.5 发版，优化了一波小功能。首先是告警规则页面的优化，其次是仪表盘的跳转链接的优化。再有一两个小版本，v7 就差不多了，后面的大功能会放到 v8 版本，敬请期待

Posted by Nightingale on 2024-10-22 11:32:39

夜莺 Nightingale 夜莺监控开源夜莺

VictoriaMetrics 中文教程（07）高可用（High availability）方案

讲解 VictoriaMetrics 的高可以用（High availability）方案，即双写方案，这种方案简单，鲁棒性高。前面使用 vmauth 做 Proxy。如果采集侧也要使用多个 vmagent 做高可以用，那就需要在服务端启用 Deduplication

Posted by 快猫运营团队 on 2024-10-22 06:07:32

VictoriaMetrics

构建告警事件平台，加速告警响应

告警事件大家都不陌生，但是要把告警事件处理好并不容易，一般监控系统不会着力优化告警事件的后续处理逻辑，这催生了统一告警事件中心的需求，像 PagerDuty、Flashduty 都是个中翘楚

Posted by 快猫运营团队 on 2024-10-21 17:54:48

告警事件

VictoriaMetrics 中文教程（06）容量规划

讲解 VictoriaMetrics 的容量规划，以及如何根据实际情况调整 VictoriaMetrics 的资源限制参数

Posted by 快猫运营团队 on 2024-10-21 15:07:47

VictoriaMetrics

VictoriaMetrics 中文教程（05）对接各类监控数据采集器

VictoriaMetrics 期望做大一统的时序数据存储，可以对接各类采集器，比如 Prometheus 生态的各类 Exporter、Telegraf、Datadog-Agent、OpenTSDB collector、StatsD 等等。

Posted by 快猫运营团队 on 2024-10-21 11:07:23

VictoriaMetrics

VictoriaMetrics 中文教程（04）对接 Grafana 同时介绍 vmui

如何在 Grafana 中对接 VictoriaMetrics，实现数据可视化展示。由于 VictoriaMetrics 完全兼容 Prometheus 的接口协议，可以把 VictoriaMetrics 看做是 Prometheus

Posted by 快猫运营团队 on 2024-10-21 09:06:46

VictoriaMetrics

运维监控工具有哪些

运维工作通常分三大方向，监控、变更、资产管理。运维监控是运维工作的重中之重，因为做好监控是稳定性保障的前提，如果监控都没做好，更何谈故障及时发现、故障快速定位呢

Posted by 快猫运营团队 on 2024-10-20 14:33:33

运维监控

VictoriaMetrics 中文教程（03）如何配置 Prometheus 使其把数据远程写入 VictoriaMetrics

讲解如何配置 Prometheus 使其把数据远程写入 VictoriaMetrics，这样就可以实现 Prometheus 的数据高可用和持久化。同时，我们也会了解如何给 Prometheus 添加标签，以及如何调整 remote write 的配置参数。

Posted by 快猫运营团队 on 2024-10-19 12:05:42

Prometheus VictoriaMetrics

Nightingale 和 Flashcat 的区别

Nightingale 和 Flashcat 是两个不同的监控系统，本文将介绍它们的区别。简单来讲 Nightingale 是一款开源监控系统，Flashcat 是 Nightingale 的商业版本，主导这两个项目的是一波人

Posted by 秦晓辉 on 2024-10-18 18:05:08

夜莺 Nightingale Flashcat

VictoriaMetrics 中文教程（02）安装

VictoriaMetrics 是一个非常优秀的时序数据库，它的性能、稳定性、易用性都非常好，是国内很多大厂的选择。本文是 VictoriaMetrics 中文教程第 02 篇，讲解 VictoriaMetrics 的安装，VictoriatMetrics 支持多种不同的安装方式，极为方便

Posted by 快猫运营团队 on 2024-10-18 15:08:59

VictoriaMetrics

VictoriaMetrics 中文教程（01）简介

VictoriaMetrics 是一个非常优秀的时序数据库，它的性能、稳定性、易用性都非常好，是国内很多大厂的选择。本文是 VictoriaMetrics 中文教程第 01 篇，对 VictoriaMetrics 进行了简单的介绍

Posted by 快猫运营团队 on 2024-10-18 10:08:59

VictoriaMetrics

IT 监控有哪些监控数据采集方式

IT 监控系统是周期性采集监控数据，进而进行分析、可视化、告警的系统，对于故障发现、定位具有极大的帮助。监控数据采集是监控系统的基础，本文介绍了 IT 监控系统中常见的监控数据采集方式。

Posted by 快猫运营团队 on 2024-10-18 08:39:06

IT监控

什么是开源监控系统？

运开源监控系统是基于开放源代码的监控工具，帮助运维团队实时跟踪、分析和管理服务器、网络、应用程序等IT基础设施的运行状态。这些系统通过收集、存储、分析和展示各种性能数据、日志信息和告警事件，为运维人员提供全面的系统视图，帮助他们快速发现并解决问题，保障系统的稳定运行。

Posted by 快猫运营团队 on 2024-10-17 08:26:05

开源监控

可观测平台是什么？

可观测平台是集成多种监控、日志、跟踪和告警功能的系统，实时监测和分析IT系统的运行状态。通过收集、存储、处理和分析大量数据，提供全面、详细的系统运行视图，帮助运维团队快速发现和解决问题。

Posted by 快猫运营团队 on 2024-10-16 14:49:05

可观测平台

OpenTelemetry 和 Fluent Bit 集成，入门教程

通过将 OpenTelemetry Collector 与 FluentBit 集成，用户可以简化其可观察性，并为日志、指标和跟踪创建高效、可扩展的数据管道。通过提供的配置文件和 Docker Compose 设置，开始使用这个强大的组合变得简单明了。

Posted by 译文 on 2024-10-16 12:05:08

OpenTelemetry Fluentbit

什么是可观测平台？

可观测平台是集成多种监控、日志、跟踪和告警功能的系统，实时监测和分析IT系统的运行状态。通过收集、存储、处理和分析大量数据，可观测平台能够提供全面、详细的系统运行视图，帮助运维团队快速发现、解决问题。

Posted by 快猫运营团队 on 2024-10-16 10:08:34

可观测平台

Fluentbit 入门教程（3）：多行日志解析的最佳实践

使用 Fluentbit 解析多行日志的最佳实践。本文是 Fluentbit 入门系列教程的第三篇。Fluentbit 是一款轻量的日志采集器，通常用于容器、嵌入式环境。

Posted by 译文 on 2024-10-15 17:09:33

Fluentbit 日志监控

Fluentbit 入门教程（2）：使用正则表达式解析日志

在本博客中，我们会学习如何使用正则表达式在 Fluent bit 中解析日志消息。正则表达式是一种强大的工具，可以帮助用户从非结构化或半结构化日志数据中提取有用的信息。我们还了解了如何定义自定义解析器，以便 Fluent Bit 可以正确解析日志消息。这是学习 Fluent Bit 的重要一步，因为它有助于理解日志数据并将其转化为有价值的见解。

Posted by 译文 on 2024-10-15 14:37:47

Fluentbit 日志监控

如何实现好的告警收敛效果？

告警收敛是运维监控中不可或缺的功能之一，通过智能化的算法和策略，降低告警信息的冗余度，提高运维效率。要实现好的告警收敛效果，需要合理设置告警规则、采用智能告警算法、优化告警通知渠道等多方面入手，持续优化和改进告警系统，提升运维工作的效率和准确性。

Posted by 快猫运营团队 on 2024-10-15 14:00:29

告警告警收敛

Fluentbit 入门教程（1）：tail 插件

Fluentbit 是一个轻量级的日志收集器，适用于容器化环境和边缘设备。本教程介绍了 Fluentbit 的基本概念和使用方法，以及如何使用 tail 插件收集日志。

Posted by 译文 on 2024-10-15 09:22:57

Fluentbit 日志监控

ai aiagent aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl faq featureflag filelog flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia jvm k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis rum salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre syslog telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星不可变基础设施出海出海业务创业错误预算错误预算机制大厂实践大模型大模型智能oncall 滴滴夜莺钉钉钉钉通知飞书飞书通知分布式追踪服务稳定性告警告警oncall 告警丰富告警风暴告警规则告警降噪告警聚合告警排班告警认领告警升级告警事件告警收敛告警数据孤岛告警通知告警响应告警协同告警抑制告警引擎告警值班告警指派告警自愈根因定位故障故障复盘故障管理计算机学会架构师监控监控agent 监控方法论监控告警监控工具监控设计思考监控系统监控系统合规进程监控开源开源监控开源商业化开源夜莺可观测平台可观测性可观测性论坛可观测性体系建设客户案例快猫快猫星云连锁门店链路追踪埋点监控面试题灭火图普罗米修斯企微通知企业微信人工智能日志日志采集日志存储日志分析日志告警日志监控容器熔断时序库时序数据库事件监控手把手构建生产级监控系统他山之石提问的智慧通知规则统一监控网络可观测性网络排障尾采样稳定性保障稳定性方法论稳定性体系稳定性体系建设系统架构设计信创业务监控夜莺夜莺v8 夜莺短信告警夜莺黄埔营夜莺监控夜莺开发者创新论坛夜莺开源项目夜莺业务组夜莺用户案例医药健康仪表盘用户案例云厂商云原生监控云原生组织运维运维百家讲坛运维告警运维监控运维监控系统运维监控系统实战笔记智能oncall 智能告警自监控最佳实践