科普:什么是链路追踪

链路追踪是现代分布式系统监控的重要组成部分,通过提供对请求流转的深入洞察,帮助团队识别性能问题和故障,提升系统的可观测性。选择合适的链路追踪工具和策略,将对系统的稳定性和用户体验产生积极影响。
科普:什么是链路追踪

手把手教程:使用 Fluentbit 采集夜莺日志写入 ElasticSearch

Fluentbit 是非常流行的日志采集器,本文以夜莺的日志举例,使用 Fluentbit 采集,并直接写入 ElasticSearch,最终使用 Kibana 查看。借此实践过程,让读者熟悉 Fluentbit 的使用。
手把手教程:使用 Fluentbit 采集夜莺日志写入 ElasticSearch

Fluentbit 采集 Node-Exporter 相关的指标

Fluentbit 是一个轻量级的日志收集器,适用于容器化环境和边缘设备。除了采集日志之外,也支持采集指标,默认支持 CPU、内存相关的指标,还支持 Node-Exporter 的指标。本文介绍了如何配置 Fluentbit 采集 Node-Exporter 的指标。
Fluentbit 采集 Node-Exporter 相关的指标

VictoriaMetrics 中文教程(10)集群版简介

ictoriaMetrics 集群版相比单机版,更适合大规模的监控数据存储和查询。本文介绍集群版本的搭建方式,以及一些重要参数和注意事项。
VictoriaMetrics 中文教程(10)集群版简介

VictoriaMetrics 中文教程(09)VictoriaMetrics 18 条 Troubleshooting 建议和提示

VictoriaMetrics 18 条 Troubleshooting 建议,解决性能问题、部署运维问题、使用问题、以及一些关键指标等
VictoriaMetrics 中文教程(09)VictoriaMetrics 18 条 Troubleshooting 建议和提示

VictoriaMetrics 中文教程(08)VictoriaMetrics 的存储

VictoriaMetrics 的磁盘文件存储结构讲解,包括小 part、大 part、块、索引等。同时讲解 VictoriaMetrics 的存储保留时长。开源版可以通过搭建多个实例的方式对不同的数据设置不同的存储时长。
VictoriaMetrics 中文教程(08)VictoriaMetrics 的存储

夜莺 v7.5 发版,体验再提升

夜莺 v7.5 发版,优化了一波小功能。首先是告警规则页面的优化,其次是仪表盘的跳转链接的优化。再有一两个小版本,v7 就差不多了,后面的大功能会放到 v8 版本,敬请期待
夜莺 v7.5 发版,体验再提升

VictoriaMetrics 中文教程(07)高可用(High availability)方案

讲解 VictoriaMetrics 的高可以用(High availability)方案,即双写方案,这种方案简单,鲁棒性高。前面使用 vmauth 做 Proxy。如果采集侧也要使用多个 vmagent 做高可以用,那就需要在服务端启用 Deduplication
VictoriaMetrics 中文教程(07)高可用(High availability)方案

构建告警事件平台,加速告警响应

告警事件大家都不陌生,但是要把告警事件处理好并不容易,一般监控系统不会着力优化告警事件的后续处理逻辑,这催生了统一告警事件中心的需求,像 PagerDuty、FlashDuty 都是个中翘楚
构建告警事件平台,加速告警响应

VictoriaMetrics 中文教程(06)容量规划

讲解 VictoriaMetrics 的容量规划,以及如何根据实际情况调整 VictoriaMetrics 的资源限制参数
VictoriaMetrics 中文教程(06)容量规划

VictoriaMetrics 中文教程(05)对接各类监控数据采集器

VictoriaMetrics 期望做大一统的时序数据存储,可以对接各类采集器,比如 Prometheus 生态的各类 Exporter、Telegraf、Datadog-Agent、OpenTSDB collector、StatsD 等等。
VictoriaMetrics 中文教程(05)对接各类监控数据采集器

VictoriaMetrics 中文教程(04)对接 Grafana 同时介绍 vmui

如何在 Grafana 中对接 VictoriaMetrics,实现数据可视化展示。由于 VictoriaMetrics 完全兼容 Prometheus 的接口协议,可以把 VictoriaMetrics 看做是 Prometheus
VictoriaMetrics 中文教程(04)对接 Grafana 同时介绍 vmui

运维监控工具有哪些

运维工作通常分三大方向,监控、变更、资产管理。运维监控是运维工作的重中之重,因为做好监控是稳定性保障的前提,如果监控都没做好,更何谈故障及时发现、故障快速定位呢
运维监控工具有哪些

VictoriaMetrics 中文教程(03)如何配置 Prometheus 使其把数据远程写入 VictoriaMetrics

讲解如何配置 Prometheus 使其把数据远程写入 VictoriaMetrics,这样就可以实现 Prometheus 的数据高可用和持久化。同时,我们也会了解如何给 Prometheus 添加标签,以及如何调整 remote write 的配置参数。
VictoriaMetrics 中文教程(03)如何配置 Prometheus 使其把数据远程写入 VictoriaMetrics

Nightingale 和 Flashcat 的区别

Nightingale 和 Flashcat 是两个不同的监控系统,本文将介绍它们的区别。简单来讲 Nightingale 是一款开源监控系统,Flashcat 是 Nightingale 的商业版本,主导这两个项目的是一波人
Nightingale 和 Flashcat 的区别

VictoriaMetrics 中文教程(02)安装

VictoriaMetrics 是一个非常优秀的时序数据库,它的性能、稳定性、易用性都非常好,是国内很多大厂的选择。本文是 VictoriaMetrics 中文教程第 02 篇,讲解 VictoriaMetrics 的安装,VictoriatMetrics 支持多种不同的安装方式,极为方便
VictoriaMetrics 中文教程(02)安装

VictoriaMetrics 中文教程(01)简介

VictoriaMetrics 是一个非常优秀的时序数据库,它的性能、稳定性、易用性都非常好,是国内很多大厂的选择。本文是 VictoriaMetrics 中文教程第 01 篇,对 VictoriaMetrics 进行了简单的介绍
VictoriaMetrics 中文教程(01)简介

IT 监控有哪些监控数据采集方式

IT 监控系统是周期性采集监控数据,进而进行分析、可视化、告警的系统,对于故障发现、定位具有极大的帮助。监控数据采集是监控系统的基础,本文介绍了 IT 监控系统中常见的监控数据采集方式。
IT 监控有哪些监控数据采集方式

什么是开源监控系统?

运开源监控系统是基于开放源代码的监控工具,帮助运维团队实时跟踪、分析和管理服务器、网络、应用程序等IT基础设施的运行状态。这些系统通过收集、存储、分析和展示各种性能数据、日志信息和告警事件,为运维人员提供全面的系统视图,帮助他们快速发现并解决问题,保障系统的稳定运行。
什么是开源监控系统?

可观测平台是什么?

可观测平台是集成多种监控、日志、跟踪和告警功能的系统,实时监测和分析IT系统的运行状态。通过收集、存储、处理和分析大量数据,提供全面、详细的系统运行视图,帮助运维团队快速发现和解决问题。
可观测平台是什么?

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl faq featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控告警 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 面试题 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 尾采样 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat