快猫星云博客 | 一站式智能观测平台 | 可观测性

手把手教程：利用 OpenTelemetry 监控微服务

针对一个完整的微服务系统，如何利用 OpenTelemetry 快速搭建一个覆盖数据采集、收集、存储、展示、分析全流程的可观测性系统，crossoverJie 撰写的教程，值得仔细阅读。

Posted by crossoverJie on 2024-06-05 08:08:08

他山之石可攻玉 OpenTelemetry Open-Telemetry

告警恢复时如何拿到恢复时的值？

Prometheus 生态的原生做法，由于阈值是放在 promql 中的，恢复时的消息中难以拿到恢复时的值，夜莺 v7.0.0.beta10 版本开始，提供了一种较为简单的内置方式，解决这个问题

Posted by 巴辉特 on 2024-06-03 00:08:08

夜莺产品技术 Nightingale 夜莺监控开源夜莺

夜莺监控 v7.beta8 发版，引入模板中心，修复边缘机房机器失联告警问题

这个版本建立了集成中心的框架，并且修复了边缘机房机器失联告警的Bug，建议升级

Posted by 巴辉特 on 2024-06-03 00:08:08

夜莺 Nightingale 夜莺监控开源夜莺

SRE 排障利器，接口请求超时试试 httpstat

A 服务调用 B 服务的 HTTP 接口，发现 B 服务返回超时，不确定是网络的问题还是 B 服务的问题，需要排查。此时 httpstat 就可以派上用场了，可以方便的看到各个通信环节的耗时，明确是 B 服务的问题还是网络侧的问题

Posted by 巴辉特 on 2024-05-29 00:00:01

httpstat

提升故障应急响应速度，Flashcat平台的1-5-10实践

阿里巴巴提出的稳定性保障 1-5-10 目标是针对提升系统可靠性的一个重要牵引指标，用于缩短故障恢复时长（MTTR），降低故障影响。业界有哪些现成的工具可用?

Posted by 快猫技术 on 2024-05-27 10:00:00

Flashcat方法最佳实践

监控GPU和InfiniBand的三种方法

监控 GPU 服务器和 InfiniBand 是确保高性能计算环境稳定运行的重要环节，是智算中心运行保障的关键能力。

Posted by 夜莺 on 2024-05-24 14:00:00

夜莺

透过 node-exporter 彻底弄懂机器监控：01. node-exporter 框架讲解

node-exporter 是 Prometheus 的官方 exporter 之一，用于监控 Linux 系统的各种指标。本文是专栏第一篇，介绍 node-exporter 的框架，后面会逐步深入 node-exporter 的原理和实现。

Posted by 巴辉特 on 2024-05-24 00:00:01

Prometheus node-exporter

Prometheus 聚合查询的两个方案

多个 Prometheus 集群或者多个 VictoriaMetrics 集群，在 Grafana 和夜莺里通常需要创建多个不同的数据源，这也就意味着，数据没法聚合查询，比如统一做一下 sum 之类的运算会比较麻烦，本文讲述两种 Prometheus 生态的聚合查询方案，以供参考。

Posted by 巴辉特 on 2024-05-22 00:08:08

promxy Prometheus VictoriaMetrics

夜莺监控 v7.beta4 发版，仪表盘变量和业务组下的机器联动

仪表盘中的变量获取来源通常来自时序库，如果要查看机器相关的仪表盘数据，并做到方便的筛选，需要机器相关的指标提前打上各类标签，这个版本开始，仪表盘变量提供了一个新的筛选方式，可以和仪表盘所在业务组联动，自动获取业务组下的机器了

Posted by 巴辉特 on 2024-05-20 00:08:08

夜莺 Nightingale 夜莺监控开源夜莺

夜莺监控（Nightingale）上线内置指标功能

Prometheus 生态里如果要查询数据，需要编写 promql，对于普通用户来说，门槛有点高。通常有两种解法，一个是通过 AI 的手段做翻译，你用大白话跟 AI 提出你的诉求，让 AI 帮你写 promql，另一种是平台里内置现成的 promql，覆盖常用场景开箱即用。夜莺监控（Nightingale）最近上线了内置指标功能，即采用方案二，效果很棒值得尝试。

Posted by 巴辉特 on 2024-05-11 00:06:10

夜莺 Nightingale 夜莺监控

Prometheus 监控平台组件深度讲解

Prometheus 是一个非常流行的监控系统，作为运维或者 SRE 工程师一定要非常熟悉，即便是普通的研发，平时也要查问题，也要会使用 Prometheus。要了解一个开源项目，需要了解其架构和设计逻辑，本文会对 Prometheus 监控平台各个组件做深度讲解

Posted by 巴辉特 on 2024-05-10 00:06:10

Prometheus Prometheus

已经有 Prometheus 了，还需要夜莺？

Prometheus 和 Nightingale 都被看做是监控系统，这俩是什么关系？相互替代还是相互协同？

Posted by 巴辉特 on 2024-05-09 00:06:10

夜莺夜莺 Nightingale Prometheus

记住三个关键开源许可证，选择开源项目不再犯难

开源许可证对比：陆续有一些知名开源项目，出于保护商业利益的角度出发，更改了自己的开源许可证，比如：Redis、Zabbix、Grafana、ElasticSearch、Kibana 等，开源许可证应该怎么选？

Posted by VicLai on 2024-05-07 08:08:08

他山之石可攻玉

细说夜莺监控系统告警自愈机制

虽说监控系统最侧重的功能是指标采集、存储、分析、告警，为了能够快速恢复故障，告警自愈机制也是需要重点投入建设的，所有可以固化为脚本的应急预案都可以使用告警自愈机制来快速驱动

Posted by 巴辉特 on 2024-05-07 00:06:10

夜莺夜莺 Nightingale 告警自愈

ETL 工具之日志提取组件选型比较

什么是ETL？ETL 是指 Extract、Transform、Load 的缩写，是一种常见的数据处理模式，用于将数据从一个数据源抽取（Extract）出来，经过转换（Transform）后加载（Load）到目标数据仓库或数据库中。如果数据源是日志文件，那么最通用的技术栈是ELK。本文对比 logstash 以及 fc-stash 两个 ETL 工具，供大家参考

Posted by 胡冲-快猫星云 on 2024-04-29 00:08:08

他山之石可攻玉 ETL Logging

排查 502 Bad Gateway 的常见思路

浏览器侧看到请求超时，status code 502，即 bad gateway，可能的原因有哪些呢？本文从 SRE 视角给一些常见的排查思路

Posted by 巴辉特 on 2024-04-24 00:08:08

他山之石可攻玉 SRE TroubleShooting

大白话浅析容器网络

容器网络最为典型的是 host network 和 bridge network，本文对二者做对比解释

Posted by 巴辉特 on 2024-04-23 00:08:08

他山之石可攻玉 Docker

Flashduty Changelog 2024-04-22 | 标签增强、IM集成、故障列表与协作空间优化

支持对告警标签进行增强；IM集成卡片内容丰富；故障列表支持自定义展示；协作空间支持排序和收藏

Posted by Product Team @快猫星云 on 2024-04-22 10:00:00

产品动态 Flashduty Flashduty Flashduty-Changelog

你唯一需要的是“Wide Events”，而非“Metrics、Logs、Traces”

你唯一需要的是宽事件 “Wide Events”，而非三大支柱 “Metrics、Logs、Traces”。本文作者曾是 Meta 员工，个中思路值得借鉴。

Posted by 译文 on 2024-04-19 00:08:08

Observability Metrics Logs Traces

手摸手教你把Ingress Nginx集成进Skywalking

本文重点介绍如何将 Ingress Nginx 集成进 Skywalking，将其作为 Skywalking 的一个节点，并且在access log 中打印TraceID，从而在出现故障的时候，可以通过日志中的TraceID快速找到调用链路，达到快速故障定位的效果。

Posted by 张根 on 2024-04-16 00:08:08

Skywalking

ai aiagent aiops alertmanager apache apiserver apm azure categraf catpaw ccf cdn chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl faq featureflag filelog flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia jvm k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki mcp-server metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis rum salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre syslog telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星不可变基础设施出海出海业务创业错误预算错误预算机制大厂实践大模型大模型智能oncall 滴滴夜莺钉钉钉钉通知飞书飞书通知分布式追踪服务稳定性告警告警oncall 告警丰富告警风暴告警规则告警降噪告警聚合告警排班告警认领告警升级告警事件告警收敛告警数据孤岛告警通知告警响应告警协同告警抑制告警引擎告警值班告警指派告警自愈根因定位故障故障复盘故障管理计算机学会架构师监控监控agent 监控方法论监控告警监控工具监控设计思考监控系统监控系统合规进程监控开源开源监控开源商业化开源夜莺可观测平台可观测性可观测性论坛可观测性体系建设客户案例快猫快猫星云连锁门店链路追踪埋点监控面试题灭火图普罗米修斯企微通知企业微信前端监控人工智能日志日志采集日志存储日志分析日志告警日志监控容器熔断时序库时序数据库事件监控手把手构建生产级监控系统他山之石提问的智慧通知规则统一监控网络可观测性网络排障尾采样稳定性保障稳定性方法论稳定性体系稳定性体系建设系统架构设计信创业务监控夜莺夜莺v8 夜莺短信告警夜莺黄埔营夜莺监控夜莺开发者创新论坛夜莺开源项目夜莺业务组夜莺用户案例医药健康仪表盘用户案例云厂商云原生监控云原生组织运维运维百家讲坛运维告警运维监控运维监控系统运维监控系统实战笔记智能oncall 智能告警自监控最佳实践