快猫星云博客 | 一站式智能观测平台 | 可观测性

如何排查常规软件问题 - 面向 Linux 初级用户的教程

笔者从 14 年做开源软件以来，接触了众多 Linux 新手用户，这里我为这类用户总结了一些常见的问题排查方法，希望能帮助到大家。如果你已经工作多年，对于下面提到的思路和方法应该非常熟悉，如果对某一条感到陌生，咳咳，真的不太应该，赶紧补补吧。

Posted by 快猫星云 on 2024-01-25 10:06:10

他山之石可攻玉 Linux Troubleshooting

史上最简单的日志告警方案，没有之一

如果你在意生产环境的稳定性，希望自己的服务出问题时及时发现，大概率就有日志监控告警的需求，比如发现日志中有 Error 或 Exception 关键字就告警，比如通过日志统计某个服务的 95 分位延迟数据，延迟过高就告警，比如通过日志统计某个服务的 status code，出现多个 5xx 就告警，等等。日志可能存储在 ElasticSearch、Loki、ClickHouse 等系统中，告警系统的核心逻辑也比较清晰，就是根据用户配置的查询语句，周期性查询这些存储，并对查询结果做阈值判定，如果达到阈值就触发告警。比如统计 5 分钟内出现的 Error 数量，如果大于 10 就告警。

Posted by 快猫星云 on 2024-01-23 10:06:10

产品动态日志告警日志监控 ElasticSearch Flashduty

告警恢复时，如何拿到当前值

在夜莺新版本中，告警规则直接使用 promql 来配置，阈值就包含在 promql 里面，所以恢复时是无法拿到当前值的，因为恢复时监控数据不达阈值，不达阈值就不会返回数据，所以也就无法拿到当前值。Prometheus 也是类似的问题，不过可以通过 go template 中的 query 函数曲线救国，但是不够直观，学习曲线较高。今天给大家介绍两种实现思路来解决这个问题。

Posted by 快猫星云 on 2024-01-17 10:06:10

产品动态监控系统 prometheus告警

漫画图解 Go 并发编程之：Channel

使用漫画的方式虚拟一个咖啡馆的点餐场景，来讲解 Go Channel 的原理和使用。

Posted by Brian NQC on 2024-01-09 09:00:00

他山之石可攻玉 Golang

专栏：数据库、中间件的监控一网打尽

这是《手把手构建生产级监控系统》专栏第二篇，演示如何快速监控常见的数据库、中间件，如何配置仪表盘以及告警规则。方便各位看官能够快速上手，本文重视实操，至于具体每个中间件的关键指标我们留待后面专栏介绍

Posted by 秦晓辉 on 2024-01-04 06:06:10

手把手构建生产级监控系统运维监控系统实战笔记手把手构建生产级监控系统

专栏：手把手构建生产级监控系统

笔者去年在极客时间发布了一个专栏《运维监控系统实战笔记》，很多朋友借此梳理了较为体系化的运维监控系统知识，但是限于专栏篇幅，有些手把手实操类的内容没有办法展开，另外时隔一年，监控系统的技术栈也有了一些变化，所以笔者决定在这里把这些内容补充完整。

Posted by 秦晓辉 on 2024-01-01 06:06:10

手把手构建生产级监控系统运维监控系统实战笔记手把手构建生产级监控系统

夜莺监控发布 v6.7 版本，推送部分商业版功能

熟悉夜莺的小伙伴都知道夜莺分为开源版、专业版、企业版，三个版本良性发展。近期夜莺团队发布了 v6.7 版本，把机器Metadata管理功能推送到了开源版。

Posted by 夜莺 on 2023-12-28 06:06:10

夜莺 Nightingale

最佳实践：灭火图 - 故障发现和定位的入口

灭火图是发现服务健康与否的入口，也是整个故障定位信息系统的核心，从灭火图开始，可以下钻到具体的接口/基础设施/链路分析数据/问题特征/相关事件等关键维度，引导技术团队高效、精准的定位故障。

Posted by 快猫技术 on 2023-12-27 08:08:08

Flashcat产品 Flashcat 最佳实践 Flashcat

Google SRE 的 on-call 方法和工具

我们熟知的 Kubernetes 是 Google 内部容器编排工具 Borg 的开源实现，Prometheus 是 Google 内部监控工具 Borgmon 的开源版本。那么 Google 内部的 OnCall 工具 Outalator 有没有相关的产品呢？

Posted by Flashcat on 2023-12-26 08:00:00

他山之石可攻玉 SRE Google OnCall Flashduty

快速监控 Oracle 数据库

Oracle 数据库在行业内应用广泛，通常存放的非常重要的数据，监控是必不可少的，本文使用 Cprobe 采集 Oracle 监控数据，极致简单，分享给大家

Posted by 秦晓辉@快猫星云 on 2023-12-25 01:00:00

他山之石可攻玉 Oracle监控

利用夜莺开源版对H3C无线设备监控

来自夜莺社区用户写的文章，前文说明了利用夜莺开源版如何监控H3C交换机的，算是抛砖引玉；秉持着授人与鱼不如授人与渔，今天我们就来具体谈谈夜莺SNMP插件的使用，能自己自定义自身需求的监控指标才是真正学会如何利用夜莺去监控SNMP协议设备，今天将以H3C无线作为案例，具体讲解下SNMP插件配置。

Posted by 网络小斐 on 2023-12-19 10:06:10

他山之石可攻玉夜莺监控 SNMP

Flashduty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成

支持更高级的值班管理功能，支付服务日历、自定义操作和邮件集成

Posted by Product Team @快猫星云 on 2023-12-18 10:00:00

产品动态 Flashduty Flashduty Flashduty-Changelog

理想的监控系统到底是什么样的？

笔者从 14 年开始做监控，到现在接近 10 年，认知在持续迭代，最近又有一些新想法，跟大家分享一下我眼中的理想的监控系统到底是什么样的

Posted by 秦晓辉@快猫星云 on 2023-12-14 00:00:00

Flashcat方法最佳实践监控系统可观测性

可观测性与传统监控的区别和联系

什么是可观测性？相比传统监控，可观测性是“新瓶装旧酒”吗？他们有哪些区别和联系，从传统监控到可观测性，Gap 到底有多大？

Posted by 快猫技术 on 2023-12-12 21:08:08

Flashcat方法快猫点评可观测性 IT监控运维监控 Monitoring Observability

大一统的监控探针采集器 cprobe

监控数据采集领域，有各种 agent 各种 exporter，缺乏一个真正好用的产品设计，这个需求到底应该怎么做？cprobe 给你答案。

Posted by 秦晓辉@快猫星云 on 2023-12-05 00:00:00

cprobe

TiDB：多集群告警监控-中章-融合多集群 Grafana

随着公司XC改造步伐的前进，越来越多的业务选择 TiDB，由于各个业务之间需要物理隔离，避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana，但对于运维来说几十套集群的监控、告警、巡检均需消耗巨大的精力。上篇介绍了监控工具的安装，以及业务组如何规范的设置。本章着重介绍如何将多套集群 Grafana 数据统一管理。

Posted by longzhuquan on 2023-12-04 18:00:00

用户案例 TiDB

TiDB：多集群告警监控-初章-监控融合、自动告警处理

随着公司XC改造步伐的前进，越来越多的业务选择 TiDB，由于各个业务之间需要物理隔离，避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana，但对于运维来说几十套集群的监控、告警、巡检均需消耗巨大的精力。

Posted by longzhuquan on 2023-12-01 18:06:00

用户案例 TiDB

途游游戏：Flashduty 案例分享

Flashduty 作为功能完备的事件OnCall中心，可以接入云上、云下不同监控系统，统一做告警降噪分派、认领升级、排班协同，已经得到众多先进企业的认可。我们采访了一些典型客户代表，了解他们的痛点、选型考虑和未来展望，集成本系列文章，以飨读者

Posted by 秦晓辉@快猫星云 on 2023-11-26 00:00:00

Flashduty 用户案例 Flashduty

益丰大药房：Flashduty 案例分享

Posted by 秦晓辉@快猫星云 on 2023-11-23 06:06:10

Flashduty 用户案例 Flashduty

招贤令：一起来搞一个新开源项目

我想搞一个新的开源项目，想邀请同道中人一起来搞。目标是做一个探针式监控采集器，使用 Go 语言编写，欢迎感兴趣的朋友一起来搞。

Posted by 秦晓辉 on 2023-11-21 08:06:10

ai aiagent aiops alertmanager apache apiserver apm azure categraf catpaw ccf cdn chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl faq featureflag filelog flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia jvm k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki mcp-server metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis rum salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre syslog telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星不可变基础设施出海出海业务创业错误预算错误预算机制大厂实践大模型大模型智能oncall 滴滴夜莺钉钉钉钉通知飞书飞书通知分布式追踪服务稳定性告警告警oncall 告警丰富告警风暴告警规则告警降噪告警聚合告警排班告警认领告警升级告警事件告警收敛告警数据孤岛告警通知告警响应告警协同告警抑制告警引擎告警值班告警指派告警自愈根因定位故障故障复盘故障管理计算机学会架构师监控监控agent 监控方法论监控告警监控工具监控设计思考监控系统监控系统合规进程监控开源开源监控开源商业化开源夜莺可观测平台可观测性可观测性论坛可观测性体系建设客户案例快猫快猫星云连锁门店链路追踪埋点监控面试题灭火图普罗米修斯企微通知企业微信前端监控人工智能日志日志采集日志存储日志分析日志告警日志监控容器熔断时序库时序数据库事件监控手把手构建生产级监控系统他山之石提问的智慧通知规则统一监控网络可观测性网络排障尾采样稳定性保障稳定性方法论稳定性体系稳定性体系建设系统架构设计信创业务监控夜莺夜莺v8 夜莺短信告警夜莺黄埔营夜莺监控夜莺开发者创新论坛夜莺开源项目夜莺业务组夜莺用户案例医药健康仪表盘用户案例云厂商云原生监控云原生组织运维运维百家讲坛运维告警运维监控运维监控系统运维监控系统实战笔记智能oncall 智能告警自监控最佳实践

如何排查常规软件问题 - 面向 Linux 初级用户的教程

史上最简单的日志告警方案，没有之一

告警恢复时，如何拿到当前值

漫画图解 Go 并发编程之：Channel

专栏：数据库、中间件的监控一网打尽

专栏：手把手构建生产级监控系统

夜莺监控发布 v6.7 版本，推送部分商业版功能

最佳实践：灭火图 - 故障发现和定位的入口

Google SRE 的 on-call 方法和工具

快速监控 Oracle 数据库

利用夜莺开源版对H3C无线设备监控

Flashduty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成

理想的监控系统到底是什么样的？

可观测性与传统监控的区别和联系

大一统的监控探针采集器 cprobe

TiDB：多集群告警监控-中章-融合多集群 Grafana

TiDB：多集群告警监控-初章-监控融合、自动告警处理

途游游戏：Flashduty 案例分享

益丰大药房：Flashduty 案例分享

招贤令：一起来搞一个新开源项目

标签