快猫星云博客 | 一站式智能观测平台 | 可观测性

写了一个 SRE 调试工具，类似一个小木马

远程操作机器有时会比较麻烦，我写了一个工具，主要功能：1.远程执行命令 2.上传下载文件 3.打印 HTTP 请求

Posted by 巴辉特 on 2024-04-10 00:08:08

SRE

夜莺监控 V7 第二个 beta 版本发布，内置集成故障自愈能力，简化部署

夜莺监控 V5 和 V6 版本都支持故障自愈功能，但是均需要单独部署 ibex 模块，从 V7 beta2 版本开始，夜莺内置集成了 ibex 模块，无需单独部署 ibex，大大简化了部署流程。

Posted by 巴辉特 on 2024-04-09 00:08:08

夜莺 Nightingale 夜莺监控开源夜莺

SRE 必备利器：域名 DNS 探测排障工具

访问某个 HTTP 域名接口，偶发性超时，原因可能多种多样，比如 DNS 解析问题、网络质量问题、对端服务负载问题等，在客户端没有良好埋点的情况下，排查起来比较费劲，只能挨个方向尝试，这里送大家一个小工具，可以快速采样 DNS 解析延迟，快速确认是否是 DNS 解析问题。

Posted by 巴辉特 on 2024-04-07 00:08:08

DNS

关于 ulimit 的两个天坑

ulimit 是 Linux 系统中的一个命令，用于设置用户进程的资源限制。在使用 ulimit 时，有两个天坑需要注意。

Posted by 巴辉特 on 2024-04-01 00:08:08

ulimit

最佳实践：可观测建设实践之 - 日志分析的权衡取舍

本文将结合实战经验，介绍一种日志分析的实现，分析如何在稳定性保障中用好日志这个维度，以及日志如何与指标、链路相互配合形成故障定位的最佳实践。

Posted by 快猫技术 on 2024-03-28 06:06:10

Flashcat产品 Flashcat方法最佳实践 Log

老张，你的服务是不是挂了？论全局 SLI 的重要性

作为研发运维人员，经常碰到这种情况，自己的服务依赖别人的服务，某一天自己的服务故障了，此时我很想知道依赖的下游服务当前是否健康，但是这些下游服务的 SLI 却没有地方查看，困扰不已。

Posted by 巴辉特 on 2024-03-21 00:08:08

SLI 灭火图

别想宰我，怎么查看云厂商是否超卖？详解 cpu steal time

本文通过讲解 cpu steal time 的概念，来告诉大家如何查看云厂商是否超卖，如果一旦超卖，该如何应对。

Posted by 巴辉特 on 2024-03-20 00:08:08

云厂商监控

天天报警值班，老子不干了

有些团队声称自己是 DevOps 团队，全员 OnCall，结果最后就是最好欺负的那些人干活最多，这不，我这个前同事就是因为这个原因，要离职了

Posted by 巴辉特 on 2024-03-18 00:08:08

OnCall

Zenlayer：如何将万台设备监控从Zabbix迁移到Flashcat

作为全球首家以超连接为核心的云服务商，Zenlayer 致力于将云计算、内容服务和边缘技术融合，为客户提供全面的解决方案。通过构建可靠的网络架构和高效的数据传输，Zenlayer 帮助客户实现更快速、更可靠的连接，提升用户体验和业务效率。Zenlayer 在全球范围内运营着超过 290 个边缘节点，骨干网带宽超过 50Tbps， 10000+ 的数据中心接入点，快速连接全球公有云与数据中心。

Posted by Flashcat on 2024-03-12 00:00:00

用户案例 Flashcat Zabbix

5 分钟小工具：使用 dive 分析 docker 镜像

dive 是一个用于分析 docker 镜像的工具，可以帮助你快速了解镜像的构成和大小，以及优化镜像大小。

Posted by 巴辉特 on 2024-03-12 00:08:08

他山之石可攻玉 Docker

Vector + ClickHouse 收集日志

目前业界的日志生态，最常用的是 ELK，其次就是 ClickHouse，本文会演示如何使用 Vector + ClickHouse 来采集 Nginx 日志并做清洗，最终写入 ClickHouse

Posted by Denys Golotiuk, Ulric on 2024-03-07 00:06:10

他山之石可攻玉 Vector ClickHouse

Flashcat与出行科技企业一起实践多云可观测

某出行科技企业从单个公有云往多云转型，依托于国内领先的公有云提供商，采用多云架构，在可用性、弹性、成本、供应商依赖方面，拥有了显著的优势。相应的，多云架构也给技术团队带来了一定的复杂度和技术挑战，最显著的就是如何高效的构建跨云的可观测性体系，提升故障发现、问题排查、性能分析等方面的能力。

Posted by Flashcat on 2024-03-05 00:00:00

用户案例 Flashcat

Flashduty集成邮件告警：邮件告警还能这么玩？！

在现代的 IT 技术环境中，新的监控系统通常都支持非常丰富的通知媒介，比如电话、短信、钉钉、飞书、Slack 等，非常灵活。但是一些老旧的系统，不提供指标暴露方式，无法和监控系统良好对接，这些老古董通常只内置提供邮件告警这一种方式。这种情况应该如何处理呢？

Posted by 快猫技术 on 2024-03-04 00:06:00

Flashduty 产品动态

数据可视化基础篇-图形语法

当我们在制作仪表盘或其他数据可视化时离不开对图表的选择，不同的数据信息该怎么选择图表？

Posted by 戴夏清@快猫星云 on 2024-03-01 00:06:00

OpenTelemetry Logging 思维导图，收藏

Logs 是“可观测性三支柱”中历史包袱最重的监控数据类型，日志的格式更随意，缺乏标准和规范。推荐在应用研发阶段，按照 OTel Logs 规范打印日志。

Posted by Flashcat on 2024-02-26 10:06:10

OpenTelemetry专栏 OpenTelemetry OTel 可观测性

OpenTelemetry Tracing 思维导图，收藏

相较于传统的单体应用，以及过去相对静态化的基础设施，现代的应用架构，是一种松耦合的、动态变化的、数量巨大的微服务构成的网络。为了看清楚网络中众多不同的服务之间的依赖关系，以及看清楚一次请求经过的路径上各个节点之间的耗时等信息，传统监控，已经无力应对了。这个网络的每个节点，都有可能是出问题的风险点，tracing 能够追踪每个请求在全生命周期过程中所经过的每个节点的信息，成为了云原生时代和微服务架构下构建可观测体系的关键一环。

Posted by Flashcat on 2024-02-26 10:06:10

OpenTelemetry专栏 OpenTelemetry OTel 可观测性

使用 nsenter 排查容器网络问题

我想进入容器中执行 curl 命令探测某个地址的连通性，但是容器镜像里默认没有 curl 命令。我这里是一个内网环境不太方便使用 yum 或者 apt 安装，怎么办？这个需求比较典型，这里教大家一个简单的方法，使用 nsenter 进入容器的 net namespace，即可使用宿主机的 curl、ip、ifconfig 等命令，其效果，就跟进入容器中执行是一样的。

Posted by 快猫星云 on 2024-02-18 00:00:00

他山之石可攻玉 nsenter 容器

产品技术：网络问题排查必备利器——Pingmesh

大规模网络环境下，有不同的数据中心、不同的机柜、不同的交换机，遇到问题排查起来相对比较费劲，本文介绍通过 Pingmesh 方案来解决这个问题。Pingmesh 的提出最初是来自微软，在微软内部 Pingmesh 每天会记录 24TB 数据，进行 2000 亿次 ping 探测，通过这些数据，微软可以很好的进行网络故障判定和及时的修复。

Posted by 保清@快猫技术 on 2024-02-01 04:06:10

Flashcat产品产品技术 Pingmesh

手把手教你免费用Flashduty做消息通知

全程不超过5分钟，快速上手免费使用Flashduty的消息通知能力，支持电话、微信机器人、企业微信、钉钉、飞书、短信、邮件、Slack、Zoom。

Posted by guguji5 on 2024-02-01 03:06:10

产品动态 Flashduty

2 分钟，了解 4 个极为有用的 MetricsQL 函数

夜莺社区的朋友如果问时序库的选型，我一般都会推荐 VictoriaMetrics，除了其性能、稳定性、集群扩展能力之外，VictoriaMetrics 还扩展了 PromQL，提供了 MetricsQL，即增强了 PromQL 的能力。比如下面介绍的场景，就很适合用 MetricsQL 来解决。

Posted by 快猫星云 on 2024-01-30 06:06:10

他山之石可攻玉 MetricsQl

ai aiagent aiops alertmanager apache apiserver apm azure categraf catpaw ccf cdn chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl faq featureflag filelog flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia jvm k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki mcp-server metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis rum salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre syslog telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星不可变基础设施出海出海业务创业错误预算错误预算机制大厂实践大模型大模型智能oncall 滴滴夜莺钉钉钉钉通知飞书飞书通知分布式追踪服务稳定性告警告警oncall 告警丰富告警风暴告警规则告警降噪告警聚合告警排班告警认领告警升级告警事件告警收敛告警数据孤岛告警通知告警响应告警协同告警抑制告警引擎告警值班告警指派告警自愈根因定位故障故障复盘故障管理计算机学会架构师监控监控agent 监控方法论监控告警监控工具监控设计思考监控系统监控系统合规进程监控开源开源监控开源商业化开源夜莺可观测平台可观测性可观测性论坛可观测性体系建设客户案例快猫快猫星云连锁门店链路追踪埋点监控面试题灭火图普罗米修斯企微通知企业微信前端监控人工智能日志日志采集日志存储日志分析日志告警日志监控容器熔断时序库时序数据库事件监控手把手构建生产级监控系统他山之石提问的智慧通知规则统一监控网络可观测性网络排障尾采样稳定性保障稳定性方法论稳定性体系稳定性体系建设系统架构设计信创业务监控夜莺夜莺v8 夜莺短信告警夜莺黄埔营夜莺监控夜莺开发者创新论坛夜莺开源项目夜莺业务组夜莺用户案例医药健康仪表盘用户案例云厂商云原生监控云原生组织运维运维百家讲坛运维告警运维监控运维监控系统运维监控系统实战笔记智能oncall 智能告警自监控最佳实践