数据可视化基础篇-图形语法

当我们在制作仪表盘或其他数据可视化时离不开对图表的选择,不同的数据信息该怎么选择图表?

OpenTelemetry Logging 思维导图,收藏

Logs 是“可观测性三支柱”中历史包袱最重的监控数据类型,日志的格式更随意,缺乏标准和规范。推荐在应用研发阶段,按照 OTel Logs 规范打印日志。

OpenTelemetry Tracing 思维导图,收藏

相较于传统的单体应用,以及过去相对静态化的基础设施,现代的应用架构,是一种松耦合的、动态变化的、数量巨大的微服务构成的网络。为了看清楚网络中众多不同的服务之间的依赖关系,以及看清楚一次请求经过的路径上各个节点之间的耗时等信息,传统监控,已经无力应对了。这个网络的每个节点,都有可能是出问题的风险点,tracing 能够追踪每个请求在全生命周期过程中所经过的每个节点的信息,成为了云原生时代和微服务架构下构建可观测体系的关键一环。

使用 nsenter 排查容器网络问题

我想进入容器中执行 curl 命令探测某个地址的连通性,但是容器镜像里默认没有 curl 命令。我这里是一个内网环境不太方便使用 yum 或者 apt 安装,怎么办?这个需求比较典型,这里教大家一个简单的方法,使用 nsenter 进入容器的 net namespace,即可使用宿主机的 curl、ip、ifconfig 等命令,其效果,就跟进入容器中执行是一样的。

网络问题排查必备利器:Pingmesh

大规模网络环境下,有不同的数据中心、不同的机柜、不同的交换机,遇到问题排查起来相对比较费劲,本文介绍通过 Pingmesh 方案来解决这个问题。Pingmesh 的提出最初是来自微软,在微软内部 Pingmesh 每天会记录 24TB 数据,进行 2000 亿次 ping 探测,通过这些数据,微软可以很好的进行网络故障判定和及时的修复。

手把手教你免费用Flashduty做消息通知

全程不超过5分钟,快速上手免费使用Flashduty的消息通知能力,支持电话、微信机器人、企业微信、钉钉、飞书、短信、邮件、Slack、Zoom。

2 分钟,了解 4 个极为有用的 MetricsQL 函数

夜莺社区的朋友如果问时序库的选型,我一般都会推荐 VictoriaMetrics,除了其性能、稳定性、集群扩展能力之外,VictoriaMetrics 还扩展了 PromQL,提供了 MetricsQL,即增强了 PromQL 的能力。比如下面介绍的场景,就很适合用 MetricsQL 来解决。

UDP端口探活的那些细节

UDP 是无连接的,无法用建立连接的形式判断端口是否存活,如何为 Categraf 实现一个简单通用的 UDP 探测插件呢?

如何排查常规软件问题 - 面向 Linux 初级用户的教程

笔者从 14 年做开源软件以来,接触了众多 Linux 新手用户,这里我为这类用户总结了一些常见的问题排查方法,希望能帮助到大家。如果你已经工作多年,对于下面提到的思路和方法应该非常熟悉,如果对某一条感到陌生,咳咳,真的不太应该,赶紧补补吧。

史上最简单的日志告警方案,没有之一

如果你在意生产环境的稳定性,希望自己的服务出问题时及时发现,大概率就有日志监控告警的需求,比如发现日志中有 Error 或 Exception 关键字就告警,比如通过日志统计某个服务的 95 分位延迟数据,延迟过高就告警,比如通过日志统计某个服务的 status code,出现多个 5xx 就告警,等等。日志可能存储在 ElasticSearch、Loki、ClickHouse 等系统中,告警系统的核心逻辑也比较清晰,就是根据用户配置的查询语句,周期性查询这些存储,并对查询结果做阈值判定,如果达到阈值就触发告警。比如统计 5 分钟内出现的 Error 数量,如果大于 10 就告警。
标签
aiops apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo devops dns docker ebpf elastalert elasticsearch etcd flashcat flashduty flashduty-changelog gitops golang google grok_exporter hadoop haproxy hdfs iac ilo im协同 jaeger jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor logs metrics metricsql mimirtool monitoring mtail mysql netflix nightingale nsenter observability oncall open-falcon openmetrics opentelemetry oracle监控 otel pingmesh postgresql product-feature prometheus prometheus告警 promql rancher salt scheduler signoz skywalking sli slo snmp snmp-exporter sre telegraf tidb traces troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警协同 告警抑制 告警引擎 告警指派 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控设计思考 监控系统 开源 开源监控 开源夜莺 可观测性 可观测性论坛 可观测性体系建设 快猫 快猫星云 灭火图 企业微信 人工智能 日志分析 日志告警 容器 事件监控 手把手构建生产级监控系统 提问的智慧 网络可观测性 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维监控 运维监控系统实战笔记 智能告警 自监控
开源版
Flashcat
Flashduty