Zenlayer如何将万台设备监控从Zabbix迁移到Flashcat

作为全球首家以超连接为核心的云服务商,Zenlayer 致力于将云计算、内容服务和边缘技术融合,为客户提供全面的解决方案。通过构建可靠的网络架构和高效的数据传输,Zenlayer 帮助客户实现更快速、更可靠的连接,提升用户体验和业务效率。Zenlayer 在全球范围内运营着超过 290 个边缘节点, 骨干网带宽超过 50Tbps, 10000+ 的数据中心接入点,快速连接全球公有云与数据中心。

5 分钟小工具:使用 dive 分析 docker 镜像

dive 是一个用于分析 docker 镜像的工具,可以帮助你快速了解镜像的构成和大小,以及优化镜像大小。

Vector + ClickHouse 收集日志

目前业界的日志生态,最常用的是 ELK,其次就是 ClickHouse,本文会演示如何使用 Vector + ClickHouse 来采集 Nginx 日志并做清洗,最终写入 ClickHouse

Flashcat与出行科技企业一起实践多云可观测

某出行科技企业从单个公有云往多云转型,依托于国内领先的公有云提供商,采用多云架构,在可用性、弹性、成本、供应商依赖方面,拥有了显著的优势。相应的,多云架构也给技术团队带来了一定的复杂度和技术挑战,最显著的就是如何高效的构建跨云的可观测性体系,提升故障发现、问题排查、性能分析等方面的能力。

邮件告警还能这么玩?!

在现代的 IT 技术环境中,新的监控系统通常都支持非常丰富的通知媒介,比如电话、短信、钉钉、飞书、Slack 等,非常灵活。但是一些老旧的系统,不提供指标暴露方式,无法和监控系统良好对接,这些老古董通常只内置提供邮件告警这一种方式。这种情况应该如何处理呢?

数据可视化基础篇-图形语法

当我们在制作仪表盘或其他数据可视化时离不开对图表的选择,不同的数据信息该怎么选择图表?

OpenTelemetry Logging 思维导图,收藏

Logs 是“可观测性三支柱”中历史包袱最重的监控数据类型,日志的格式更随意,缺乏标准和规范。推荐在应用研发阶段,按照 OTel Logs 规范打印日志。

OpenTelemetry Tracing 思维导图,收藏

相较于传统的单体应用,以及过去相对静态化的基础设施,现代的应用架构,是一种松耦合的、动态变化的、数量巨大的微服务构成的网络。为了看清楚网络中众多不同的服务之间的依赖关系,以及看清楚一次请求经过的路径上各个节点之间的耗时等信息,传统监控,已经无力应对了。这个网络的每个节点,都有可能是出问题的风险点,tracing 能够追踪每个请求在全生命周期过程中所经过的每个节点的信息,成为了云原生时代和微服务架构下构建可观测体系的关键一环。

使用 nsenter 排查容器网络问题

我想进入容器中执行 curl 命令探测某个地址的连通性,但是容器镜像里默认没有 curl 命令。我这里是一个内网环境不太方便使用 yum 或者 apt 安装,怎么办?这个需求比较典型,这里教大家一个简单的方法,使用 nsenter 进入容器的 net namespace,即可使用宿主机的 curl、ip、ifconfig 等命令,其效果,就跟进入容器中执行是一样的。

网络问题排查必备利器:Pingmesh

大规模网络环境下,有不同的数据中心、不同的机柜、不同的交换机,遇到问题排查起来相对比较费劲,本文介绍通过 Pingmesh 方案来解决这个问题。Pingmesh 的提出最初是来自微软,在微软内部 Pingmesh 每天会记录 24TB 数据,进行 2000 亿次 ping 探测,通过这些数据,微软可以很好的进行网络故障判定和及时的修复。
标签
aiops apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo devops dns docker ebpf elastalert elasticsearch etcd flashcat flashduty flashduty-changelog gitops golang google grok_exporter hadoop haproxy hdfs iac ilo im协同 jaeger jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor metricsql mimirtool monitoring mtail mysql netflix nightingale nsenter observability oncall open-falcon openmetrics opentelemetry oracle监控 otel pingmesh postgresql product-feature prometheus prometheus告警 promql rancher salt scheduler signoz skywalking sli slo snmp snmp-exporter sre telegraf tidb troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警协同 告警抑制 告警引擎 告警指派 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控设计思考 监控系统 开源 开源监控 开源夜莺 可观测性 可观测性论坛 可观测性体系建设 快猫 快猫星云 灭火图 企业微信 人工智能 日志分析 日志告警 容器 事件监控 手把手构建生产级监控系统 提问的智慧 网络可观测性 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维监控 运维监控系统实战笔记 智能告警 自监控
开源版
Flashcat
Flashduty