网络监控:无线监控这个面板好养眼

来自社区用户写的文章,利用Categraf+VictoriaMetrics替换SNMP EXporter+Prometheus,紧接上篇对交换机的监控,本篇是一个无线设备的监控的案例

你唯一需要的是“Wide Events”,而非“Metrics、Logs、Traces”

你唯一需要的是宽事件 “Wide Events”,而非三大支柱 “Metrics、Logs、Traces”。本文作者曾是 Meta 员工,个中思路值得借鉴。

手摸手教你把Ingress Nginx集成进Skywalking

本文重点介绍如何将 Ingress Nginx 集成进 Skywalking,将其作为 Skywalking 的一个节点,并且在access log 中打印TraceID,从而在出现故障的时候,可以通过日志中的TraceID快速找到调用链路,达到快速故障定位的效果。

网络监控:交换机监控新姿势

来自社区用户写的文章,在网络监控领域利用Categraf+VictoriaMetrics替换SNMP EXporter+Prometheus,使其更加友好和方便,并且性能和扩展性进一步提高

写了一个 SRE 调试工具,类似一个小木马

远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件 3.打印 HTTP 请求

夜莺监控 V7 第二个 beta 版本发布,内置集成故障自愈能力,简化部署

夜莺监控 V5 和 V6 版本都支持故障自愈功能,但是均需要单独部署 ibex 模块,从 V7 beta2 版本开始,夜莺内置集成了 ibex 模块,无需单独部署 ibex,大大简化了部署流程。

SRE 必备利器:域名 DNS 探测排障工具

问题背景 访问某个 HTTP 域名接口,偶发性超时,原因可能多种多样,比如 DNS 解析问题、网络质量问题、对端服务负载问题等,在客户端没有良好埋点的情况下,排查起来比较费劲,只能挨个方向尝试,这里送大家一个小工具,可以快速采样 DNS 解析延迟,快速确认是否是 DNS 解析问题。

关于 ulimit 的两个天坑

ulimit 是 Linux 系统中的一个命令,用于设置用户进程的资源限制。在使用 ulimit 时,有两个天坑需要注意。

可观测建设实践之 - 日志分析的权衡取舍

本文将结合实战经验,介绍一种日志分析的实现,分析如何在稳定性保障中用好日志这个维度,以及日志如何与指标、链路相互配合形成故障定位的最佳实践。

老张,你的服务是不是挂了?论全局 SLI 的重要性

作为研发运维人员,经常碰到这种情况,自己的服务依赖别人的服务,某一天自己的服务故障了,此时我很想知道依赖的下游服务当前是否健康,但是这些下游服务的 SLI 却没有地方查看,困扰不已。
标签
aiops apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo devops dns docker ebpf elastalert elasticsearch etcd flashcat flashduty flashduty-changelog gitops golang google grok_exporter hadoop haproxy hdfs iac ilo im协同 jaeger jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor logs metrics metricsql mimirtool monitoring mtail mysql netflix nightingale nsenter observability oncall open-falcon openmetrics opentelemetry oracle监控 otel pingmesh postgresql product-feature prometheus prometheus告警 promql rancher salt scheduler signoz skywalking sli slo snmp snmp-exporter sre telegraf tidb traces troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警协同 告警抑制 告警引擎 告警指派 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控设计思考 监控系统 开源 开源监控 开源夜莺 可观测性 可观测性论坛 可观测性体系建设 快猫 快猫星云 灭火图 企业微信 人工智能 日志分析 日志告警 容器 事件监控 手把手构建生产级监控系统 提问的智慧 网络可观测性 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维监控 运维监控系统实战笔记 智能告警 自监控
开源版
Flashcat
Flashduty