关于 ulimit 的两个天坑

ulimit 是 Linux 系统中的一个命令,用于设置用户进程的资源限制。在使用 ulimit 时,有两个天坑需要注意。

可观测建设实践之 - 日志分析的权衡取舍

本文将结合实战经验,介绍一种日志分析的实现,分析如何在稳定性保障中用好日志这个维度,以及日志如何与指标、链路相互配合形成故障定位的最佳实践。

老张,你的服务是不是挂了?论全局 SLI 的重要性

作为研发运维人员,经常碰到这种情况,自己的服务依赖别人的服务,某一天自己的服务故障了,此时我很想知道依赖的下游服务当前是否健康,但是这些下游服务的 SLI 却没有地方查看,困扰不已。

别想宰我,怎么查看云厂商是否超卖?详解 cpu steal time

本文通过讲解 cpu steal time 的概念,来告诉大家如何查看云厂商是否超卖,如果一旦超卖,该如何应对。

天天报警值班,老子不干了

有些团队声称自己是 DevOps 团队,全员 OnCall,结果最后就是最好欺负的那些人干活最多,这不,我这个前同事就是因为这个原因,要离职了

Zenlayer如何将万台设备监控从Zabbix迁移到Flashcat

作为全球首家以超连接为核心的云服务商,Zenlayer 致力于将云计算、内容服务和边缘技术融合,为客户提供全面的解决方案。通过构建可靠的网络架构和高效的数据传输,Zenlayer 帮助客户实现更快速、更可靠的连接,提升用户体验和业务效率。Zenlayer 在全球范围内运营着超过 290 个边缘节点, 骨干网带宽超过 50Tbps, 10000+ 的数据中心接入点,快速连接全球公有云与数据中心。

5 分钟小工具:使用 dive 分析 docker 镜像

dive 是一个用于分析 docker 镜像的工具,可以帮助你快速了解镜像的构成和大小,以及优化镜像大小。

Vector + ClickHouse 收集日志

目前业界的日志生态,最常用的是 ELK,其次就是 ClickHouse,本文会演示如何使用 Vector + ClickHouse 来采集 Nginx 日志并做清洗,最终写入 ClickHouse

Flashcat与出行科技企业一起实践多云可观测

某出行科技企业从单个公有云往多云转型,依托于国内领先的公有云提供商,采用多云架构,在可用性、弹性、成本、供应商依赖方面,拥有了显著的优势。相应的,多云架构也给技术团队带来了一定的复杂度和技术挑战,最显著的就是如何高效的构建跨云的可观测性体系,提升故障发现、问题排查、性能分析等方面的能力。

邮件告警还能这么玩?!

在现代的 IT 技术环境中,新的监控系统通常都支持非常丰富的通知媒介,比如电话、短信、钉钉、飞书、Slack 等,非常灵活。但是一些老旧的系统,不提供指标暴露方式,无法和监控系统良好对接,这些老古董通常只内置提供邮件告警这一种方式。这种情况应该如何处理呢?
标签
aiops apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo devops dns docker ebpf elastalert elasticsearch etcd flashcat flashduty flashduty-changelog gitops golang google grok_exporter hadoop haproxy hdfs iac ilo im协同 jaeger jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor logs metrics metricsql mimirtool monitoring mtail mysql netflix nightingale nsenter observability oncall open-falcon openmetrics opentelemetry oracle监控 otel pingmesh postgresql product-feature prometheus prometheus告警 promql rancher salt scheduler signoz skywalking sli slo snmp snmp-exporter sre telegraf tidb traces troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警协同 告警抑制 告警引擎 告警指派 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控设计思考 监控系统 开源 开源监控 开源夜莺 可观测性 可观测性论坛 可观测性体系建设 快猫 快猫星云 灭火图 企业微信 人工智能 日志分析 日志告警 容器 事件监控 手把手构建生产级监控系统 提问的智慧 网络可观测性 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维监控 运维监控系统实战笔记 智能告警 自监控
开源版
Flashcat
Flashduty