啥!Linux吃掉了我的内存!

我明明没起什么应用程序,Linux怎么显示free的内存快到0了?是不是操作系统有内存泄露啊?
啥!Linux吃掉了我的内存!

运维百家讲坛第2期:作业帮聂安 - 运维如何转型,听听作业帮的OPaS思路

第1期央请井老板发表了很多有趣的观点,有人留言说是运维劝退指南,哈哈,这一期的嘉宾,观点会有不同,请大家抱着开放的心态,听百家之言,自己做职业、人生规划。所谓兼听则明,偏信则暗,如果只听自己顺耳的,大概率不会有深度思考碰撞,憾事也。
运维百家讲坛第2期:作业帮聂安 - 运维如何转型,听听作业帮的OPaS思路

CTO药方:如何搭建运维/SRE能力

近期有很多文章在探讨运维岗位去留的问题,我主持的SRETalk公众号里也发了多个运维总监的观点,个人也和行业内挺多人做了交流,有些许小小的想法,记录下来,供各位CTO/CIO参考,作为运维/SRE的你如果觉得迷茫,也推荐你仔细读一下本文
CTO药方:如何搭建运维/SRE能力

秘籍:分析Linux性能问题!只要一分钟!

这是Netflix在Medium发表的一篇博客,时间是2015年,影响力巨大,特地翻译了一下放到快猫站点上,以飨读者。核心是讲解如何在一分钟内通过各类命令分析Linux性能问题
秘籍:分析Linux性能问题!只要一分钟!

SRE解决的核心问题究竟是什么?

【摘要】SRE 既做研发也做运维,那么SRE 解决的核心问题究竟是什么? 【作者】汪照辉,中国银河证券架构师,专注于容器云、微服务、DevOps、数据治理、数字化转型等领域,对相关技术有独特的理解和见解。擅长于软件规划和设计,提出的“平台融合”的观点越来越得到认同和事实证明。发表了众多技术文章探讨容器平台建设、微服务技术、DevOps、数字化转型、数据治理、中台建设等内容,受到了广泛关注和肯定。个人微信公众号:技术思维创新 本文转自:twt企业IT社区 SRE 既做研发也做运维,并且要求研发的时间不低于 50% ,但 SRE 是偏运维的,包括 SRE 研发的大部分工作也是和运维相关的。这也让我有了个疑问, SRE 解决的核心问题是什么?
SRE解决的核心问题究竟是什么?

网站可靠性工程师

众所周知,开发和IT运营之间因为屁股决定脑袋,存在巨大的鸿沟,而网站可靠性工程师(SRE)在开发和IT运营之间建立了一座桥梁,SRE会承担原本属于IT运营的一部分工作内容,不过SRE的工作方式和传统的IT运营很不相同,SRE有很强的研发能力,他们通过创建可扩展和可靠的软件系统来解决问题。
网站可靠性工程师

夜莺监控(Nightingale)6.x 的机器失联告警设计

夜莺监控(Nightingale)6.x 计划重新设计机器失联告警,不再自动生成 target_up 指标,提升即时性,并且架构上会更容易理解,具体是如何思考的呢,且听本文分解
夜莺监控(Nightingale)6.x 的机器失联告警设计

Telegraf 发送指标给 Prometheus

Telegraf 作为一个指标层面的 all-in-one 的采集器,用途广泛,Telegraf 具备多种 output 插件,本篇介绍如何使用 prometheus remote write 方式发送数据给后端。
Telegraf 发送指标给 Prometheus

运维百家讲坛第1期:井源 - 运维几何

井老板是我11年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《[运维百家讲坛](https://mp.weixin.qq.com/s/Y4rIfV4_7MuYigLNNrtifg)》第 1 期,开讲!
运维百家讲坛第1期:井源 - 运维几何

巧用Categraf探针mtail插件实现系统日志监控告警

目前市面上对于日志监控告警的主流方案主要围绕ELK及其变种展开,通过探针采集系统日志写入Kafka,然后基于Kakfa消费数据写入ES,采用定时查询ES 做异常告警;另一种方案则是基于Kafka流式数据,采用Flink直接做异常告警,架构上比较复杂。这里介绍使用mtail的轻量级方案。
巧用Categraf探针mtail插件实现系统日志监控告警

夜莺监控(Nightingale)6.x版本整体架构设计思考

夜莺监控(Nightingale)将会在2023年开始设计6.x版本,这个版本的架构会作何改造呢,通过本文做一个梳理,通过梳理的过程我自己也思考的更清晰一些,你也可以了解这个思考的过程。
夜莺监控(Nightingale)6.x版本整体架构设计思考

HAProxy 监控

HAProxy 作为一款非常流行的软件负载均衡器,在很多公司都有应用,本文介绍如何采集 HAProxy 的监控指标,对 HAProxy 做监控。
HAProxy 监控

互联网运维工作的演进和规划

一个典型的互联网企业运维工作和组织架构是怎么样的?运维的未来又是什么样的?
互联网运维工作的演进和规划

Apache Hadoop HDFS 监控

Hadoop HDFS 的监控非常典型,有两种数据采集方法,这一篇介绍第一种,通过 Jolokia 获取 JMX 数据的方式。
Apache Hadoop HDFS 监控

高济健康:基于Flashcat增强IT服务故障管理能力实践

医药健康企业如何建设自己的在线服务故障管理体系?本文结合大型医药企业的实践,分享Flashcat在保障医药企业服务稳定性中的价值和经验。
高济健康:基于Flashcat增强IT服务故障管理能力实践

使用 grok_exporter 从日志中提取指标(日志监控)

grok_exporter 是一个类似 mtail 的方案,可以流式读取日志文件,通过正则做匹配提取指标,相比 mtail 更为简单直观。不过数据计算方面灵活性稍差。
使用 grok_exporter 从日志中提取指标(日志监控)

Kubernetes监控手册11-针对部署到Pod里的应用做性能监控

Kubernetes监控手册第11篇,在Kubernetes体系里,应用程序部署在Pod里,针对这类程序应该监控,跟传统的物理机虚拟机的部署方式有何差别?
Kubernetes监控手册11-针对部署到Pod里的应用做性能监控

Kubernetes监控手册10-使用 kube-state-metrics 监控 Kubernetes 对象

Kubernetes监控手册第10篇,使用 kube-state-metrics 监控 Kubernetes 各类对象,比如某个 Deployment 有多少副本可用多少副本不可用,有多少 Pod 分别是什么状态之类的。
Kubernetes监控手册10-使用 kube-state-metrics 监控 Kubernetes 对象

Kubernetes监控手册09-监控ETCD

Kubernetes监控手册第9篇,讲解如何监控ETCD,ETCD现在使用已经越来越广泛了,不止是Kubernetes,很多业务方也在使用,需要有个深入了解。
Kubernetes监控手册09-监控ETCD

Kubernetes监控手册08-监控scheduler

Kubernetes监控手册第8篇,讲解 scheduler 的监控方法,scheduler 是负责调度对象到合适的 node 上,会有一系列的规则计算和筛选。重点关注调度相关的指标
Kubernetes监控手册08-监控scheduler

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google grok_exporter hadoop hana haproxy hdfs helm httpstat iac ibex ilo im协同 incident it监控 jaeger jenkins jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat