catpaw:会自己看病的监控 Agent
catpaw(猫爪)是带 AI 的轻量监控 Agent:27 个插件覆盖磁盘、证书、conntrack 等核心风险,单二进制零依赖;告警触发后自动调用 70+ 诊断工具做根因分析,随告警推送诊断报告;登录机器可用 catpaw chat 自然语言排障。适合希望告警不止于现象、而能给出初步结论与处置建议的运维团队。
汇总 Flashcat 博客中归属于 他山之石可攻玉 分类的文章,方便按内容类型连续阅读产品实践、客户案例和可观测性方法。
catpaw(猫爪)是带 AI 的轻量监控 Agent:27 个插件覆盖磁盘、证书、conntrack 等核心风险,单二进制零依赖;告警触发后自动调用 70+ 诊断工具做根因分析,随告警推送诊断报告;登录机器可用 catpaw chat 自然语言排障。适合希望告警不止于现象、而能给出初步结论与处置建议的运维团队。
使用 eBPF 实现云网络可观测性:对比 Ring Buffer、Hash Map、Array 等数据结构在流量指标收集中的性能差异,分析 Skydive、Cilium、Falco 等开源工具的实现方案。
解读微软 Pingmesh 论文:一套大规模数据中心网络延迟监控系统,通过 Controller-Agent 架构实现每天 2000 亿次 ping 探测,用于网络故障判定、SLA 追踪和静默丢包检测。
SRE 解决的核心问题是研发不懂运维、运维不懂研发的割裂问题。通过自动化工具和软件工程方法,SRE 确保系统增长时运维人力不会线性增加,实现运维的敏捷来支撑研发的敏捷。
本文介绍了如何识别和排查 Java 应用中的内存泄漏和内存溢出错误,提供了实用的技巧和工具,帮助工程师快速定位并解决内存相关问题。
本文介绍了一些常见的 Kafka 错误及其解决方案,帮助用户更好地排查和解决 Kafka 相关问题。
本文介绍了在管理Kafka集群时常见的问题及其解决方案,帮助运维人员快速定位和解决Kafka相关故障。
Elasticsearch 本身是一款复杂的软件,而当你启动多个实例以形成集群时,其复杂性会进一步增加。这种复杂性伴随着出现问题的风险。在本节课中,我们将探讨一些你在 Elasticsearch 使用过程中可能会遇到的常见问题。
Circuit Breaker Pattern 是构建弹性、容错系统的重要工具。通过防止级联故障、提高系统稳定性和实现正常恢复,它在现代软件架构中发挥着至关重要的作用,尤其是在微服务环境中。无论您是构建大型企业应用程序还是较小的分布式系统,断路器都可以在故障条件下保持可靠运行方面改变游戏规则。
从传统的ELK转向由OpenTelemetry和OpenSearch驱动的技术栈,能为您的日志需求提供更灵活、高效且真正开源的解决方案。您可以借助OTel实现标准化的遥测数据收集,从日志开始,之后再添加追踪和指标数据。这是在内部构建全栈可观测性系统的第一步
本文是 VictoriaMetrics 公司创始人所著,探讨了开源时序库的兴起历史、值得关注的项目以及未来的发展方向。时序库是监控、可观测性领域的基础设施,如果您是基础设施方向的工程师,尤其值得关注。
Datadog 作为监控、可观测性领域的头部厂商,不止是输出工具,更会输出方法论,本文是监控方法论的第三篇,讲解如何排查性能问题
Datadog 作为监控、可观测性领域的头部厂商,不止是输出工具,更会输出方法论,本文算是监控方法论的第二篇,讲针对什么数据做告警
Datadog 作为监控、可观测性领域的头部厂商,不止是输出工具,更会输出方法论,本文算是监控方法论的第一篇,讲解数据采集,后续还会介绍针对什么数据做告警以及如何调查性能问题。
零拷贝技术可以大幅提升 Kafka 性能?原理和事实是什么?
如果您已经实施了跟踪但缺乏强大的指标功能怎么办? SpanConnector 是一个通过将跟踪数据转换为可操作指标来弥补这一差距的工具。这篇文章详细介绍了 SpanConnector 的工作原理,提供了有关其配置和实现的指南。
基于 opentelemetry-demo 微服务项目,演示如何用 OpenTelemetry 搭建端到端可观测性系统,查看 Trace、Metrics 和数据流转。
开源许可证对比:陆续有一些知名开源项目,出于保护商业利益的角度出发,更改了自己的开源许可证,比如:Redis、Zabbix、Grafana、ElasticSearch、Kibana 等,开源许可证应该怎么选?
什么是ETL?ETL 是指 Extract、Transform、Load 的缩写,是一种常见的数据处理模式,用于将数据从一个数据源抽取(Extract)出来,经过转换(Transform)后加载(Load)到目标数据仓库或数据库中。如果数据源是日志文件,那么最通用的技术栈是ELK。本文对比 logstash 以及 fc-stash 两个 ETL 工具,供大家参考
浏览器侧看到请求超时,status code 502,即 bad gateway,可能的原因有哪些呢?本文从 SRE 视角给一些常见的排查思路