Kafka集群故障排除:常见问题及解决方案
本文介绍了在管理Kafka集群时常见的问题及其解决方案,帮助运维人员快速定位和解决Kafka相关故障。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
本文介绍了在管理Kafka集群时常见的问题及其解决方案,帮助运维人员快速定位和解决Kafka相关故障。
Elasticsearch 本身是一款复杂的软件,而当你启动多个实例以形成集群时,其复杂性会进一步增加。这种复杂性伴随着出现问题的风险。在本节课中,我们将探讨一些你在 Elasticsearch 使用过程中可能会遇到的常见问题。
本文介绍如何使用 Flashduty 实现告警时的关联查询功能,方便 On-call 人员快速获取相关数据,提高响应效率。
了解为什么DELETE语句不会立即释放磁盘空间,以及如何通过维护操作(如VACUUM和OPTIMIZE)来管理数据库的存储和性能。
JMX(Java Management Extensions)是 Java 平台提供的一套标准框架,用于对 Java 应用程序、设备、系统资源进行监控和管理。很多 Java 应用(如 Kafka、Hadoop、Tomcat 等)都通过 JMX 暴露运行时指标,方便运维人员进行监控和故障排查。本文介绍如何将 JMX 与 OpenTelemetry 集成,利用 OpenTelemetry 的强大功能来收集和处理 JMX 指标数据。
达到首批百万用户是最好的压力测试——它会迫使那些微小的设计选择暴露出大问题。我见过一些团队快速推出功能,然后在流量、数据或边缘情况激增时碰壁。本文列出了我发现团队在早期最容易陷入的10个架构陷阱,每个陷阱在规模扩大后为何会变得有害,以及你现在就可以实施的明确、实用的解决方案。我会让内容简洁、坦诚且具有可操作性,并附上简短的代码片段和简洁的UML图,让这些想法更加具体。
2025 年 9 月 19 日,30 多位来自零售连锁行业的技术专家,走进深圳星巴克中国创新科技中心,共同聚焦“可观测性如何在零售场景落地”的深度对话。
探索如何通过战略性设计和文化转型实现可观测性,提升系统可靠性并推动业务成功。
探索人工智能如何革新可观测性实践,从被动监控转向主动洞察,提升系统可靠性和用户体验。
深入了解如何通过日志、追踪和指标构建强大的可观测性系统,提升调试效率和系统可靠性。
eBPF(扩展伯克利包过滤器)正悄然成为云原生技术栈中实现服务通信、可见性和保护的核心支柱。本文探讨了eBPF的基本概念、在云原生中的应用场景以及它为何被视为云原生2.0时代的关键技术。
大型语言模型(LLMs)正在重塑我们与技术交互的方式,从对话式人工智能到代码生成、内容创作以及客户服务自动化。这个文章系列旨在从零开始带您逐步了解,从大型语言模型和Transformer的基础概念,到实际代码示例、微调、部署以及模型升级。
可观测性是如今随处可见的流行术语之一。最近,我有机会花些时间去了解它——它的含义以及它为何重要。
数据库扩展对于处理海量数据和高流量的系统至关重要。扩展之所以必要,主要有几个原因。首先,随着数据量和并发用户请求的增加,性能会下降。曾经快速的查询可能会变慢,从而导致糟糕的用户体验。其次,应用程序需要高可用性。
在科技领域,当一种工具或平台变得至关重要、不可或缺时,会出现一个有趣的现象:我们不再谈论它了。并非因为它已过时。不是因为它失败了。而是因为它确实能正常运行。这就是Kubernetes如今所处的境地。在开源领域亮相近十年后,Kubernetes 已经变得——容我直言——平淡无奇。但这是件非常好的事。
不久前,云原生社区宣告在可观测性方面取得了胜利。我们拥有三大支柱——指标、日志和追踪,以及一系列CNCF项目和开源工具来收集这些数据。但任何SRE(网站可靠性工程师)或平台工程师都会告诉你,仪表盘越来越多,警报不断触发,而实际问题也层出不穷。我们比以往任何时候都观察得更多,但对于所看到的信息,我们真的能更好地加以利用吗?一个令人不安的事实:可观测性已进入停滞期。我们已经掌握了数据收集的艺术,但现在真正的挑战是将海量遥测数据转化为实际行动。
Kubernetes 已成为现代云原生应用的支柱,具备独特的灵活性和可扩展性。然而,由于其复杂性,在保持对 Kubernetes 应用的健康状况和性能的可见性方面存在重大挑战。有效的监控不仅对于维持集群运行至关重要,还能确保应用达到最佳性能并提供流畅的用户体验。本博客探讨了监控 Kubernetes 应用的最佳实践,这些实践能帮助你主动解决问题、优化资源分配并创造业务价值。
有用户反馈,夜莺自带的监控大盘,查看 Linux 监控数据,发现网卡流量特别大,是不是 Categraf 采集的数据有问题?本文分析了可能的原因。
面向操作系统的可观测性工具 HUATUO 项目开源了。
Jaeger 作为一个项目能够持续十年,足以证明其韧性、实用性和社区力量。如今,在迎来十周年之际,我们不仅仅是在庆祝它的长寿,更是在庆祝它的深刻演变。Jaeger 已然重生,拥抱一个建立在协作、标准化以及 OpenTelemetry 惊人发展势头之上的未来。