服务稳定性保障的五大误解
服务稳定性保障,如何站在用户视角看问题,大家有哪些误解,本文从服务可用性、故障、根本原因、根因定位、业务监控多个方面来讲解
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
服务稳定性保障,如何站在用户视角看问题,大家有哪些误解,本文从服务可用性、故障、根本原因、根因定位、业务监控多个方面来讲解
夜莺新版本发布,重新做了设计,启用紫色系,设计是如何考虑的,怎么更易用,更有设计感,持续打磨中
夜莺监控(Nightingale)开源版本只支持阈值告警,如何开启智能告警能力,使用算法做预测分析
证券行业是对稳定性要求非常高的行业,方正证券日成交额过亿,对稳定性要求很高,引入夜莺监控解决了故障发现难题,是稳定性的有力工具
如何建立云原生组织,有8个要素分享给大家,分别是:平台团队、SRE团队、应用开发团队、Business KPIs、SLOs、DevOps、GitOps、IaC
通过几个方面来建设稳定性体系:建立全面的度量体系、重点加强信息协同/让数据说人话、特定场景下的智能辅助决策
映客直播使用夜莺监控,建设公司级运维监控平台,支撑了每个采集周期5亿数据点的上报,帮助公司节省八成费用
云原生时代,监控系统需要具备哪些能力和特点,云原生监控选型要注意这些点
身为Kubernetes管理平台的Rancher,通过 Nightingale Helm Chart,可以很方便的集成夜莺监控
夜莺监控开源项目,由滴滴捐赠给中国计算机学会开源发展委员会(CCF ODC),成为CCF接收捐赠的首个产业界开源项目