快猫云眼

Flashcat-Eye 是结合大型在线服务稳定性保障经验和方法实现的专业产品,聚焦服务稳定性保障场景,特别是故障处理过程,解决数字化服务故障处理中信息过载、故障发现慢、故障定位难的问题。

产品介绍

故障处理是服务稳定性保障的核心,感性上说故障少、处理快,服务稳定性就好,反之稳定性就差。

故障处理通常由报警或用户投诉驱动,各个系统的技术和运维人员分头排查,这种方式存在几个问题:

  • 1. 信息过载:故障的发生通常伴随着大量的报警和群消息的轰炸,导致信息过载,要从这些信息中识别出故障信息和有效的处理信息很困难;
  • 2. 故障发现慢:日常报警很多,真正的故障发生时可能只有几个一线员工靠自己的判断感知到,或等到用户反馈时才反应过来。而要把这些重要信息同步到所有相关的技术人员和leader,又需要耗费不少时间;
  • 3. 故障定位难:定位难有很多原因
    • 信息因素:信息过载就是一个最直接的原因;
    • 人的因素:参与定位处理的核心人员是否及时到位,甚至是否已经离职/转岗缺位。只依赖几个核心技术人员,外人难以介入,核心人员既要排查又要同步信息,分身乏术;
    • 协同因素:多个依赖的团队间不能有效协同,相互不了解对方的情况;
    • 方法因素:缺乏正确的故障处理方法和思路,盲目追查,不知道或忽略了优先止损的原则;

Flashcat-Eye 为故障处理构建了一个故障处理的信息中心、指挥中心、协同中心和管理中心,为故障处理和稳定性保障提供一个全局视角和最佳实践。

Flashcat-Eye包括子系统:

  • 面向故障发现和稳定性管理的 北极星系统
  • 面向加速故障定位的 灭火图日志分析事件墙 等系统,以及串联这些系统数据,加速故障定位的最佳实践;

服务场景:




产品逻辑:




产品示意:




实践数据:


  • 故障发现环节:故障出现不会被遗漏,故障发现报警实时性 <5分钟
  • 故障定位环节:定位耗时(从开始介入处理到确定止损方案),压缩耗时超过 60%

赋数据以含义

将服务作为观测对象,分为 业务信息-》IT信息(服务、模块、组件、基础设施、端)-》metrics、logging、tracing、events。
每一层每一类数据都赋予业务/服务的含义,让数据成为普遍可识别的信息。并保留故障处理所需的核心信息,屏蔽无效信息。
基于有效信息提供全局立体的业务/服务状态视角,故障处理不再只见树木不见森林。

让沉淀可持续

结合服务稳定性保障的经验和方法论,预置故障处理的最佳实践,智能识别常见的故障特征,引导用户完成故障定位的最佳路径。
日常的服务梳理不再是写到文档后束之高阁,可以直接沉淀到系统中,变成故障定位所需的信息发挥价值。
每一次服务故障都可以促进系统中信息和路径的优化,知识和技能可以进入沉淀和发挥价值的良性循环,让参与故障处理的门槛不断降低,更多的人可以参与进来。

用量化来协同

基于北极星指标量化故障,用数据说话,服务稳定性保障不再是一笔糊涂账,让保障工作在团队间形成共识。
基于北极星的量化建立故障响应流程,让系统驱动起故障处理的相关团队,并基于平台信息快速同步和有效协同;

使建设变简单

基于数据集成能力,打通主流的可观测系统,聚合变更、报警数据,和现有系统形成互补增益的关系,企业已有的基础设施无需推倒重来;
可部署在企业内部,但由快猫团队负责维护,企业只需要控制权限,并专注通过UI或API使用系统即可;