快猫助力六分科技,打造统一观测平台,构建全局稳定性视图

王永东@六分科技 2023年3月13日

六分科技公司介绍

北京六分科技有限公司,成立于2018年3月,是 GNSS高精度定位服务产品专业提供商。

六分基于虚拟参考站技术原理,依托在全国自建的约3000个CORS基站,自研终端RTK算法与组合导航算法,以“网-云-端”一体化解决方案为海量用户提供5系统16频点、全天候、实时厘米级和亚米级的高精度定位服务。公司高精度定位服务已覆盖智能驾驶、共享出行、精准农业、测量测绘、智慧城市、大众应用等多个领域,收获包括嬴彻科技、东风悦享、威马在内的多个智能驾驶量产订单, 并与图森未来、仙途智能、滴滴青桔、u-blox、英泰斯特、中电昆辰等多个北斗上下游企业携手合作,唐山港、苏州公交等行业应用场景持续落地。

六分科技系统运维部副经理王永东,为我们带来了六分科技在选型和落地快猫 Flashcat 平台过程中的心得和实践,共同交流。

之前的监控运维方式

  • 原有的运维方式比较传统,服务主要运行在虚拟机上;
  • 监控工具主要使用zabbix+腾讯云监控+自定义脚本,监控的维度比较少;
  • 主要的监控指标还是系统维度的,缺少业务维度的监控,缺乏统一的稳定性视图,缺乏故障定位的驾驶舱;

为什么选择Flashcat

  • Flashcat团队是夜莺开源社区的主要贡献者,拥有丰富的监控产品开发经验;
  • Flashcat团队的核心成员长期在一线互联网公司里面负责稳定性保障,以及相关产品的研发工作,从实际出发沉淀了很好的稳定性治理的方法、理念以及工具;
  • 公司的业务架构正计划向云原生架构转型,云原生架构在带来便利性的同时,也会带来很多挑战,比如微服务变多,容器化、公有云,在监控、可观测方面肯定会有很多新的挑战,Flashcat在可观测方面和云原生生态结合的比较好,同时我们也想借助Flashcat团队成员丰富的经验,能在监控方面快速的补充完善,少走弯路;
  • 调研过一些监控方案, 比如像云监控产品、prometheus+alert manager + grafana ,open-falcon等,感觉数据源分散、维护成本高、缺少业务监控,直接用开源产品很难满足六分生产环境的要求;

使用Flashcat后解决了哪些问题?

  • 首先是监控统一的问题,通过Flashcat平台,我们整合了Prometheus、ClickHouse、日志、云监控等多个数据源,其中包括近10个prometheus集群, 十余个日志主题,实现统一的报警管理、数据可视化,降低了监控工具的维护成本,目前只有一位同学在负责监控产品的对接,就满足了内部对于监控、报警功能的使用,节省了人力,节省出的人力就可以投入到其他更有挑战的方向上
  • 聚焦业务视角的监控,误报警、漏报警有时其实是难免的,但是我们现在有基于北极星业务指标的监控,只要业务指标是稳定的,就能确认整体业务是正常的,其他报警可以比较从容的处理;

分享一两个使用Flashcat的典型场景

  • 基于“北极星”,完善了业务指标,业务指标异常,一般就是发生严重故障,业务指标出现异常时,报警会发送到飞书“消防群”,“消防群”里有各个业务系统核心同学,大家一起协同来快速定位故障;
  • 利用灭火图,发生问题时,进行稳定性的巡检,发现有异常的模块和功能,进行止损操作,利用Flashduty进行报警值班,故障协同,整体来讲,相比之前缩短了整个故障处理的时间;
  • 利用Flashcat的大屏功能,将业务核心指标投放到业务同学办公区,引起大家的实时关注;

对Flashcat有哪些评价和建议?

  • Flashcat目前是私有化的部署方案,有私有化需求的客户,很多是量比较大的客户,有一定的定制需求,希望Flashcat在后续产品设计上,可以能够更灵活的支持一些个性化的需求;
  • Flashcat团队需求响应非常迅速,感觉不止购买了一个监控平台,还购买了一个监控研发团队,这一点非常认可;

快猫,懂你的烦恼

我们观察到很多公司都搭建了林林总总的监控系统,但是不成体系,故障定位不够快,老板很焦虑。快猫提供的Flashcat平台通过集成这些既有的数据源,提供业务、技术双视角的全局稳定性视图和驾驶舱,让监控、可观测性体系化落地,出现问题也能快速定位,彻底去除故障焦虑。如果您有类似痛楚,快来填写申请表,联系我们交流试用吧!

开源版
Flashcat
Flashduty