快猫点评 - 快猫星云Flashcat

所属分类 快猫点评 的文章

如何采用 SRE 实践（当你不是 Google 时）

非 Google 公司如何采用 SRE 实践：从 SRE 团队组建、成熟度模型、SLI/SLO/SLA 实践到监控自动化，一步步落地站点可靠性工程，提升系统性能和可靠性。

Posted by JEMIAH SIUS on 2025-12-26 08:36:28

Flashcat方法快猫点评 SRE

可观测性与传统监控的区别和联系

什么是可观测性？相比传统监控，可观测性是“新瓶装旧酒”吗？他们有哪些区别和联系，从传统监控到可观测性，Gap 到底有多大？

Posted by 快猫技术 on 2023-12-12 21:08:08

Flashcat方法快猫点评可观测性 IT监控运维监控 Monitoring Observability

可观测性是什么？入门指南

如果您之前对可观测性重要性，益处，以及组成不甚了解，本文是一个合适的指南手册

Posted by 王梓禾@快猫星云 on 2023-06-28 10:10:10

Flashcat方法快猫点评 observability 可观测性

SRE们，请不要小看了排班OnCall

Google SRE 的书中提到了一个点，说要能够把 SRE 的工作落地好，实践好，做好排班 OnCall 是其中关键一环。很多人不理解个中道理，本文会尝试解释一下底层的逻辑。

Posted by 只有俩人也要排班的SRE on 2023-04-19 08:06:10

Flashduty 快猫点评 OnCall Flashduty SRE

从监控系统到可观测平台的演进之路

可观测性（Observability）是一种软件开发和系统构建的哲学，是对系统内部状态及行为的度量和推断能力，通常包括日志、指标、链路追踪等多个度量维度。也就是说，在软件开发和运维领域中，可观测性是指对于一个复杂的系统，能够通过监控、日志、指标、追踪等手段，快速地发现、诊断、解决问题的能力。

Posted by 快猫技术 on 2023-04-12 08:06:10

Flashcat方法快猫点评监控系统可观测性

如何做好今天的运维

优秀的运维和架构师应该是怎样的？运维能给人工智能时代带来价值吗？

Posted by 华明 on 2023-03-23 00:00:00

Flashcat方法快猫点评运维架构师可观测性人工智能

科普篇：运维稳定性体系建设

稳定性体系建设是一个巨大的话题，实际上不止是运维人员关注，整个技术体系都非常关注，这个话题慢慢聊，今天我们先着眼在运维视角，看看如何构建稳定性体系。

Posted by 秦晓辉@快猫星云 on 2023-03-06 08:06:10

Flashcat方法快猫点评 SRE 稳定性体系

是时候该从用户视角去看待系统稳定性问题了

通过几个方面来建设稳定性体系：建立全面的度量体系、重点加强信息协同/让数据说人话、特定场景下的智能辅助决策

Posted by 快猫技术 on 2022-05-25 00:00:00

Flashcat方法快猫点评 SLO 稳定性体系建设稳定性方法论

ai aiagent aiops alertmanager apache apiserver apm azure categraf catpaw ccf cdn chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl faq featureflag filelog flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia jvm k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki mcp-server metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis rum salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre syslog telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星不可变基础设施出海出海业务创业错误预算错误预算机制大厂实践大模型大模型智能oncall 滴滴夜莺钉钉钉钉通知飞书飞书通知分布式追踪服务稳定性告警告警oncall 告警丰富告警风暴告警规则告警降噪告警聚合告警排班告警认领告警升级告警事件告警收敛告警数据孤岛告警通知告警响应告警协同告警抑制告警引擎告警值班告警指派告警自愈根因定位故障故障复盘故障管理计算机学会架构师监控监控agent 监控方法论监控告警监控工具监控设计思考监控系统监控系统合规进程监控开源开源监控开源商业化开源夜莺可观测平台可观测性可观测性论坛可观测性体系建设客户案例快猫快猫星云连锁门店链路追踪埋点监控面试题灭火图普罗米修斯企微通知企业微信前端监控人工智能日志日志采集日志存储日志分析日志告警日志监控容器熔断时序库时序数据库事件监控手把手构建生产级监控系统他山之石提问的智慧通知规则统一监控网络可观测性网络排障尾采样稳定性保障稳定性方法论稳定性体系稳定性体系建设系统架构设计信创业务监控夜莺夜莺v8 夜莺短信告警夜莺黄埔营夜莺监控夜莺开发者创新论坛夜莺开源项目夜莺业务组夜莺用户案例医药健康仪表盘用户案例云厂商云原生监控云原生组织运维运维百家讲坛运维告警运维监控运维监控系统运维监控系统实战笔记智能oncall 智能告警自监控最佳实践