包含标签 OnCall 的文章
天天报警值班,老子不干了
有些团队声称自己是 DevOps 团队,全员 OnCall,结果最后就是最好欺负的那些人干活最多,这不,我这个前同事就是因为这个原因,要离职了
Posted by 巴辉特 on Monday, March 18, 2024
Google SRE 的 on-call 方法和工具
我们熟知的 Kubernetes 是 Google 内部容器编排工具 Borg 的开源实现,Prometheus 是 Google 内部监控工具 Borgmon 的开源版本。那么 Google 内部的 OnCall 工具 Outalator 有没有相关的产品呢?
Posted by Flashcat on Tuesday, December 26, 2023 他山之石可攻玉
SRE们,请不要小看了 排班OnCall
Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。
Posted by 只有俩人也要排班的SRE on Wednesday, April 19, 2023 Flashduty Flashcat方法
分类
标签
aiops
apiserver
apm
categraf
catpaw
ccf
chatgpt
chatops
clickhouse
controller-manager
coredump
cprobe
cslo
devops
dns
docker
ebpf
elastalert
elasticsearch
etcd
flashcat
flashduty
flashduty-changelog
gitops
golang
google
grok_exporter
hadoop
haproxy
hdfs
iac
ilo
im协同
jaeger
jmx-exporter
jolokia
kafka
kube-proxy
kube-state-metrics
kubelet
kubernetes
linkedin
linux
log
log-monitor
logs
metrics
metricsql
mimirtool
monitoring
mtail
mysql
netflix
nightingale
nsenter
observability
oncall
open-falcon
openmetrics
opentelemetry
oracle监控
otel
pingmesh
postgresql
product-feature
prometheus
prometheus告警
promql
rancher
salt
scheduler
signoz
skywalking
sli
slo
snmp
snmp-exporter
sre
telegraf
tidb
traces
troubleshooting
uber
ulimit
vector
victorialogs
victoriametrics
zabbix
北极星
不可变基础设施
错误预算
错误预算机制
滴滴夜莺
钉钉
飞书
服务稳定性
告警风暴
告警降噪
告警聚合
告警排班
告警认领
告警升级
告警协同
告警抑制
告警引擎
告警指派
根因定位
故障管理
计算机学会
架构师
监控
监控agent
监控设计思考
监控系统
开源
开源监控
开源夜莺
可观测性
可观测性论坛
可观测性体系建设
快猫
快猫星云
灭火图
企业微信
人工智能
日志分析
日志告警
容器
事件监控
手把手构建生产级监控系统
提问的智慧
网络可观测性
稳定性保障
稳定性方法论
稳定性体系
稳定性体系建设
信创
业务监控
夜莺
夜莺黄埔营
夜莺监控
夜莺开源项目
夜莺用户案例
医药健康
仪表盘
用户案例
云厂商
云原生监控
云原生组织
运维
运维百家讲坛
运维监控
运维监控系统实战笔记
智能告警
自监控