目录

目录

  • 目录
  • 第1部分 概览
  • 第1章 介绍
  • 第2章 Google 生产环境:SRE 视角
  • 第2部分 指导思想
  • 第3章 拥抱风险
  • 第4章 服务质量目标
  • 第5章 减少琐事
  • 第6章 分布式系统的监控
  • 第7章 Goole的自动化系统的演进
  • 第8章 发布工程
  • 第9章 简单化
  • 第3部分 最佳实践
  • 第10章 基于时间序列数据进行有效报警
  • 第11章 on-call 轮值
  • 第12章 有效的故障排查手段
  • 第13章 紧急事件响应
  • 第14章 紧急事故管理
  • 第15章 事后总结:从失败中学习
  • 第16章 跟踪故障
  • 第17章 测试可靠性
  • 第18章 SRE 部门中的软件工程实践
  • 第19章 前端服务器的负载均衡
  • 第20章 数据中内部的负载均衡系统
  • 第21章 应对过载
  • 第22章 处理连锁故障
  • 第23章 管理关键状态:利用分布式共识来提高可靠性
  • 第24章 分布式周期性任务系统
  • 第25章 数据处理流水线
  • 第26章 数据完整性:读写一致
  • 第27章 可靠地进行产品的大规模发布
  • 第4部分 管理
  • 第28章 迅速培养SRE 加入on-call
  • 第29章 处理中断性任务
  • 第30章 通过嵌入SRE的方式帮助团队从运维过载中恢复
  • 第31章 SRE 与其他团队的沟通与协作
  • 第32 章 SRE 参与模式的演进历程
  • 第33章 其他行业的实践经验
  • 第34章 结语