中国互联网发展非常迅速
尤其是在大数据复杂场景下
我们对运维有了新的期待以及更高的要求
NO. 1
【美】Nat Welch 著
冯文辉 译
站点可靠性工程(SRE)专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深入浅出地介绍了关于SRE的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。
本书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。
NO.2
【美】Betsy Beyer等 编著
孙宇聪 译
在本书中,Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的,以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存最大的软件系统。通过阅读本书,读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直接应用的宝贵经验。
NO.3
《混沌工程:Netflix系统稳定性之道》
【美】Casey Rosenthal 等 著
侯杰 译
Netflix官方出品,保障系统稳定性、确保架构弹性可伸缩的新方法!
本书介绍了 Netflix 的工程师团队是如何根据多年实践经验主动发现系统中脆弱点的一整套方法。这套方法现在已经逐渐演变成计算机科学的一门 新兴学科,即“混沌工程”。通过一系列可控的实验和执行实验的原则,混沌工程将揭示出分布式系统中随时发生的各类事件是如何逐步导致系统整体不可用的。
NO.4
彭冬 朱伟 刘俊 等 著
直接来自新浪微博智能运维团队多年的探索与实践,技术思路可落地,解决方案有说服力。面向运维热点方向,详细分析底层原理,全面梳理技术体系,完整呈现从方法创新到工具化实践。
本书结合大企业的智能运维实践,全面完整地介绍智能运维的技术体系,让读者更加了解运维技术的现状和发展。同时,帮助运维工程师在一定程度上了解机器学习的常见算法模型,以及如何将它们应用到运维工作中。
NO.5
丁明一 编著
运维案头书,红帽推荐,大量经典案例、问题分析,内容全面升级至CentOS7.2。
本书将围绕Linux操作系统这样一个基础平台,讲解如何使用操作系统实现各种开源产品的应用案例。全书主要从运维工作中的应用服务入手,全面讲解基本Linux操作系统以及各种软件服务的运维工作。
机器学习火起来也有几年了, 当老姑大伯们渐渐把AI和程序员画上等号时,我大腿一拍大事不妙!生怕疫情后的家庭聚会上,让我表演才艺:做个什么狗陪他们下棋、做个什么精灵跟他们唠嗑…… 程序员群体很广的!我们也不是什么都懂,更何况我还...
隔离是指将系统或资源分割开,系统隔离是为了在系统发生故障时能限定传播范围和影响范围,即发生故障后不会出现滚雪球效应,从而保证只有出问题的服务不可用,其他服务还是可用的;而资源隔离有脏数据隔离、通过隔离后减少资源竞争提升性能等。我遇到的比...
了解智能一体化测试平台 智能一体化测试平台是为支持智能一体化测试理论而开发的平台,这个平台主要面向后台系统的服务/接口测试。借助这个平台,开发测试人员进行服务/接口测试时可以将工作重心集中在测试案例设计与管理上,测试执行与分析主要交...
读者评论