#小编推书#SRE,将运维推向极限高度

管理员账号

2016-11-25

今天,小编要向你们介绍一本解密全球神秘又让人仰望的技术岗位的图书——《SRE:Google运维解密》,他针对如何构建一个可长期维护的系统提供了非常宝贵的实践经验。

如果你想学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践,那么你一定不能错过。

解密SRE

“用”才是软件终极命题,而谷歌有世界最大的软件系统,掌管它的这群人有个响亮的名字——SRE!
SRE=运维极限高度,SRE=最前沿技术视角,本书由谷歌SRE核心成员执笔,地球最强战队得以深度曝光。
带你了解

《SRE:Google运维解密》中很多章节用务实的语言记录了Google SRE 团队在面临各种困难时的思考过程、所采用的解决方案以及事后总结的经验教训。书中没有介绍任何“魔法系统”,也没有提供任何“奇技淫巧”,有的只是对问题本质发人深省的深入探讨。

你必须知道的

《SRE:Google运维解密》共34章,分为五部分

第一部分为概览章节,包含第1-2章。为SRE具体的工作提供了概括性介绍,及SRE究竟与传统的运维存在哪些不同。第一章是SRE名称发明者,Google运维团队的高级副总裁所写,提供了他对SRE的定义及描述。第二章对Google生产环境进行了介绍。

第二部分为指导思想章节,包含第3-9章。重点描述了SRE日常工作背后的指导思想——工作模式、行为方式、平时运维工作中关注的重点等。第三章为这部分最重要的章节,从最广泛的角度描述了SRE的日常工作及背后的指导思想,请认真阅读。

第三部分为具体实践章节,包含第10-27章。主要讨论SRE维护大型分布式计算机系统的指导理念和最佳实践。SRE的终极责任书确保该服务可以正常运转,为达成这个目标,SRE需要完成一系列工作:开发监控系统,规划容量,处理紧急事件,确保事故根源被跟踪修复等。这部分中,你将要学到那些你必须要知道的。

第四部分为管理章节,包含第28-32章。主题涵盖了团队内部合作及团队之间协作的话题。任何一个想要建立有效SRE团队的组织都需要各位关注培训,任何一个SRE成员都不能脱离团队,SRE在这方面有一些比较值得讨论的经验。

第五部分为结束语,包含第33-34章。在讨论完Google SRE的工作细节后, Google VP,Benjamin Lutch在全书最后部分回忆录SRE在Google内部的演进历史,将SRE与其他同样非常重视可靠性的行业进行了对比。

阅读本书

这本书是由一系列短文组成的, 由Google SRE 成员和前成员共同写就。相比之下,这本书更像是一本会议文集。本书的每一章都可以作为一个独立部分进行阅读,但是读者也可以根据自己的兴趣选择某些章节重点阅读。(如果本书中引用了某些额外文章,你可以在参考文献中找到。)

读者可以按照任何顺序阅读本书,但是我们推荐从第2 章和第3 章开始。这两章描述了Google 的生产运行环境,以及SRE 是如何系统化认知与量化“风险”的(毕竟 “风险” 是SRE 最关注的要点)。读者当然也可以选择逐章阅读,本书逻辑上分为以下几个部分:理念性介绍(第Ⅱ部分)、最佳实践(第Ⅲ部分)和管理经验(第Ⅳ部分)。每一部分都配有简介,并且配有SRE 成员以前发表的文章的引用地址。

最后,本书配有网站https://g.co/SREBook 其中包括了一些有益读物, 希望读者能从中获得阅读的乐趣。

小编说

《SRE:Google运维解密》体系化地覆盖了运维工作的方方面面,是一本运维行业的教科书。

SRE 是一群天生的怀疑论者,他们怀疑一切宣传起来“高大上”的技术,以及任何“神奇”的产品——只想看具体的设计架构、实现细节,以及真实的监控图表。SRE 在保障系统可靠性方面并没有什么万能药,有的只是这种极强的务实态度(pragmatic)。这种务实的态度决定了SRE 会认真对待运维问题。SRE 是一群崇尚工匠主义的人,坚信只要不断地解决根源问题,服务质量就一定会得到提升。而SRE 正是用这种“日拱一卒”的方法造就了Google 这个世界级的奇迹。

读者评论

相关博文

  • SRE之道:创造软件系统来维护系统运行

    管理员账号 2017-02-22

    小编说:本文作者Ben Treynor Sloss,Google 运维团队的高级副总裁,SRE 名称的发明者,在这里提供了他对SRE 的定义。本文选自《SRE:Google运维解密》。 大家都知道, 计算机软件系统离开人通常是无法自...

    管理员账号 2017-02-22
    545 0 0 0