本书针对spark从验证性环境迁移到实际生产环境时会遇到的各种问题给出了实际的帮助,涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。全书分为6章,第1 ~ 2章帮助读者深入理解Spark的内部机制以及它们在生产流程中的含义;第3章和第5章阐述了针对配置参数的法则和权衡方案,用来调优Spark,改善性能,获得高可用性和容错性;第4章专门讨论Spark应用中的安全问题;第6章则全面介绍生产流,以及把一个应用迁移到一个生产工作流中时所需要的各种组件,同时对Spark生态系统进行了梳理。
针对spark从验证性环境迁移到实际生产环境时会遇到的各种问题给出实际的帮助
通过内存管理、分区、shuffle等技术提升性能
管理资源、组织存储、做好监控
引言
Apache Spark 一个易于掌握的、面向大规模计算的分布式计算框架。它又被称为“计算网格”或者“计算框架”——考虑到Spark 使开发人员能够便捷地获得大量数据且进行分析,这些说法也是正确的。
Apache Spark 由Matei Zaharia 2009 年在加州大学伯克利分校创建,一开始把它作为一个研究项目,后来在2010 年捐给开源社区。2013 年,Spark 作为一个孵化项目加入Apache 软件基金会,并于2014 年成为顶级项目(TLP),一直发展到现在。
本书面向的读者
如果你拿起这本书,我们认为你应该对Spark 非常感兴趣。本书面向的读者群体是开发人员、Spark 应用的项目经理,以及那些准备考虑将开发的Spark 应用程序迁移到生产环境的系统管理员(或者DevOps)。
涵盖的内容
本书涵盖了开发及维护生产级Spark 应用的各种方法论、组件与最佳实践。也就是说,我们假设你已经有一个或者打算开发一个Spark 应用,并且具备Spark 的一些基础知识。
内容结构
本书分为6 章,旨在传授给读者以下知识:
? 深入理解Spark 的内部机制以及它们在生产流程中的含义。
? 一组针对配置参数的法则和权衡方案,用来调优Spark 以获得高可用性和容错性。
? 全面了解生产流,以及把一个应用迁移到一个生产工作流中时所需要的各种组件。
读者需要具备的知识
作为读者,你应该具备基本的Spark 开发及使用的知识。本书不会讲述入门级内容。市面上有许多关于Spark 入门的书籍、论坛及各类资源,如果你对某部分的知识点有所缺失,可以阅读相关主题的资料以便更好地理解本书所表达的内容。本书示例的源代码可从Wiley 网站上下载:( www.wiley.com/go/sparkbigdataclustercomputing。)
格式的约定
为帮助你了解本书的内容及主线,在本书用了一些格式约定。
注意 这个样例表示注意事项、小提示、暗示、技巧,或者当前讨论的旁白。
? 当介绍一些新的术语和重要的词时,会采用黑体(中文)或者加粗(英文)。
? 在文本里显示代码时会使用代码体, 譬如: persistence.properties。
源码
学习本书中的示例时,你可以选择手动输入所有代码,或使用本书所配套的源
码文件。所有的源码均可从www.wiley.com 下载。对于本书,下载页面在
www.wiley.com/go/sparkbigdataclustercomputing 的“Download Code”
标签页上。
可以在www.wiley.com 上通过英文版的ISBN(978-1-119-25401-0)来搜索本
书。
你也可以在https://github.com/backstopmedia/sparkbook 上找到
这些文件。
下载完代码,随便用哪种解压工具解压即可。
读者服务
轻松注册成为博文视点社区用户(www.broadview.com.cn),扫码直达本书页面。
? 提交勘误:您对书中内容的修改意见可在 提交勘误 处提交,若被采纳,将获赠博文视点社区积分(在您购买电子书时,积分可用来抵扣相应金额)。
? 交流互动:在页面下方 读者评论 处留下您的疑问或观点,与我们和其他读者一同学习交流。
页面入口:http://www.broadview.com.cn/31364
感谢反馈,我们以后引进图书时会考量这方面的问题。
这本书基础多案例少啊