大数据猩球：海量数据处理实践指南-图书

推荐0
收藏5
浏览870

大数据猩球：海量数据处理实践指南

Philip Kromer (作者)　唐李洋 (译者)

书　　号：978-7-121-29418-1
出版日期：2016-08-01
页　　数：212
开　　本：16(178*233)
出版状态：上市销售
原书名： Big Data for Chimps
原书号：9781449335960
维护人：张春雨

电子书￥45.00

购买电子书

纸质版￥69.00

本书以实用的、可操作的视角解释了大数据——采用黑猩猩和大象的隐喻，基于棒球统计数据集，使用Apache Hadoop和Pig等工具展示了如何处理大规模数据。此外，通过处理真实数据、解决现实问题，作者还以实例的形式总结了一些实践分析模式，为有创造力的分析人员提供了最强大、最有价值的方法。
本书特别适合那些需要大数据工具箱来解决实际问题的人们。

绝佳案例绝妙类比绝对实用

前言
《大数据猩球：海量数据处理实践指南》以实用、可操作的视角解释了大数据，以经过检验的最佳实践为中心，向读者展示了Hadoop的实战智慧。
读者将对大数据形成有用的、概念性的认识。数据就是洞察力，关键是理解大数据的可扩展性（scalability）：即无限规模的数据取决于相异的枢轴点（pivot point）。我们会教你如何运用这些枢轴点进行数据操作。
最后，本书提供了真实数据和实际问题的具体示例，将概念和实际应用相结合。

本书梗概
《大数据猩球：海量数据处理实践指南》讲述了如何使用简单、有趣、精致的工具，解决大规模数据处理中的重要问题。
从超大规模的事件流中发现模式是一件重要而且困难的事情。大部分时候，地震是不会发生的——但是模式能够根据平静时期的数据提前预测是否会发生地震。如何在数以亿计的事件中逐个对比数万亿个连续事件，从而发现极少数事关紧要的事件呢？一旦找到了这些模式，如何实时地做出响应？
我们选用大家都能够理解的案例，而且它们具有普适性，能够适用于其他问题解决的场景。我们的目的是向读者提供：
■ 大规模思考的能力——使读者深刻理解如何将一个问题分解为有效的数据转换（data transformation），以及集群中的数据流动如何影响这些转换。
■ 用详细的示例代码在场景中展现如何使用Hadoop解决有意思的问题。
■ 关于有效软件开发的建议和最佳实践。
本书的全部示例都采用真实数据，用来描述很多问题领域中的模式，包括：
■ 创建统计概要。
■ 识别数据中的模式和组。
■ 批量查找、过滤和移动记录。
本书强调简洁性和趣味性，特别吸引初学者，但同样适合有经验的人。你会发现本书为有创造力的分析人员提供了最强大、最有价值的方法。我们的座右铭是“机器人是廉价的，而人是重要的”：编写可读的、可扩展的代码，然后再确定是否需要一个较小的集群。本书的代码改编自Infochimps和Data Syndrome解决企业级业务问题的程序，这些简单的高级转换能够满足我们的需求。
很多章节都配有练习。如果你是初学者，我们强烈建议你每一章都至少完成一个练习。在面前摆本书看，不如边看书边写代码学得更深入。本书官网上有一些简单的解决方案和结果数据集。

本书适合谁
我们希望你至少熟悉一种编程语言，并不一定非要是Python或Pig。熟悉SQL会有些帮助，但这不是必需的。如果有商务智能方面的数据工作经历或分析背景，会很有帮助。
更重要的是，你应该有一个需要大数据工具箱来解决问题的实际项目——这个问题要求在多个机器之间横向扩展（scale out）。如果你没有这样的项目，但又确实很想学习大数据工具箱，看一下第3章，我们采用棒球数据。这是一个探索起来很有趣的大型数据集。

本书不适合谁
本书不是《Hadoop权威指南》（Hadoop: The Definitive Guide，已出版），而更像是《Hadoop固执指南》（Hadoop: A Highly Opinionated Guide）。本书唯一提到裸Hadoop API的地方就是，“大多数情况下，不要使用它”。我们推荐以某种空间不高效的格式存储数据，还有很多时候我们鼓励以小部分的性能损失换取程序员更多的愉悦。本书不厌其烦地强调编写可扩展的代码，却只字不提编写高性能的代码，因为获取成倍加速比的最佳途径是使用双倍数量的机器。
这是因为，对大部分人来说，集群的成本远远低于数据科学家使用它的机会成本。如果数据不仅大，还很巨大（比如100TB），而且我们期望在生产线上不断地运行作业，那就需要考虑其他权衡了。但是，即使是PB级规模，仍然要按照我们介绍的方式来开发。
本书涉及Hadoop的提供和部署问题，以及一些重要的设置。但是并没有真正介绍任何高级算法、操作或调优问题。

本书没有包括的内容
目前我们不讨论Hive。对于熟悉Hive的人，Pig脚本能够天然地翻译成Hive。
本书讲的是互联网上没有的东西。我们不准备花时间介绍基础教程和核心文档。另外，我们也不会涉及以下内容：
Hadoop的安装或维护。
其他类MapReduce的平台（Disco、Spark等），或其他框架（Wukong、Scalding、Cascading）。
有时候我们用到了Unix测试工具包（cut/wc/etc），但只是作为工具临时用一下。我们并不会深入讲述这些东西，有其他O’Reilly书籍详细介绍这些实用工具。

理论：黑猩猩和大象
从第2章开始，你会看到黑猩猩和大象公司（Chimpanzee and Elephant Company）热情的员工们。大象记性好（内存很大），易于进行大规模迁移。通过大象类比组装数据，有助于理解移动超大量数据的易点和难点。黑猩猩聪明，但是一次只能考虑一件事情。它们展示了如何在单个关注点下实现简单的转换，以及如何在不占用更多空间的情况下分析PB级的数据。
黑猩猩和大象结合起来，共同隐喻了如何处理大规模数据。

实战：Hadoop
Doug Cutting说，Hadoop是“大数据操作系统的内核”。Hadoop是最主流的批处理方案，既有商用企业支持，也拥有庞大的开源社区，能够在每一个平台和云上运行——短期内这种形势并不会改变。
本书中的代码无须改动即可在你的笔记本电脑或企业级Hadoop集群上运行。我们使用docker提供一个虚拟Hadoop集群，你可以在自己的笔记本上运行。

关于Python和MrJob
我们选择Python有两个原因。第一，作为一种高级语言（除了Python，还有Scala、R等），Python既拥有完美的Hadoop框架又具备广泛的支持。更重要的是，Python是一种可读性很强的语言。本书提供的示例代码能够清晰地映射到其他高级语言，而且我们推荐的方法在任何语言中都是可用的。
具体来说，我们选择Python语言框架MrJob。这是一个广泛使用的开源框架。