大数据猩球:海量数据处理实践指南
  • 推荐0
  • 收藏5
  • 浏览800

大数据猩球:海量数据处理实践指南

Philip Kromer (作者)  唐李洋 (译者)

  • 书  号:978-7-121-29418-1
  • 出版日期:2016-08-01
  • 页  数:212
  • 开  本:16(178*233)
  • 出版状态:上市销售
  • 原书名: Big Data for Chimps
  • 原书号:9781449335960
  • 维护人:张春雨
本书以实用的、可操作的视角解释了大数据——采用黑猩猩和大象的隐喻,基于棒球统计数据集,使用Apache Hadoop和Pig等工具展示了如何处理大规模数据。此外,通过处理真实数据、解决现实问题,作者还以实例的形式总结了一些实践分析模式,为有创造力的分析人员提供了最强大、最有价值的方法。
本书特别适合那些需要大数据工具箱来解决实际问题的人们。
绝佳案例 绝妙类比 绝对实用
前言
《大数据猩球:海量数据处理实践指南》以实用、可操作的视角解释了大数据,以经过检验的最佳实践为中心,向读者展示了Hadoop的实战智慧。
读者将对大数据形成有用的、概念性的认识。数据就是洞察力,关键是理解大数据的可扩展性(scalability):即无限规模的数据取决于相异的枢轴点(pivot point)。我们会教你如何运用这些枢轴点进行数据操作。
最后,本书提供了真实数据和实际问题的具体示例,将概念和实际应用相结合。

本书梗概
《大数据猩球:海量数据处理实践指南》讲述了如何使用简单、有趣、精致的工具,解决大规模数据处理中的重要问题。
从超大规模的事件流中发现模式是一件重要而且困难的事情。大部分时候,地震是不会发生的——但是模式能够根据平静时期的数据提前预测是否会发生地震。如何在数以亿计的事件中逐个对比数万亿个连续事件,从而发现极少数事关紧要的事件呢?一旦找到了这些模式,如何实时地做出响应?
我们选用大家都能够理解的案例,而且它们具有普适性,能够适用于其他问题解决的场景。我们的目的是向读者提供:
■ 大规模思考的能力——使读者深刻理解如何将一个问题分解为有效的数据转换(data transformation),以及集群中的数据流动如何影响这些转换。
■ 用详细的示例代码在场景中展现如何使用Hadoop解决有意思的问题。
■ 关于有效软件开发的建议和最佳实践。
本书的全部示例都采用真实数据,用来描述很多问题领域中的模式,包括:
■ 创建统计概要。
■ 识别数据中的模式和组。
■ 批量查找、过滤和移动记录。
本书强调简洁性和趣味性,特别吸引初学者,但同样适合有经验的人。你会发现本书为有创造力的分析人员提供了最强大、最有价值的方法。我们的座右铭是“机器人是廉价的,而人是重要的”: 编写可读的、可扩展的代码,然后再确定是否需要一个较小的集群。本书的代码改编自Infochimps和Data Syndrome解决企业级业务问题的程序,这些简单的高级转换能够满足我们的需求。
很多章节都配有练习。如果你是初学者,我们强烈建议你每一章都至少完成一个练习。在面前摆本书看,不如边看书边写代码学得更深入。本书官网上有一些简单的解决方案和结果数据集。

本书适合谁
我们希望你至少熟悉一种编程语言,并不一定非要是Python或Pig。熟悉SQL会有些帮助,但这不是必需的。如果有商务智能方面的数据工作经历或分析背景,会很有帮助。
更重要的是,你应该有一个需要大数据工具箱来解决问题的实际项目——这个问题要求在多个机器之间横向扩展(scale out)。如果你没有这样的项目,但又确实很想学习大数据工具箱,看一下第3章,我们采用棒球数据。这是一个探索起来很有趣的大型数据集。

本书不适合谁
本书不是《Hadoop权威指南》(Hadoop: The Definitive Guide,已出版),而更像是《Hadoop固执指南》(Hadoop: A Highly Opinionated Guide)。本书唯一提到裸Hadoop API的地方就是,“大多数情况下,不要使用它”。我们推荐以某种空间不高效的格式存储数据,还有很多时候我们鼓励以小部分的性能损失换取程序员更多的愉悦。本书不厌其烦地强调编写可扩展的代码,却只字不提编写高性能的代码,因为获取成倍加速比的最佳途径是使用双倍数量的机器。
这是因为,对大部分人来说,集群的成本远远低于数据科学家使用它的机会成本。如果数据不仅大,还很巨大(比如100TB),而且我们期望在生产线上不断地运行作业,那就需要考虑其他权衡了。但是,即使是PB级规模,仍然要按照我们介绍的方式来开发。
本书涉及Hadoop的提供和部署问题,以及一些重要的设置。但是并没有真正介绍任何高级算法、操作或调优问题。

本书没有包括的内容
目前我们不讨论Hive。对于熟悉Hive的人,Pig脚本能够天然地翻译成Hive。
本书讲的是互联网上没有的东西。我们不准备花时间介绍基础教程和核心文档。另外,我们也不会涉及以下内容:
Hadoop的安装或维护。
其他类MapReduce的平台(Disco、Spark等),或其他框架(Wukong、Scalding、Cascading)。
有时候我们用到了Unix测试工具包(cut/wc/etc),但只是作为工具临时用一下。我们并不会深入讲述这些东西,有其他O’Reilly书籍详细介绍这些实用工具。

理论:黑猩猩和大象
从第2章开始,你会看到黑猩猩和大象公司(Chimpanzee and Elephant Company)热情的员工们。大象记性好(内存很大),易于进行大规模迁移。通过大象类比组装数据,有助于理解移动超大量数据的易点和难点。黑猩猩聪明,但是一次只能考虑一件事情。它们展示了如何在单个关注点下实现简单的转换,以及如何在不占用更多空间的情况下分析PB级的数据。
黑猩猩和大象结合起来,共同隐喻了如何处理大规模数据。

实战:Hadoop
Doug Cutting说,Hadoop是“大数据操作系统的内核”。Hadoop是最主流的批处理方案,既有商用企业支持,也拥有庞大的开源社区,能够在每一个平台和云上运行——短期内这种形势并不会改变。
本书中的代码无须改动即可在你的笔记本电脑或企业级Hadoop集群上运行。我们使用docker提供一个虚拟Hadoop集群,你可以在自己的笔记本上运行。

关于Python和MrJob
我们选择Python有两个原因。第一,作为一种高级语言(除了Python,还有Scala、R等),Python既拥有完美的Hadoop框架又具备广泛的支持。更重要的是,Python是一种可读性很强的语言。本书提供的示例代码能够清晰地映射到其他高级语言,而且我们推荐的方法在任何语言中都是可用的。
具体来说,我们选择Python语言框架MrJob。这是一个广泛使用的开源框架。

目录

目录 阅读
第1部分 入门 :理论和工具
第1章 Hadoop 基础
第2章 MapReduce
第3章 棒球数据集速览
第4章 Pig 入门
第2部分 战术:分析模式
第5章 Map-Only 操作
第6章 分组操作
第7章 表连接
第8章 排序操作
第9章 重复记录和唯一记录

读者评论

电子书版本

  • Epub
  • Mobi

相关图书

Unreal Engine 4可视化设计:交互可视化、动画与渲染开发绝艺

Tom Shannon (作者) 龚震宇 (译者)

Shannon回答了有关UE4可视化问题的常见问题,解决了从数据导入和处理到照明、高级材料和渲染等问题。他揭示了UE4与传统渲染系统重要的不同之处,即使它们使用...

 

虫术——Python绝技

梁睿坤 (作者)

本书以大数据应用方面常用的语言Python为基础,从网络爬虫的实现原理入手,逐步引领读者进入网络爬虫的世界。在各类爬虫框架中,将Scrapy作为轴心,从多个维度...

¥99.00

Scala高性能编程

Vincent Theron (作者) 杨云 (译者)

Scala是一种表达能力非常强的语言,能够用非常简洁的代码表达丰富的业务含义。为了在生产上充分发挥Scala的能力,除了掌握其简洁的语法外,理解Scala在性能...

¥69.00

网络爬虫全解析——技术、原理与实践

罗刚 (作者)

本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4...

¥49.00

全栈数据之门

任柳江 (作者)

本书以数据分析领域最热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange ...

¥49.00

Druid实时大数据分析原理与实践

欧阳辰 刘麒贇 张海雷 高振源 许哲 (作者)

Druid 作为一款开源的实时大数据分析软件,最近几年快速风靡全球互联网公司,特别是对于海量数据和实时性要求高的场景,包括广告数据分析、用户行为分析、数据统计分...

¥59.00