在互联网+时代,数据是炙手可热的重要资源,网络使用基础的提升,数据流量增大,用户需求多样化和多变对架构设计提出严峻考验,而Hadoop为快速响应用户需求提供了重要技术支撑。作者Rajiv Tiwari从事数据研究近15年,在Hadoop应用方面有许多实战经验,他通过实际案例帮助读者学习如何借助Hadoop来处理巨大数据信息,对于开发者、分析师、架构师、管理者等都具有很好的指导。
从大数据和Hadoop的基础知识入手,使用多个包含监管计划和诈骗预测的超级金融大数据案例,让读者掌握具体解决方案。其中包含行业参考和代码模板,目的是向读者介绍一个广为应用的Hadoop组件。
读者还将了解到行业领先的几个大数据架构模式、大数据管理、小技巧等实践,以成功开发基于Hadoop平台的标准解决方案。
译者序
从 2013年暑假接触 Hadoop到现在已有 3年,我清楚地记得第一个伪分布式弄了近 10天才跑出来第一个 WordCount,期间太多的 Bug已经把我搞得神魂颠倒,好在最后“成功”了。至此,我与 Hadoop 结下了不解之缘。刚开始用中国人民大学数据挖掘中心的十几台机器搭建了第一个 Hadoop集群,而后发展成两台服务器各包括 20台机器的集群。Hadoop的版本也从 1.2.0发展到 2.6.0,随后帮助中国人民大学统计与调查中心搭建了自己的 Hadoop集群。
“巧妇难为无米之炊”,再优秀的工具没有数据也只能是一个摆设,好在我们在做项目的过程中不时地有新的数据加入,也为我们进一步的学习和研究打下了基础。我们集群的组件也从单纯的 Hadoop增加到 Hive、HBase、 Mahout和 Spark。这几个组件都是比较流行的,我们在使用过程中也体会到了这些组件优于传统数据分析工具的特点。随着数据采集量的增多,也使得很多公司为我们提供了一些可进行分布式计算的平台环境,充分利用这些资源,会为我们的研究和工作锦上添花。
感谢电子工业出版社的编辑给了我一次这么好的机会,也希望本书能为金融行业的同仁带来一定的收获。金融行业的数据可以说是最有价值的数据,其数据量大、价值高,从这些数据中提取价值是提升业务收入的一个重要手段。面对日益增长的数据量,传统的数据分析工具已经很难满足这些需求,新的开源工具可为我们解决这些问题。文中列举了很多现实中的例子及实现方案,为我们进一步挖掘数据的价值提供了一种思路。鉴于译者水平有限,有些术语及语句可能理解有误,欢迎读者发邮件和我联系: sdwangxiaoning@ foxmail.com。
王小宁 2016年
前 言
数据正以惊人的速度增加,而公司要么疲于应付,要么急于利用这些数据进行分析。Hadoop是一个优秀的开源框架,可以应付这些大数据问题。
在过去的几年里,我一直在金融部门使用 Hadoop,但在使用的过程中,一直没有发现有关 Hadoop在金融应用中的任何案例资源或书籍。我遇到的关于 Hadoop、Hive或一些 MapReduce模式的书籍大都是用各种各样的方式统计单词数量或分析 Twitter信息。
我写这本书旨在解释 Hadoop和其他相关产品在处理金融案例大数据中的基本应用。在书中,介绍了很多案例并提供了一个非常实用的方法。
这本书包含什么
第 1章,大数据回顾。本章包含大数据概览、前景和技术演变,也介绍了 Hadoop架构的基本知识、组成部分和分布式框架。如果你之前已经了解 Hadoop,这一章可以忽略。
第 2章,金融服务中的大数据。本章将延伸到站在一个金融机构的角度去看大数据。主要介绍大数据在金融部门的演进故事,在项目落地时的一些挑战,以及利用相关工具和技术处理金融案例的应用。
第 3章,在云端使用 Hadoop。本章包含大数据在云端使用的概览,以及基于端到端数据处理的样本投资组合风险模拟项目。
第 4章,使用 Hadoop进行数据迁移。本章讨论了将历史数据从传统数据源迁到 Hadoop上的几种常用项目。
第 5章,入门。本章包含了一个非常大的企业数据平台的实施项目,以支持各种风险和监管要求。
第 6章,变得有经验。本章给出了实时分析的概览和检测欺诈交易的样本项目。
第 7章,深入扩展 Hadoop的企业级应用。本章包含的主题扩展到 Hadoop在公司中的使用,如企业数据湖、 Lambda架构和数据管理。还介绍了更多基本的财务案例与简短的解决方案。
第 8章,Hadoop的快速增长。本章讨论了 Hadoop分布式架构的升级周期,并用最佳实践和标准完成此书。
阅读这本书你需要哪些基础知识
因为 Hadoop是一个数据处理和分析的技术框架,因此在数据库、项目和分析工具上有一些经验对读者会有帮助。
这本书是一个入门指南,包含了大量外部引用的大数据产品。因此,如果在任何时候需要深入了解 Hadoop,我们鼓励读者参考书中提到的外部资源。
哪些人适合读这本书
本书主要面向致力于使用 Hadoop的金融部门工作人员,包含数据项目开发人员、分析师、架构师和管理人员。
它也有助于来自其他行业最近转换或想将业务领域转向金融部门的技术专业人士。
书中代码和数据去哪下载?