Hadoop金融大数据分析
  • 推荐1
  • 收藏6
  • 浏览976

Hadoop金融大数据分析

Rajiv Tiwari (作者)  王小宁 (译者) 张国霞 (责任编辑)

  • 书  号:978-7-121-31051-5
  • 出版日期:2017-04-05
  • 页  数:176
  • 开  本:16(170*240)
  • 出版状态:上市销售
  • 原书名: Hadoop for Finance Essentials
  • 原书号:9781784395162
  • 维护人:高洪霞
在互联网+时代,数据是炙手可热的重要资源,网络使用基础的提升,数据流量增大,用户需求多样化和多变对架构设计提出严峻考验,而Hadoop为快速响应用户需求提供了重要技术支撑。作者Rajiv Tiwari从事数据研究近15年,在Hadoop应用方面有许多实战经验,他通过实际案例帮助读者学习如何借助Hadoop来处理巨大数据信息,对于开发者、分析师、架构师、管理者等都具有很好的指导。
从大数据和Hadoop的基础知识入手,使用多个包含监管计划和诈骗预测的超级金融大数据案例,让读者掌握具体解决方案。其中包含行业参考和代码模板,目的是向读者介绍一个广为应用的Hadoop组件。
读者还将了解到行业领先的几个大数据架构模式、大数据管理、小技巧等实践,以成功开发基于Hadoop平台的标准解决方案。
译者序

从 2013年暑假接触 Hadoop到现在已有 3年,我清楚地记得第一个伪分布式弄了近 10天才跑出来第一个 WordCount,期间太多的 Bug已经把我搞得神魂颠倒,好在最后“成功”了。至此,我与 Hadoop 结下了不解之缘。刚开始用中国人民大学数据挖掘中心的十几台机器搭建了第一个 Hadoop集群,而后发展成两台服务器各包括 20台机器的集群。Hadoop的版本也从 1.2.0发展到 2.6.0,随后帮助中国人民大学统计与调查中心搭建了自己的 Hadoop集群。
“巧妇难为无米之炊”,再优秀的工具没有数据也只能是一个摆设,好在我们在做项目的过程中不时地有新的数据加入,也为我们进一步的学习和研究打下了基础。我们集群的组件也从单纯的 Hadoop增加到 Hive、HBase、 Mahout和 Spark。这几个组件都是比较流行的,我们在使用过程中也体会到了这些组件优于传统数据分析工具的特点。随着数据采集量的增多,也使得很多公司为我们提供了一些可进行分布式计算的平台环境,充分利用这些资源,会为我们的研究和工作锦上添花。
感谢电子工业出版社的编辑给了我一次这么好的机会,也希望本书能为金融行业的同仁带来一定的收获。金融行业的数据可以说是最有价值的数据,其数据量大、价值高,从这些数据中提取价值是提升业务收入的一个重要手段。面对日益增长的数据量,传统的数据分析工具已经很难满足这些需求,新的开源工具可为我们解决这些问题。文中列举了很多现实中的例子及实现方案,为我们进一步挖掘数据的价值提供了一种思路。鉴于译者水平有限,有些术语及语句可能理解有误,欢迎读者发邮件和我联系: sdwangxiaoning@ foxmail.com。
王小宁 2016年


前 言

数据正以惊人的速度增加,而公司要么疲于应付,要么急于利用这些数据进行分析。Hadoop是一个优秀的开源框架,可以应付这些大数据问题。
在过去的几年里,我一直在金融部门使用 Hadoop,但在使用的过程中,一直没有发现有关 Hadoop在金融应用中的任何案例资源或书籍。我遇到的关于 Hadoop、Hive或一些 MapReduce模式的书籍大都是用各种各样的方式统计单词数量或分析 Twitter信息。
我写这本书旨在解释 Hadoop和其他相关产品在处理金融案例大数据中的基本应用。在书中,介绍了很多案例并提供了一个非常实用的方法。
这本书包含什么
第 1章,大数据回顾。本章包含大数据概览、前景和技术演变,也介绍了 Hadoop架构的基本知识、组成部分和分布式框架。如果你之前已经了解 Hadoop,这一章可以忽略。
第 2章,金融服务中的大数据。本章将延伸到站在一个金融机构的角度去看大数据。主要介绍大数据在金融部门的演进故事,在项目落地时的一些挑战,以及利用相关工具和技术处理金融案例的应用。
第 3章,在云端使用 Hadoop。本章包含大数据在云端使用的概览,以及基于端到端数据处理的样本投资组合风险模拟项目。
第 4章,使用 Hadoop进行数据迁移。本章讨论了将历史数据从传统数据源迁到 Hadoop上的几种常用项目。
第 5章,入门。本章包含了一个非常大的企业数据平台的实施项目,以支持各种风险和监管要求。
第 6章,变得有经验。本章给出了实时分析的概览和检测欺诈交易的样本项目。
第 7章,深入扩展 Hadoop的企业级应用。本章包含的主题扩展到 Hadoop在公司中的使用,如企业数据湖、 Lambda架构和数据管理。还介绍了更多基本的财务案例与简短的解决方案。
第 8章,Hadoop的快速增长。本章讨论了 Hadoop分布式架构的升级周期,并用最佳实践和标准完成此书。

阅读这本书你需要哪些基础知识
因为 Hadoop是一个数据处理和分析的技术框架,因此在数据库、项目和分析工具上有一些经验对读者会有帮助。
这本书是一个入门指南,包含了大量外部引用的大数据产品。因此,如果在任何时候需要深入了解 Hadoop,我们鼓励读者参考书中提到的外部资源。

哪些人适合读这本书
本书主要面向致力于使用 Hadoop的金融部门工作人员,包含数据项目开发人员、分析师、架构师和管理人员。
它也有助于来自其他行业最近转换或想将业务领域转向金融部门的技术专业人士。




目录

目 录

第 1章 大数据回顾. ...................................................................... 1
大数据是什么 ................................................................................................. 1
数据量 .......................................................................................................... 2
数据速度 ...................................................................................................... 2
数据类型 ...................................................................................................... 3
大数据技术的演进 ......................................................................................... 3
过去 .............................................................................................................. 3
现在 .............................................................................................................. 4
未来 .............................................................................................................. 5
大数据愿景 ..................................................................................................... 5
存储 .............................................................................................................. 6
NoSQL ......................................................................................................... 6
NoSQL数据库类型 .................................................................................... 7
资源管理 ...................................................................................................... 7
数据治理 ...................................................................................................... 8
批量计算 ...................................................................................................... 8
实时计算 ...................................................................................................... 8
数据整合工具 .............................................................................................. 9
机器学习 ...................................................................................................... 9
商务智能和可视化 ...................................................................................... 9
大数据相关的职业 .................................................................................... 10
Hadoop架构 ...................................................................................................11
HDFS集群 ................................................................................................ 12
MapReduce V1 .......................................................................................... 14
MapReduce V2——YARN ........................................................................ 15
Hadoop生态圈简介 ...................................................................................... 18
驯服大数据 ................................................................................................ 18
Hadoop——英雄 ....................................................................................... 19
HDFS——Hadoop分布式系统 ................................................................ 19
Hadoop版本 .................................................................................................. 23
发行版——本地部署 ................................................................................ 25
发行版——云端 ........................................................................................ 27
总结 ............................................................................................................... 28

第 2章 金融服务中的大数据...................................................... 29
各个行业的大数据使用情况 ....................................................................... 29
卫生保健 .................................................................................................... 30
人类科学 .................................................................................................... 30
电信 ............................................................................................................ 31
在线零售商 ................................................................................................ 31
为什么金融部门需要大数据 ....................................................................... 31
金融部门的大数据应用案例 ....................................................................... 34
HDFS上的数据归档 ................................................................................ 34
监管 ............................................................................................................ 35
欺诈检测 .................................................................................................... 35
交易数据 .................................................................................................... 36
风险管理 .................................................................................................... 36
客户行为预测 ............................................................................................ 36
情感分析——非结构化 ............................................................................ 36
其他应用案例 ............................................................................................ 37
金融大数据的演进过程 ............................................................................... 37
应该如何学习金融大数据 ........................................................................... 41
把你的数据上传到 HDFS上 ................................................................... 41
从 HDFS上查询数据 ............................................................................... 42
在 Hadoop上的 SQL................................................................................. 43
实时 ............................................................................................................ 44
数据治理和运营 ........................................................................................ 44
ETL工具 ................................................................................................... 45
数据分析和商业智能 ................................................................................ 45
金融大数据的实现 ....................................................................................... 46
关键挑战 .................................................................................................... 46
克服挑战 .................................................................................................... 47
总结 ............................................................................................................... 50

第 3章 在云端使用 Hadoop....................................................... 51
大数据云的故事 ........................................................................................... 51
原因 ............................................................................................................ 52
时机 ............................................................................................................ 53
收获 ............................................................................................................ 54
项目细节——在云中进行风险模拟 ............................................................ 54
解决方案 .................................................................................................... 55
现实世界 .................................................................................................... 55
目标世界 .................................................................................................... 57
数据转换 .................................................................................................... 60
数据分析 .................................................................................................... 62
总结 ............................................................................................................... 63

第 4章 使用 Hadoop进行数据迁移. ........................................... 65
项目细节——归档你的交易数据 ................................................................ 65
解决方案 .................................................................................................... 67
项目第一阶段——分裂交易数据到数据仓库和 Hadoop ...................... 68
项目第二阶段——完成数据从关系型数据仓库到 Hadoop的迁移 ..... 77
总结 ............................................................................................................... 83

第 5章 入门. ............................................................................... 85
项目详细信息——风险和监管报告 ............................................................ 86
解决方案 .................................................................................................... 87
现实世界 .................................................................................................... 87
目标世界 .................................................................................................... 88
数据收集 .................................................................................................... 89
数据转换 .................................................................................................... 97
数据分析 ...................................................................................................112
总结 ..............................................................................................................116

第 6章 变得有经验. .................................................................. 117
实时大数据 ..................................................................................................117
项目细节——识别欺诈交易 .......................................................................119
解决方案 .................................................................................................. 120
现实世界 .................................................................................................. 120
目标世界 .................................................................................................. 120
马尔科夫链模型执行——批处理模式 .................................................. 121
数据收集 .................................................................................................. 126
数据转换 .................................................................................................. 128
总结 ............................................................................................................. 132

第 7章 深入扩展 Hadoop的企业级应用.................................. 133
扩展开来——实际上的水平 ...................................................................... 134
更多的大数据使用案例 ............................................................................. 135
使用案例——再谈欺诈问题 .................................................................. 136
解决方案 .................................................................................................. 136
使用案例——用户投诉 .......................................................................... 137
解决方案 .................................................................................................. 137
使用案例——算法交易 .......................................................................... 137
解决方案 .................................................................................................. 138
使用案例——外汇交易 .......................................................................... 138
解决方案 .................................................................................................. 138
使用案例——基于社交媒体的交易数据 .............................................. 139
解决方案 .................................................................................................. 139
使用案例——非大数据 .......................................................................... 140
解决方案 .................................................................................................. 140
数据湖 ......................................................................................................... 140
Lambda架构 ............................................................................................... 143
大数据管理 ................................................................................................. 144
Apache Falcon概览 ................................................................................ 146
安全性 ......................................................................................................... 147
总结 ............................................................................................................. 149

第 8章 Hadoop的快速增长..................................................... 151
Hadoop发行版的升级周期 ........................................................................ 151
最佳实践和标准 ......................................................................................... 154
环境 .......................................................................................................... 154
与 BI和 ETL工具的集成 ...................................................................... 155
提示 .......................................................................................................... 155
新的趋势 ..................................................................................................... 157
总结 ............................................................................................................. 158

读者评论

  • 书中代码和数据去哪下载?

    qwer770415发表于 2017/6/29 16:21:50

相关图书

Spring Boot 2企业应用实战

本书介绍了Java EE领域的全新开源框架:Spring Boot。其中Spring的版本为5.0。本书的示例建议在Tomcat 8上运行。<br>本书重点介绍...

¥58.00

Apache Kafka实战

胡夕 (作者)

本书是涵盖Apache Kafka各方面的具有实践指导意义的工具书和参考书。作者结合典型的使用场景,对Kafka整个技术体系进行了较为全面的讲解,以便读者能够举...

¥59.00

Spring+MyBatis企业应用实战(第2版)

本书主要介绍介绍了Java EE领域的两个开源框架:Spring的MVC和MyBatis。其中Spring的版本为5.0,MyBatis的版本是3.4.5。本书...

¥39.00

轻量级Java EE企业应用实战(第5版)——Struts 2+Spring 5+Hibernate 5/JPA 2整合开发

本书是《轻量级Java EE企业应用实战》的第5版,这一版保持了前几版内容全面、深入的特点,主要完成全部知识的升级。<br>本书介绍了Java EE领域的四个开...

¥128.00

Spark:大数据集群计算的生产实践

李刚 (作者) 李刚 (译者)

本书针对spark从验证性环境迁移到实际生产环境时会遇到的各种问题给出了实际的帮助,涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。全书分为6章...

¥65.00

Spark GraphX实战

【美】Michael S. Malak(迈克尔 S. 马拉克) 【美】Robin East(罗宾 伊斯特) (作者) 时金魁 黄光远 (译者)

《Spark GraphX实战》是一本Spark GraphX入门书籍。前5章为基础内容,即使读者对Spark、GraphX、Scala不熟悉,也能快速上手;后...

¥49.00