自己动手做大数据系统
  • 推荐0
  • 收藏3
  • 浏览1.3K

自己动手做大数据系统

张粤磊 (作者) 

  • 书  号:978-7-121-29586-7
  • 出版日期:2016-09-26
  • 页  数:248
  • 开  本:16(185*235)
  • 出版状态:上市销售
  • 维护人:刘佳禾
如果你是一位在校大学生,对大数据感兴趣,也知道使用的企业越来越多,市场需求更是日新月异,但苦于自己基础不够,心有余而力不足;也看过不少大数据方面的书籍、博客、视频等,但感觉进步不大;如果你是一位在职人员,但目前主要使用传统技术,虽然对大数据很有兴趣,也深知其对未来的影响,但因时间不够,虽有一定的基础,常常也是打两天鱼、晒三天网,进展不是很理想。
如果你有上述疑惑或遇到相似问题,本书正好比较适合你。本书从OpenStack云平台搭建、软件部署、需求开发实现到结果展示,以纵向角度讲解了生产性大数据项目上线的整个流程;以完成一个实际项目需求贯穿各章节,讲述了Hadoop生态圈中互联网爬虫技术、Sqoop、Hive、HBase组件协同工作流程,并展示了Spark计算框架、R制图软件和SparkRHive组件的使用方法。本书的一大特色是提供了实际操作环境,用户可以在线登录云平台来动手操作书中的数据和代码,登录网址请参考http://www.feiguyun.com/support。
前 言

一个游泳爱好者,最大的烦恼是什么?没有好的教练?缺少好的教材?也许不是。如果哪天自己能拥有一个游泳池,可随时畅游,而且维护成本很低廉,甚至免费,同时还有教练的指导和一些游泳爱好者一起,那应该是一件很美的事。对于一个大数据爱好者,如果也能拥有一个属于自己的大数据实践环境,能够方便、快捷、随时随地使用真实环境,同时还有一些实战性、生产性的项目或课件,与一些志同道合的小伙伴一起攻坚克难,应该也是一件令人期待的事。
“纸上得来终觉浅,绝知此事要躬行”。要掌握一门技术,尤其像大数据相关技术,涉及的内容多,范围广,对环境的要求高,如果只是看看书、看看视频,很难深入理解,更不用说融会贯通了。一些有条件的学生,他们可以搭几个节点,组成一个微型大数据群,照着书中的一些实例练习,但这些练习往往支离破碎,缺乏系统性、生产性,更不用说包含生产性项目中的版本控制、质量管理和流程规范等。而这些对实施生产项目来说很重要,有时其重要性超过了对技术的要求。本书,就是为弥补这些内容而写的。
除了实战性、生产性的课件外,我们还提供了随时随地可操作、可实践的大数据云平台——飞谷云,这是我们自主开发的大数据平台,该平台用户可通过外网登录,与论坛及门户实现无缝连接。此外,还有很多志同道合的大数据爱好者一起学习、一起做项目。
本书主要内容
第1章,介绍我们为什么需要自己动手做大数据系统。
第2章,介绍动手做大数据系统的项目背景、项目架构及相关基础知识。
第3章,介绍大数据系统环境的搭建和配置,主要包括如何搭建和配置Hadoop集群、Sqoop、Hive、HBase、ZooKeeper、Spark、MySQL等,图文并茂,内容翔实。
第4章,介绍大数据系统中数据获取相关技术,包括如何利用爬虫技术获取平面数据和使用Sqoop获取结构化数据。
第5章,介绍大数据系统中数据仓库工具Hive的使用方法及进行ETL的过程详解。
第6章,介绍大数据系统中数据库HBase的使用方法及和Hive之间的数据对接。
第7章,介绍如何使用数据展示利器R来展示HDFS中的数据。
第8章,介绍使用Spark计算模型来实时处理数据及SparkRHive组件的使用。
第9章,介绍如何搭建支撑大数据系统的云平台,以保证大数据系统的稳定性。
读者范围
? 对大数据感兴趣的院校师生。
? 对大数据有一定的基础,还想进一步熟悉整个生态系统的大数据爱好者。
勘误与支持
尽管我们仔细对待本书的写作,由于水平和能力有限,错误还是不可避免的。如果你在书中发现不妥或错误之处,请访问http://www.feiguyun.com/support,留下宝贵意见,我们将非常感谢你的支持和帮助。
致谢
首先要感谢大数据实战团队,参与飞谷云大数据公益项目(www.feiguyun.com)的所有大数据爱好者,正是有了大家的支持和积极参与,才使得从飞谷一期的四个人,发展到目前飞谷七期的近四百人,短短一年多的时间,让我们真正感受到了共同坚持、诚信进取、协同分享的飞谷价值观所带来的收获和快乐,每期的项目线下启动会、交流会、项目结束总结会总能感受到大家积极参与的热情!同时也要感谢苏州大学计算机科学与技术学院何书萍老师、上海理工大学管理学院张帆老师、上海交通大学大数据分析俱乐部蒋军杰同学、中国社科院研究生院孙思栋同学、上海华师大数据分析俱乐部罗玉雪同学、上海大学黄文成同学等。
此外,要感谢飞谷管理团队的各位老师:陈健、刘军、吴嘉瑜、张勤池、王继红、张海峰、许小平、陶方震和刘李涛。诸君对飞谷大数据项目的热心参与及全力配合,是此公益项目得以持续推进的不懈动力。特别感谢为飞谷云提供实战项目的企业数据负责人;飞谷七期电商比价项目提供者——张晓雷先生及飞谷八期汽车推荐模型需求提供者——章水鑫先生,正是有了你们提供的需求、数据和业务指导,才使得飞谷大数据小伙伴们有了学习大数据的真实场景,在实践中体会大数据分析价值和魅力。
飞谷云在全国一些大学还建立了交流群,作为每个群的组织者:中国科技大学张海洋同学、河南工程学院孟祥杰同学、南京农业大学邬家栋同学、西安电子科技大学刘东航同学等,为飞谷公益项目在院校中的推广,亦发挥了积极作用,在此一并表示感谢。

目录

目录 阅读
第1章 为什么要自己动手做大数据系统
第2章 项目背景及准备
第3章 大数据环境搭建和配置
第4章 大数据的获取
第5章 大数据的处理
第6章 大数据的存储
第7章 大数据的展示
第8章 大数据的分析挖掘
第9章 自己动手搭建支撑大数据系统的云平台

读者评论

相关图书

Unreal Engine 4可视化设计:交互可视化、动画与渲染开发绝艺

Tom Shannon (作者) 龚震宇 (译者)

Shannon回答了有关UE4可视化问题的常见问题,解决了从数据导入和处理到照明、高级材料和渲染等问题。他揭示了UE4与传统渲染系统重要的不同之处,即使它们使用...

 

虫术——Python绝技

梁睿坤 (作者)

本书以大数据应用方面常用的语言Python为基础,从网络爬虫的实现原理入手,逐步引领读者进入网络爬虫的世界。在各类爬虫框架中,将Scrapy作为轴心,从多个维度...

¥99.00

Scala高性能编程

Vincent Theron (作者) 杨云 (译者)

Scala是一种表达能力非常强的语言,能够用非常简洁的代码表达丰富的业务含义。为了在生产上充分发挥Scala的能力,除了掌握其简洁的语法外,理解Scala在性能...

¥69.00

网络爬虫全解析——技术、原理与实践

罗刚 (作者)

本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4...

¥49.00

全栈数据之门

任柳江 (作者)

本书以数据分析领域最热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange ...

¥49.00

Druid实时大数据分析原理与实践

欧阳辰 刘麒贇 张海雷 高振源 许哲 (作者)

Druid 作为一款开源的实时大数据分析软件,最近几年快速风靡全球互联网公司,特别是对于海量数据和实时性要求高的场景,包括广告数据分析、用户行为分析、数据统计分...

¥59.00