如果你是一位在校大学生,对大数据感兴趣,也知道使用的企业越来越多,市场需求更是日新月异,但苦于自己基础不够,心有余而力不足;也看过不少大数据方面的书籍、博客、视频等,但感觉进步不大;如果你是一位在职人员,但目前主要使用传统技术,虽然对大数据很有兴趣,也深知其对未来的影响,但因时间不够,虽有一定的基础,常常也是打两天鱼、晒三天网,进展不是很理想。
如果你有上述疑惑或遇到相似问题,本书正好比较适合你。本书从OpenStack云平台搭建、软件部署、需求开发实现到结果展示,以纵向角度讲解了生产性大数据项目上线的整个流程;以完成一个实际项目需求贯穿各章节,讲述了Hadoop生态圈中互联网爬虫技术、Sqoop、Hive、HBase组件协同工作流程,并展示了Spark计算框架、R制图软件和SparkRHive组件的使用方法。本书的一大特色是提供了实际操作环境,用户可以在线登录云平台来动手操作书中的数据和代码,登录网址请参考http://www.feiguyun.com/support。
前 言
一个游泳爱好者,最大的烦恼是什么?没有好的教练?缺少好的教材?也许不是。如果哪天自己能拥有一个游泳池,可随时畅游,而且维护成本很低廉,甚至免费,同时还有教练的指导和一些游泳爱好者一起,那应该是一件很美的事。对于一个大数据爱好者,如果也能拥有一个属于自己的大数据实践环境,能够方便、快捷、随时随地使用真实环境,同时还有一些实战性、生产性的项目或课件,与一些志同道合的小伙伴一起攻坚克难,应该也是一件令人期待的事。
“纸上得来终觉浅,绝知此事要躬行”。要掌握一门技术,尤其像大数据相关技术,涉及的内容多,范围广,对环境的要求高,如果只是看看书、看看视频,很难深入理解,更不用说融会贯通了。一些有条件的学生,他们可以搭几个节点,组成一个微型大数据群,照着书中的一些实例练习,但这些练习往往支离破碎,缺乏系统性、生产性,更不用说包含生产性项目中的版本控制、质量管理和流程规范等。而这些对实施生产项目来说很重要,有时其重要性超过了对技术的要求。本书,就是为弥补这些内容而写的。
除了实战性、生产性的课件外,我们还提供了随时随地可操作、可实践的大数据云平台——飞谷云,这是我们自主开发的大数据平台,该平台用户可通过外网登录,与论坛及门户实现无缝连接。此外,还有很多志同道合的大数据爱好者一起学习、一起做项目。
本书主要内容
第1章,介绍我们为什么需要自己动手做大数据系统。
第2章,介绍动手做大数据系统的项目背景、项目架构及相关基础知识。
第3章,介绍大数据系统环境的搭建和配置,主要包括如何搭建和配置Hadoop集群、Sqoop、Hive、HBase、ZooKeeper、Spark、MySQL等,图文并茂,内容翔实。
第4章,介绍大数据系统中数据获取相关技术,包括如何利用爬虫技术获取平面数据和使用Sqoop获取结构化数据。
第5章,介绍大数据系统中数据仓库工具Hive的使用方法及进行ETL的过程详解。
第6章,介绍大数据系统中数据库HBase的使用方法及和Hive之间的数据对接。
第7章,介绍如何使用数据展示利器R来展示HDFS中的数据。
第8章,介绍使用Spark计算模型来实时处理数据及SparkRHive组件的使用。
第9章,介绍如何搭建支撑大数据系统的云平台,以保证大数据系统的稳定性。
读者范围
? 对大数据感兴趣的院校师生。
? 对大数据有一定的基础,还想进一步熟悉整个生态系统的大数据爱好者。
勘误与支持
尽管我们仔细对待本书的写作,由于水平和能力有限,错误还是不可避免的。如果你在书中发现不妥或错误之处,请访问http://www.feiguyun.com/support,留下宝贵意见,我们将非常感谢你的支持和帮助。
致谢
首先要感谢大数据实战团队,参与飞谷云大数据公益项目(www.feiguyun.com)的所有大数据爱好者,正是有了大家的支持和积极参与,才使得从飞谷一期的四个人,发展到目前飞谷七期的近四百人,短短一年多的时间,让我们真正感受到了共同坚持、诚信进取、协同分享的飞谷价值观所带来的收获和快乐,每期的项目线下启动会、交流会、项目结束总结会总能感受到大家积极参与的热情!同时也要感谢苏州大学计算机科学与技术学院何书萍老师、上海理工大学管理学院张帆老师、上海交通大学大数据分析俱乐部蒋军杰同学、中国社科院研究生院孙思栋同学、上海华师大数据分析俱乐部罗玉雪同学、上海大学黄文成同学等。
此外,要感谢飞谷管理团队的各位老师:陈健、刘军、吴嘉瑜、张勤池、王继红、张海峰、许小平、陶方震和刘李涛。诸君对飞谷大数据项目的热心参与及全力配合,是此公益项目得以持续推进的不懈动力。特别感谢为飞谷云提供实战项目的企业数据负责人;飞谷七期电商比价项目提供者——张晓雷先生及飞谷八期汽车推荐模型需求提供者——章水鑫先生,正是有了你们提供的需求、数据和业务指导,才使得飞谷大数据小伙伴们有了学习大数据的真实场景,在实践中体会大数据分析价值和魅力。
飞谷云在全国一些大学还建立了交流群,作为每个群的组织者:中国科技大学张海洋同学、河南工程学院孟祥杰同学、南京农业大学邬家栋同学、西安电子科技大学刘东航同学等,为飞谷公益项目在院校中的推广,亦发挥了积极作用,在此一并表示感谢。