大数据是这样计算的：XLab实例入门-图书

推荐1
收藏1
浏览971

大数据是这样计算的：XLab实例入门

杨旭 (作者)　李云静 (责任编辑)

丛　　书：大数据丛书，阿里巴巴集团技术丛书
书　　号：978-7-121-28231-7
出版日期：2016-04-08
页　　数：340
开　　本：16(185*230)
出版状态：上市销售
维护人：刘皎

电子书￥59.00

购买电子书

纸质版￥79.00

随着大数据分析方法的发展，分析工具的改进，大数据分析的门槛降低了。基于大数据算法平台，数据分析师们已经不再被数据的“大”所困扰，可以轻松地探索大数据，挖掘大数据的价值。
本书侧重介绍大数据分析方法和算法的应用，适合对大数据分析感兴趣的读者阅读。在内容的组织上，选取了10个不同领域的真实数据集，针对每个数据的特点，选择适合的方法和算法，和读者一起体验数据探索、数据分析、建模预测的过程；通过实例计算的结果，读者会更加了解各种方法和算法的长处和局限。本书的实例都运行在大数据算法平台XLab上。

结合多个具体案例，将大数据分析计算的脉络直观、清晰地展现给读者。

推荐序一
阿里云副总裁
周靖人
阿里巴巴的大数据算法平台作为支持天猫、淘宝和支付宝等各种业务的基石，每天有数千名的阿里工程师在平台上处理各式各样的海量数据。作者多年来一直从事阿里巴巴的大数据算法平台的研发，致力于帮助工程师更快捷、更高效地挖掘大数据，进行复杂多样的数据分析。作者根据自己在阿里大数据计算方面的所见所闻，结合多个具体的案例分析，将大数据分析计算的脉络直观、清晰地展现给读者。
本书集中在大数据分析实战上，精选了不同行业和领域的数据集，重点讲解大数据的分析方法和算法。本书的每一个章节都围绕一个实际数据集，从数据探索入手，根据数据自身的特点选取相应的分析方法，并对相关算法和方法进行简要介绍，便于读者理解掌握。同时，本书注重计算结果的分析，使读者对算法的效果有具体的印象，加强对算法的理解。它是大数据领域一本难得的实用好书！
推荐序二
蚂蚁金服副总裁、首席数据科学家
漆远
本书立足于阿里巴巴成熟的大数据算法平台，读者在分析实例时，可以直接关注思路和算法，省去了如何编写复杂的分布式代码实现一个常用算法的困扰。本书的学习门槛低，读者如果用过MATLAB、SAS、R或Excel等任何一款数据分析软件，就可以轻松读懂本书。
作者是阿里巴巴一个核心MPI大数据算法平台的主要建设者和领头人，其开发的算法平台在阿里巴巴和蚂蚁金服集团都广泛使用，很好地支持了数据分析师和工程师的工作。作者结合自身的丰富经验，通过具体案例全面地解析数据探索过程，讲解思路、具体算法的使用及技巧，实战性强：面对具体的数据，引入适合的算法，有简明的算法原理介绍；通过算法应用到数据后的效果展示，读者能感性地了解该算法的作用。
本书可以帮助对大数据分析感兴趣的初学者了解该领域，提高自己在该领域的知识积累。本书所讨论的十多个数据集，涉及不同的场景，用到了各种统计分析和机器学习的算法，可以帮助正在从事该领域的专业人士扩宽知识面，增强大数据实战能力。
看完这本书，也许你会揭下大数据神秘的“面纱”，然后发现它很有意思、很有用！
前言
随着大数据分析方法的发展、分析工具的改进，大数据分析的门槛降低了。基于大数据算法平台，数据分析师们已经不再被数据的“大”所困扰，他们可以轻松地探索大数据，挖掘大数据的价值。
本书希望将最新的、常用的大数据分析方法和算法介绍给读者。在内容的组织上，选取了10个不同领域的真实数据集，针对每个数据的特点，选择适合的方法和算法，和读者一起体验数据探索、数据分析、建模预测的过程；通过实例计算的结果，我们会更加了解各种方法和算法的长处和局限。本书的实例都运行在大数据算法平台XLab上。
XLab是阿里巴巴集团内部最大的大数据算法平台，集统计、机器学习、数据分析、挖据和处理于一体，致力于帮助用户享受最新的算法研究成果，使其无须关注算法的底层实现和性能调优，专注数据探索和算法尝试，从而快速地进行业务调整，搭建线上业务。在阿里集团外，大家也有机会接触到XLab，参加2014年阿里巴巴大数据竞赛的几百支高校学生队伍，正是使用XLab来进行大数据分析预测的；面对淘宝商家的数据开发平台，“御膳房”（http://clouddata.taobao.com/）便使用了XLab的分布式算法库XLib。
本书每章一个实例，每个实例各有特点，每章所用的方法也各有侧重，我简单归纳如下，希望能帮助读者把握本书脉络，选择阅读重点。
第1章
围绕着人口普查数据，演示了一些常用的方法，譬如：对数据进行可视化，计算常用统计量，进行多维对应分析，根据数据建立模型判断年收入水平等，希望读者能体会到：大数据分析还是很简单、自然的。
第2章
概略介绍XLab的功能，希望大家能对大数据算法平台有个总体了解。
第3章
分析全球机场信息数据，亮点是地理位置信息（经度、纬度、海拔高度）可视化。
第4章
围绕纽约证券交易所的25家上市公司的股票价格，进行数据预处理、趋势显示和主成分分析。
第5章
分析标准普尔500指数，展示如何通过散布图矩阵，快速发现各数据列间的线性关系；如何将扩展直方图与方差、变异系数等统计量相结合，探寻规律；本章还会将标准普尔500指数与前一章的主成分分析结果进行对比。
第6章
针对鸢尾花数据集，讲解聚类分析中常用的两种方法：K-Means聚类和EM聚类，通过在鸢尾花数据上的实验效果，读者能了解这两种方法擅长处理的情况；在本章后半部分，实验、对比了各种分类算法在该数据集上的效果。
第7章
MovieLens数据集记录了电影信息和观众对电影的打分记录。首先，计算得到各种排行榜，进一步对影片进行关联分析，即如果知道某个观众看了影片A和B，我们可以推测该观众可能还看过哪部其他影片？
第8章
关于汽车评价数据集，重点关注：使用对应分析的方法，将各个属性值间的关系图示化；如何将数据所描述的规则，转换为更为形象和易用的树形决策过程。
第9章
关于Twitter数据，首先尝试不同的统计方法，一起发现些有意思的现象；还可以针对Twitter的关注关系构成的网络，实验信息传播的速度；最后，使用PageRank等方法，我们可以排出这个网络中最重要的人物。
第10章
展示如何生成大规模的随机数据，并演示了两个神奇的例子。
第11章
为新浪网页数据，本章的重点是处理自然语言数据，介绍常用的算法：归一化、分词、TF-IDF值、选择特征等；主题模型是本章的重点，发掘众多文档后面的主题，找出相似的文档；最后介绍奇妙的Word2Vec算法。
第12章
针对2014年阿里巴巴大数据竞赛的赛题数据，展示了完整的大数据问题分析、数据预处理、特征构造、数据集划分、模型训练、预测评估过程。
另外，如果读者对XLab底层算法的实现感兴趣，建议参考我的另一本书《重构大数据统计》。面对海量数据，即使是基本的统计计算，考虑到计算时间和资源消耗，也不能简单地将教科书上的算法并行化，而是要在计算理论和计算方法上进行创新。
因作者水平有限，书中难免有不妥或疏漏之处，敬请广大专家和读者批评、指正！我的电子邮件地址为：yangxu@alibaba-inc.com。
最后，感谢一起做XLab的各位阿里同事！感谢家人的理解和支持！
杨旭
2016年3月