随着大数据分析方法的发展,分析工具的改进,大数据分析的门槛降低了。基于大数据算法平台,数据分析师们已经不再被数据的“大”所困扰,可以轻松地探索大数据,挖掘大数据的价值。
本书侧重介绍大数据分析方法和算法的应用,适合对大数据分析感兴趣的读者阅读。在内容的组织上,选取了10个不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,和读者一起体验数据探索、数据分析、建模预测的过程;通过实例计算的结果,读者会更加了解各种方法和算法的长处和局限。本书的实例都运行在大数据算法平台XLab上。
结合多个具体案例,将大数据分析计算的脉络直观、清晰地展现给读者。
推荐序一
阿里云副总裁
周靖人
阿里巴巴的大数据算法平台作为支持天猫、淘宝和支付宝等各种业务的基石,每天有数千名的阿里工程师在平台上处理各式各样的海量数据。作者多年来一直从事阿里巴巴的大数据算法平台的研发,致力于帮助工程师更快捷、更高效地挖掘大数据,进行复杂多样的数据分析。作者根据自己在阿里大数据计算方面的所见所闻,结合多个具体的案例分析,将大数据分析计算的脉络直观、清晰地展现给读者。
本书集中在大数据分析实战上,精选了不同行业和领域的数据集,重点讲解大数据的分析方法和算法。本书的每一个章节都围绕一个实际数据集,从数据探索入手,根据数据自身的特点选取相应的分析方法,并对相关算法和方法进行简要介绍,便于读者理解掌握。同时,本书注重计算结果的分析,使读者对算法的效果有具体的印象,加强对算法的理解。它是大数据领域一本难得的实用好书!
推荐序二
蚂蚁金服副总裁、首席数据科学家
漆远
本书立足于阿里巴巴成熟的大数据算法平台,读者在分析实例时,可以直接关注思路和算法,省去了如何编写复杂的分布式代码实现一个常用算法的困扰。本书的学习门槛低,读者如果用过MATLAB、SAS、R或Excel等任何一款数据分析软件,就可以轻松读懂本书。
作者是阿里巴巴一个核心MPI大数据算法平台的主要建设者和领头人,其开发的算法平台在阿里巴巴和蚂蚁金服集团都广泛使用,很好地支持了数据分析师和工程师的工作。作者结合自身的丰富经验,通过具体案例全面地解析数据探索过程,讲解思路、具体算法的使用及技巧,实战性强:面对具体的数据,引入适合的算法,有简明的算法原理介绍;通过算法应用到数据后的效果展示,读者能感性地了解该算法的作用。
本书可以帮助对大数据分析感兴趣的初学者了解该领域,提高自己在该领域的知识积累。本书所讨论的十多个数据集,涉及不同的场景,用到了各种统计分析和机器学习的算法,可以帮助正在从事该领域的专业人士扩宽知识面,增强大数据实战能力。
看完这本书,也许你会揭下大数据神秘的“面纱”,然后发现它很有意思、很有用!
前言
随着大数据分析方法的发展、分析工具的改进,大数据分析的门槛降低了。基于大数据算法平台,数据分析师们已经不再被数据的“大”所困扰,他们可以轻松地探索大数据,挖掘大数据的价值。
本书希望将最新的、常用的大数据分析方法和算法介绍给读者。在内容的组织上,选取了10个不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,和读者一起体验数据探索、数据分析、建模预测的过程;通过实例计算的结果,我们会更加了解各种方法和算法的长处和局限。本书的实例都运行在大数据算法平台XLab上。
XLab是阿里巴巴集团内部最大的大数据算法平台,集统计、机器学习、数据分析、挖据和处理于一体,致力于帮助用户享受最新的算法研究成果,使其无须关注算法的底层实现和性能调优,专注数据探索和算法尝试,从而快速地进行业务调整,搭建线上业务。在阿里集团外,大家也有机会接触到XLab,参加2014年阿里巴巴大数据竞赛的几百支高校学生队伍,正是使用XLab来进行大数据分析预测的;面对淘宝商家的数据开发平台,“御膳房”(http://clouddata.taobao.com/)便使用了XLab的分布式算法库XLib。
本书每章一个实例,每个实例各有特点,每章所用的方法也各有侧重,我简单归纳如下,希望能帮助读者把握本书脉络,选择阅读重点。
第1章
围绕着人口普查数据,演示了一些常用的方法,譬如:对数据进行可视化,计算常用统计量,进行多维对应分析,根据数据建立模型判断年收入水平等,希望读者能体会到:大数据分析还是很简单、自然的。
第2章
概略介绍XLab的功能,希望大家能对大数据算法平台有个总体了解。
第3章
分析全球机场信息数据,亮点是地理位置信息(经度、纬度、海拔高度)可视化。
第4章
围绕纽约证券交易所的25家上市公司的股票价格,进行数据预处理、趋势显示和主成分分析。
第5章
分析标准普尔500指数,展示如何通过散布图矩阵,快速发现各数据列间的线性关系;如何将扩展直方图与方差、变异系数等统计量相结合,探寻规律;本章还会将标准普尔500指数与前一章的主成分分析结果进行对比。
第6章
针对鸢尾花数据集,讲解聚类分析中常用的两种方法:K-Means聚类和EM聚类,通过在鸢尾花数据上的实验效果,读者能了解这两种方法擅长处理的情况;在本章后半部分,实验、对比了各种分类算法在该数据集上的效果。
第7章
MovieLens数据集记录了电影信息和观众对电影的打分记录。首先,计算得到各种排行榜,进一步对影片进行关联分析,即如果知道某个观众看了影片A和B,我们可以推测该观众可能还看过哪部其他影片?
第8章
关于汽车评价数据集,重点关注:使用对应分析的方法,将各个属性值间的关系图示化;如何将数据所描述的规则,转换为更为形象和易用的树形决策过程。
第9章
关于Twitter数据,首先尝试不同的统计方法,一起发现些有意思的现象;还可以针对Twitter的关注关系构成的网络,实验信息传播的速度;最后,使用PageRank等方法,我们可以排出这个网络中最重要的人物。
第10章
展示如何生成大规模的随机数据,并演示了两个神奇的例子。
第11章
为新浪网页数据,本章的重点是处理自然语言数据,介绍常用的算法:归一化、分词、TF-IDF值、选择特征等;主题模型是本章的重点,发掘众多文档后面的主题,找出相似的文档;最后介绍奇妙的Word2Vec算法。
第12章
针对2014年阿里巴巴大数据竞赛的赛题数据,展示了完整的大数据问题分析、数据预处理、特征构造、数据集划分、模型训练、预测评估过程。
另外,如果读者对XLab底层算法的实现感兴趣,建议参考我的另一本书《重构大数据统计》。面对海量数据,即使是基本的统计计算,考虑到计算时间和资源消耗,也不能简单地将教科书上的算法并行化,而是要在计算理论和计算方法上进行创新。
因作者水平有限,书中难免有不妥或疏漏之处,敬请广大专家和读者批评、指正!我的电子邮件地址为:yangxu@alibaba-inc.com。
最后,感谢一起做XLab的各位阿里同事!感谢家人的理解和支持!
杨旭
2016年3月
侧重介绍大数据分析方法和算法的应用,选取不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,书中讲述的实例可以拿来直接运行在大数据算法平台XLab上。非常适合对大数据分析感兴趣的人阅读。