大数据是这样计算的:XLab实例入门
  • 推荐1
  • 收藏1
  • 浏览841

大数据是这样计算的:XLab实例入门

杨旭 (作者)  李云静 (责任编辑)

  • 丛  书:大数据丛书,阿里巴巴集团技术丛书
  • 书  号:978-7-121-28231-7
  • 出版日期:2016-04-08
  • 页  数:340
  • 开  本:16(185*230)
  • 出版状态:上市销售
  • 维护人:刘皎
随着大数据分析方法的发展,分析工具的改进,大数据分析的门槛降低了。基于大数据算法平台,数据分析师们已经不再被数据的“大”所困扰,可以轻松地探索大数据,挖掘大数据的价值。
本书侧重介绍大数据分析方法和算法的应用,适合对大数据分析感兴趣的读者阅读。在内容的组织上,选取了10个不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,和读者一起体验数据探索、数据分析、建模预测的过程;通过实例计算的结果,读者会更加了解各种方法和算法的长处和局限。本书的实例都运行在大数据算法平台XLab上。
结合多个具体案例,将大数据分析计算的脉络直观、清晰地展现给读者。
推荐序一
阿里云副总裁
周靖人
阿里巴巴的大数据算法平台作为支持天猫、淘宝和支付宝等各种业务的基石,每天有数千名的阿里工程师在平台上处理各式各样的海量数据。作者多年来一直从事阿里巴巴的大数据算法平台的研发,致力于帮助工程师更快捷、更高效地挖掘大数据,进行复杂多样的数据分析。作者根据自己在阿里大数据计算方面的所见所闻,结合多个具体的案例分析,将大数据分析计算的脉络直观、清晰地展现给读者。
本书集中在大数据分析实战上,精选了不同行业和领域的数据集,重点讲解大数据的分析方法和算法。本书的每一个章节都围绕一个实际数据集,从数据探索入手,根据数据自身的特点选取相应的分析方法,并对相关算法和方法进行简要介绍,便于读者理解掌握。同时,本书注重计算结果的分析,使读者对算法的效果有具体的印象,加强对算法的理解。它是大数据领域一本难得的实用好书!
推荐序二
蚂蚁金服副总裁、首席数据科学家
漆远
本书立足于阿里巴巴成熟的大数据算法平台,读者在分析实例时,可以直接关注思路和算法,省去了如何编写复杂的分布式代码实现一个常用算法的困扰。本书的学习门槛低,读者如果用过MATLAB、SAS、R或Excel等任何一款数据分析软件,就可以轻松读懂本书。
作者是阿里巴巴一个核心MPI大数据算法平台的主要建设者和领头人,其开发的算法平台在阿里巴巴和蚂蚁金服集团都广泛使用,很好地支持了数据分析师和工程师的工作。作者结合自身的丰富经验,通过具体案例全面地解析数据探索过程,讲解思路、具体算法的使用及技巧,实战性强:面对具体的数据,引入适合的算法,有简明的算法原理介绍;通过算法应用到数据后的效果展示,读者能感性地了解该算法的作用。
本书可以帮助对大数据分析感兴趣的初学者了解该领域,提高自己在该领域的知识积累。本书所讨论的十多个数据集,涉及不同的场景,用到了各种统计分析和机器学习的算法,可以帮助正在从事该领域的专业人士扩宽知识面,增强大数据实战能力。
看完这本书,也许你会揭下大数据神秘的“面纱”,然后发现它很有意思、很有用!
前言
随着大数据分析方法的发展、分析工具的改进,大数据分析的门槛降低了。基于大数据算法平台,数据分析师们已经不再被数据的“大”所困扰,他们可以轻松地探索大数据,挖掘大数据的价值。
本书希望将最新的、常用的大数据分析方法和算法介绍给读者。在内容的组织上,选取了10个不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,和读者一起体验数据探索、数据分析、建模预测的过程;通过实例计算的结果,我们会更加了解各种方法和算法的长处和局限。本书的实例都运行在大数据算法平台XLab上。
XLab是阿里巴巴集团内部最大的大数据算法平台,集统计、机器学习、数据分析、挖据和处理于一体,致力于帮助用户享受最新的算法研究成果,使其无须关注算法的底层实现和性能调优,专注数据探索和算法尝试,从而快速地进行业务调整,搭建线上业务。在阿里集团外,大家也有机会接触到XLab,参加2014年阿里巴巴大数据竞赛的几百支高校学生队伍,正是使用XLab来进行大数据分析预测的;面对淘宝商家的数据开发平台,“御膳房”(http://clouddata.taobao.com/)便使用了XLab的分布式算法库XLib。
本书每章一个实例,每个实例各有特点,每章所用的方法也各有侧重,我简单归纳如下,希望能帮助读者把握本书脉络,选择阅读重点。
第1章
围绕着人口普查数据,演示了一些常用的方法,譬如:对数据进行可视化,计算常用统计量,进行多维对应分析,根据数据建立模型判断年收入水平等,希望读者能体会到:大数据分析还是很简单、自然的。
第2章
概略介绍XLab的功能,希望大家能对大数据算法平台有个总体了解。
第3章
分析全球机场信息数据,亮点是地理位置信息(经度、纬度、海拔高度)可视化。
第4章
围绕纽约证券交易所的25家上市公司的股票价格,进行数据预处理、趋势显示和主成分分析。
第5章
分析标准普尔500指数,展示如何通过散布图矩阵,快速发现各数据列间的线性关系;如何将扩展直方图与方差、变异系数等统计量相结合,探寻规律;本章还会将标准普尔500指数与前一章的主成分分析结果进行对比。
第6章
针对鸢尾花数据集,讲解聚类分析中常用的两种方法:K-Means聚类和EM聚类,通过在鸢尾花数据上的实验效果,读者能了解这两种方法擅长处理的情况;在本章后半部分,实验、对比了各种分类算法在该数据集上的效果。
第7章
MovieLens数据集记录了电影信息和观众对电影的打分记录。首先,计算得到各种排行榜,进一步对影片进行关联分析,即如果知道某个观众看了影片A和B,我们可以推测该观众可能还看过哪部其他影片?
第8章
关于汽车评价数据集,重点关注:使用对应分析的方法,将各个属性值间的关系图示化;如何将数据所描述的规则,转换为更为形象和易用的树形决策过程。
第9章
关于Twitter数据,首先尝试不同的统计方法,一起发现些有意思的现象;还可以针对Twitter的关注关系构成的网络,实验信息传播的速度;最后,使用PageRank等方法,我们可以排出这个网络中最重要的人物。
第10章
展示如何生成大规模的随机数据,并演示了两个神奇的例子。
第11章
为新浪网页数据,本章的重点是处理自然语言数据,介绍常用的算法:归一化、分词、TF-IDF值、选择特征等;主题模型是本章的重点,发掘众多文档后面的主题,找出相似的文档;最后介绍奇妙的Word2Vec算法。
第12章
针对2014年阿里巴巴大数据竞赛的赛题数据,展示了完整的大数据问题分析、数据预处理、特征构造、数据集划分、模型训练、预测评估过程。
另外,如果读者对XLab底层算法的实现感兴趣,建议参考我的另一本书《重构大数据统计》。面对海量数据,即使是基本的统计计算,考虑到计算时间和资源消耗,也不能简单地将教科书上的算法并行化,而是要在计算理论和计算方法上进行创新。
因作者水平有限,书中难免有不妥或疏漏之处,敬请广大专家和读者批评、指正!我的电子邮件地址为:yangxu@alibaba-inc.com。
最后,感谢一起做XLab的各位阿里同事!感谢家人的理解和支持!
杨旭
2016年3月

目录

目录 阅读
第1章 入门
第2章 简介
第3章 全球机场信息
第4章 股票价格
第5章 标准普尔500指数
第6章 鸢尾花数据集
第7章 MovieLens数据集
第8章 汽车评价数据集
第9章 Twitter数据
第10章 随机数据
第11章 新浪网页数据
第12章 2014年阿里巴巴大数据竞赛

读者评论

  • 侧重介绍大数据分析方法和算法的应用,选取不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,书中讲述的实例可以拿来直接运行在大数据算法平台XLab上。非常适合对大数据分析感兴趣的人阅读。

    伙计发表于 2017/3/3 11:35:10

电子书版本

  • Epub
  • Mobi

推荐用户

同系列书

  • 大数据是这样计算的:XLab实例入门

    杨旭 (作者)

    随着大数据分析方法的发展,分析工具的改进,大数据分析的门槛降低了。基于大数据算法平台,数据分析师们已经不再被数据的“大”所困扰,可以轻松地探索大数据,挖掘大数据...

    ¥59.00

相关图书

Unreal Engine 4可视化设计:交互可视化、动画与渲染开发绝艺

Tom Shannon (作者) 龚震宇 (译者)

Shannon回答了有关UE4可视化问题的常见问题,解决了从数据导入和处理到照明、高级材料和渲染等问题。他揭示了UE4与传统渲染系统重要的不同之处,即使它们使用...

 

虫术——Python绝技

梁睿坤 (作者)

本书以大数据应用方面常用的语言Python为基础,从网络爬虫的实现原理入手,逐步引领读者进入网络爬虫的世界。在各类爬虫框架中,将Scrapy作为轴心,从多个维度...

¥99.00

Scala高性能编程

Vincent Theron (作者) 杨云 (译者)

Scala是一种表达能力非常强的语言,能够用非常简洁的代码表达丰富的业务含义。为了在生产上充分发挥Scala的能力,除了掌握其简洁的语法外,理解Scala在性能...

¥69.00

网络爬虫全解析——技术、原理与实践

罗刚 (作者)

本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4...

¥49.00

全栈数据之门

任柳江 (作者)

本书以数据分析领域最热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange ...

¥49.00

Druid实时大数据分析原理与实践

欧阳辰 刘麒贇 张海雷 高振源 许哲 (作者)

Druid 作为一款开源的实时大数据分析软件,最近几年快速风靡全球互联网公司,特别是对于海量数据和实时性要求高的场景,包括广告数据分析、用户行为分析、数据统计分...

¥59.00