Spark MLlib机器学习:算法、源码及实战详解
  • 推荐0
  • 收藏1
  • 浏览904

Spark MLlib机器学习:算法、源码及实战详解

黄美灵 (作者)  李云静 (责任编辑)

  • 书  号:978-7-121-28214-0
  • 出版日期:2016-04-05
  • 页  数:404
  • 开  本:16(185*235)
  • 出版状态:上市销售
  • 维护人:付睿

相关图书

相关性搜索:利用Solr与Elasticsearch创建智能应用

Doug Turnbull John Berryman (作者) 莫映 蔡宇飞 殷志勇 (译者)

本书揭开了相关性搜索的神秘面纱,告诉大家如何将 Elasticsearch与 Solr这样的搜索引擎作为可编程的相关性框架,从而表达业务排名规则。从这本书中你可...

 

机器学习之路——Caffe、Keras、scikit-learn实战

阿布 胥嘉幸 (作者)

机器学习需要一条脱离过高理论门槛的入门之路。<br>本书《机器学习篇》从小红帽采蘑菇的故事开篇,介绍了基础的机器学习分类模型的训练(第1章)。如何评估、调试模型...

¥79.00

深度学习算法实践

吴岸城 (作者)

本书以一位软件工程师的转型故事为线索,讲述算法思维的建立及实践。第1章主要讲解如何从传统的工程思维转入算法思维,第2-5章分别阐述文本处理、视觉识别、Bot机器...

¥79.00

Python机器学习算法

赵志勇 (作者)

本书是一本机器学习入门读物,注重理论与实践的结合。全书主要包括6个部分,每个部分均以典型的机器学习算法为例,从算法原理出发,由浅入深,详细分析算法的理论,并配合...

¥69.00

Spark:大数据集群计算的生产实践

李刚 (作者) 李刚 (译者)

本书针对spark从验证性环境迁移到实际生产环境时会遇到的各种问题给出了实际的帮助,涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。全书分为6章...

¥65.00

零起点Python足彩大数据与机器学习实盘分析

何海群 (作者)

本书采用Python编程语言、Pandas数据分析模块、机器学习和人工智能算法,对足彩大数据进行实盘分析。设计并发布了开源大数据项目zc-dat足彩数据包,汇总...

¥69.00
本书以Spark 1.4.1版本源码为切入点,全面并且深入地解析Spark MLlib模块,着力于探索分布式机器学习的底层实现。
本书循序渐进,首先解析MLlib的底层实现基础:数据操作及矩阵向量计算操作,该部分是MLlib实现的基础;其次再对各个机器学习算法的理论知识进行讲解,并且解析机器学习算法如何在MLlib中实现分布式计算;然后对MLlib源码进行详细的讲解;最后进行MLlib实例的讲解。相信通过本书的学习,读者可全面掌握Spark MLlib机器学习,能够进行MLlib实战、MLlib定制开发等。
前言 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科,其中大部分理论来源于18、19世纪,例如贝叶斯定理,是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出的重要概率论理论;而21世纪则侧重于如何将机器学习理论运用在工业化中,帮助改进性能及提升其效率。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。在算法设计方面,机器学习理论关注可以实现的、行之有效的学习算法;机器学习研究的不是求解精确的结果,而是研究开发容易处理的近似求解算法。尤其是在21世纪,知识和数据量爆发的时代,机器学习面临大数据的求解难题。随着数据量的增加,从传统的单机计算发展到大规模的集群计算,以至发展到今天的一种大规模、快速计算的集群平台—Apache Spark。Spark是一个开源集群运算框架,最初由加州大学伯克利分校AMP实验室开发。相对于Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中,Spark使用了内存内运算技术,能在资料尚未写入硬盘时即在内存内分析运算。Spark在内存上的运算速度比Hadoop MapReduce的运算速度快100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。本书侧重讲解Spark MLlib模块。Spark MLlib是一种高效、快速、可扩展的分布式计算框架,实现了常用的机器学习,如聚类、分类、回归等算法。本文循序渐进,从Spark的基础知识、矩阵向量的基础知识开始,然后再讲解各种算法的理论知识,以及Spark源码实现和实例实战,帮助读者从基础到实践全面掌握Spark MLlib分布式机器学习。学习本书需要的基础知识包括:Spark基础入门、Scala入门、线性代数基础知识。本书面向的读者:Spark开发者、大数据工程师、数据挖掘工程师、机器学习工程师、研究生和高年级本科生等。本书学习指南:
第一部分Spark MLlib基础Spark MLlib机器学习的基础包括:Spark数据操作、矩阵向量,它们都是各个机器学习算法的底层实现基础通过这部分掌握:RDD的基础操作、矩阵和向量的运算、数据格式等第1章Spark机器学习简介第2章Spark数据操作第3章Spark MLlib矩阵向量第二部分Spark MLlib回归算法Spark MLlib机器学习算法的全面解析。包含常见机器学习:回归、分类、聚类、关联、推荐和神经网络通过这部分掌握:机器学习算法理论知识、机器学习算法的分布实现方法、MLlib源码解析、实例解析 其中第14、15章是基于Spark MLlib上实现或者定制开发机器学习算法,读者可掌握分布式机器学习的开发 分布式机器学习的学习路径:理论→分布式实现逻辑→开发→实例第4章Spark MLlib线性回归算法第5章Spark MLlib逻辑回归算法第6章Spark MLlib保序回归算法第三部分Spark MLlib分类算法第7章Spark MLlib贝叶斯分类算法第8章Spark MLlib SVM支持向量机算法第9章Spark MLlib决策树算法第四部分Spark MLlib聚类算法第10章Spark MLlib KMeans聚类算法第11章Spark MLlib LDA主题模型算法第五部分Spark MLlib关联规则挖掘算法第12章Spark MLlib FPGrowth关联规则算法第六部分Spark MLlib推荐算法第13章Spark MLlib ALS交替最小二乘算法第14章Spark MLlib协同过滤推荐算法第七部分Spark MLlib神经网络算法第15章Spark MLlib神经网络算法综述
在本书的编写过程中,何娟、何丹、王蒙、叶月媚参与了全书的编写、整理及校对工作,刘程辉、李俊、廖宏参与了Spark集群运维和第2章数据操作的实例部分工作,刘晓宏、方佳武、于善龙参与了全书的实例部分工作。由于笔者水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。您也可以通过博客http://blog.csdn.net/sunbow0、邮箱humeli317@163.com和QQ群487540403联系到我,期待能够得到读者朋友们的真挚反馈,在技术之路上互勉共进。本书在写作的过程中,得到了很多朋友及同事的帮助和支持,在此表示衷心感谢!感谢久邦数码大数据团队的同事们。在两年的工作中,笔者得到了很多同事的指导、支持和帮助,尤其感谢杨树清、周小平、梁宁、刘程辉、刘晓宏、方佳武、于善龙、王蒙、叶月媚、廖宏、谭钊承、吴梦玲、邹桂芳、曹越等。感谢电子工业出版社的付睿编辑,她不仅积极策划和推动本书的出版,而且在写作过程中还给出了极为详细的改进意见。感谢电子工业出版社的李云静编辑为本书做了非常辛苦和专业的编辑工作。感谢我的父母和妻子,有了你们的帮助和支持,我才有时间和精力去完成写作。谨以此书献给热爱大数据技术的朋友们!
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科,其中大部分理论来源于18、19世纪,例如贝叶斯定理,是18世纪英国数学家托马斯?贝叶斯(Thomas Bayes)提出的重要概率论理论;而21世纪则侧重于如何将机器学习理论运用在工业化中,帮助改进性能及提升其效率。
机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。在算法设计方面,机器学习理论关注可以实现的、行之有效的学习算法;机器学习研究的不是求解精确的结果,而是研究开发容易处理的近似求解算法。尤其是在21世纪,知识和数据量爆发的时代,机器学习面临大数据的求解难题。
随着数据量的增加,从传统的单机计算发展到大规模的集群计算,以至发展到今天的一种大规模、快速计算的集群平台—Apache Spark。Spark是一个开源集群运算框架,最初由加州大学伯克利分校AMP实验室开发。相对于Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中,Spark使用了内存内运算技术,能在资料尚未写入硬盘时即在内存内分析运算。Spark在内存上的运算速度比Hadoop MapReduce的运算速度快100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。
本书侧重讲解Spark MLlib模块。Spark MLlib是一种高效、快速、可扩展的分布式计算框架,实现了常用的机器学习,如聚类、分类、回归等算法。本文循序渐进,从Spark的基础知识、矩阵向量的基础知识开始,然后再讲解各种算法的理论知识,以及Spark源码实现和实例实战,帮助读者从基础到实践全面掌握Spark MLlib分布式机器学习。
学习本书需要的基础知识包括:Spark基础入门、Scala入门、线性代数基础知识。
本书面向的读者:Spark开发者、大数据工程师、数据挖掘工程师、机器学习工程师、研究生和高年级本科生等。
本书学习指南:
第一部分 Spark MLlib基础
Spark MLlib机器学习的基础包括:Spark数据操作、矩阵向量,它们都是各个机器学习算法的底层实现基础
通过这部分掌握:RDD的基础操作、矩阵和向量的运算、数据格式等
第1章 Spark机器学习简介
第2章 Spark数据操作
第3章 Spark MLlib矩阵向量
第二部分 Spark MLlib回归算法
Spark MLlib机器学习算法的全面解析。包含常见机器学习:回归、分类、聚类、关联、推荐和神经网络
通过这部分掌握:机器学习算法理论知识、机器学习算法的分布实现方法、MLlib源码解析、实例解析
其中第14、15章是基于Spark MLlib上实现或者定制开发机器学习算法,读者可掌握分布式机器学习的开发分布式机器学习的学习路径:理论→分布式实现逻辑→开发→实例
第4章 Spark MLlib线性回归算法
第5章 Spark MLlib逻辑回归算法
第6章 Spark MLlib保序回归算法
第三部分 Spark MLlib分类算法
第7章 Spark MLlib贝叶斯分类算法
第8章 Spark MLlib SVM支持向量机算法
第9章 Spark MLlib决策树算法
第四部分 Spark MLlib聚类算法
第10章 Spark MLlib KMeans聚类算法
第11章 Spark MLlib LDA主题模型算法
第五部分 Spark MLlib关联规则挖掘算法
第12章 Spark MLlib FPGrowth关联规则算法
第六部分 Spark MLlib推荐算法
第13章 Spark MLlib ALS交替最小二乘算法
第14章 Spark MLlib 协同过滤推荐算法
第七部分 Spark MLlib神经网络算法
第15章 Spark MLlib神经网络算法综述
在本书的编写过程中,何娟、何丹、王蒙、叶月媚参与了全书的编写、整理及校对工作,刘程辉、李俊、廖宏参与了Spark集群运维和第2章数据操作的实例部分工作,刘晓宏、方佳武、于善龙参与了全书的实例部分工作。
由于笔者水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。您也可以通过博客http://blog.csdn.net/sunbow0、邮箱humeli317@163.com和QQ群487540403联系到我,期待能够得到读者朋友们的真挚反馈,在技术之路上互勉共进。
本书在写作的过程中,得到了很多朋友及同事的帮助和支持,在此表示衷心感谢!
感谢久邦数码大数据团队的同事们。在两年的工作中,笔者得到了很多同事的指导、支持和帮助,尤其感谢杨树清、周小平、梁宁、刘程辉、刘晓宏、方佳武、于善龙、王蒙、叶月媚、廖宏、谭钊承、吴梦玲、邹桂芳、曹越等。
感谢电子工业出版社的付睿编辑,她不仅积极策划和推动本书的出版,而且在写作过程中还给出了极为详细的改进意见。感谢电子工业出版社的李云静编辑为本书做了非常辛苦和专业的编辑工作。
感谢我的父母和妻子,有了你们的帮助和支持,我才有时间和精力去完成写作。
谨以此书献给热爱大数据技术的朋友们!

目录

目录 阅读
第1部分 Spark MLlib基础
第1章 Spark机器学习简介
第2章 Spark数据操作
第3章 Spark MLlib矩阵向量
第2部分 Spark MLlib回归算法
第4章 Spark MLlib线性回归算法
第5章 Spark MLlib逻辑回归算法
第6章 Spark MLlib保序回归算法
第3部分 Spark MLlib分类算法
第7章 Spark MLlib贝叶斯分类算法 170
第8章 Spark MLlib SVM支持向量机算法
第9章 Spark MLlib决策树算法
第4部分 Spark MLlib聚类算法
第10章 Spark MLlib KMeans聚类算法
第11章 Spark MLlib LDA主题模型算法
第5部分 Spark MLlib关联规则挖掘算法
第12章 Spark MLlib FPGrowth关联规则算法
第13章 Spark MLlib ALS交替最小二乘算法 310
第6部分 Spark MLlib推荐算法
第14章 Spark MLlib协同过滤推荐算法
第7部分 Spark MLlib神经网络算法
第15章 Spark MLlib神经网络算法综述

读者评论