深入大型数据集：并行与分布化Python代码-图书

推荐0
收藏0
浏览718

深入大型数据集：并行与分布化Python代码

John T. Wolohan (作者)　张若飞 (译者)

书　　号：978-7-121-40368-2
出版日期：2021-01-15
页　　数：
开　　本：
出版状态：上市销售
维护人：张春雨

本书共分 3 部分，主要介绍如何使用 Python 语言来处理大型数据集。第 1 部分介绍 map 和reduce 的编程风格，以及 Python 中基础的 map 和 reduce 函数，并介绍如何将对象持久化，通过惰性函数和并行函数来加快大型数据集的处理速度。第 2 部分介绍 Hadoop 和 Spark 框架，如何使用 mrjob 库来编写 Hadoop 作业，跟读者一起来实现一个 PageRank 算法，以及如何使用 Spark来实现决策树和随机森林的机器学习模型。第 3 部分重点介绍云计算和云存储的基础知识，包括如何通过 boto3 的 Python 库将文件上传到 AWS S3 服务，以及如何在 AWS 的 EMR 集群中运行分布式的 Hadoop 和 Spark 作业。

译者：张若飞，曾任多家互联网金融公司CTO，在宜人贷、雅虎北研、金山云等知名公司担任架构师。十余年互联网研发及技术管理经验，对搭建海量数据、大型分布式系统有丰富经验。著有十余本技术译著，包括《Grails权威指南》《给大忙人看的JavaSE 8》《代码不朽：编写可维护软件的十大原则》《面向可伸缩架构》《云原生Java》《云原生模式》等书，总计400余万字。

图书分类

领导力Lead可持续战略成功：班长的战争

特色专题

帮助

深入大型数据集：并行与分布化Python代码

目录

读者评论

下载资源