深入大型数据集:并行与分布化Python代码
  • 推荐0
  • 收藏0
  • 浏览572

深入大型数据集:并行与分布化Python代码

John T. Wolohan (作者)  张若飞 (译者)

  • 书  号:978-7-121-40368-2
  • 出版日期:2021-01-15
  • 页  数:
  • 开  本:
  • 出版状态:上市销售
  • 维护人:张春雨
本书共分 3 部分,主要介绍如何使用 Python 语言来处理大型数据集。第 1 部分介绍 map 和reduce 的编程风格,以及 Python 中基础的 map 和 reduce 函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第 2 部分介绍 Hadoop 和 Spark 框架,如何使用 mrjob 库来编写 Hadoop 作业,跟读者一起来实现一个 PageRank 算法,以及如何使用 Spark来实现决策树和随机森林的机器学习模型。第 3 部分重点介绍云计算和云存储的基础知识,包括如何通过 boto3 的 Python 库将文件上传到 AWS S3 服务,以及如何在 AWS 的 EMR 集群中运行分布式的 Hadoop 和 Spark 作业。
译者:张若飞,曾任多家互联网金融公司CTO,在宜人贷、雅虎北研、金山云等知名公司担任架构师。十余年互联网研发及技术管理经验,对搭建海量数据、大型分布式系统有丰富经验。著有十余本技术译著,包括《Grails权威指南》《给大忙人看的JavaSE 8》《代码不朽:编写可维护软件的十大原则》《面向可伸缩架构》《云原生Java》《云原生模式》等书,总计400余万字。

目录

读者评论