Python+数据分析+机器学习,数据科学家最少必要知识库!

陈晓猛

2020-05-28

我们正处于一个数据科技(Data Technology,DT)时代。在这个时代,我们的一举一动都能在数据空间留下电子印记,海量的社交、电商、科研大数据扑面而来。然而,太多的数据给人们带来的,可能并不是更多的洞察,反而是迷失。

仅就数据本身而言,数据是“一无所知”的。数据的价值,在于形成信息,变成知识,乃至升华为智慧。也就是说,这些数据如果不能进一步被“深加工”,即使数据量再“大”,也意义甚小。

于是,就派生出这么一个问题:这些数据,由谁来深加工?

其实,早在2012年,《哈佛商业评论》就刊登了一篇文章并给出了答案,进行数据深加工的人就是“数据科学家”。文章还断言,数据科学家是21世纪最“性感”的职业。

但如何成为一名数据科学家呢?尤其是一名“性感”的数据科学家?

埃里克·莱斯(Eric Ries)曾写过一本有关创业的书,书名是《精益创业》(The Lean Startup)。这本书中有一个概念深入人心,那就是“最小可行产品”(Minimum Viable Product,MVP)。围绕这个概念,创业者在创业初期不可贪多求全,而应该先做出一个最小的可用产品,拿到市场上去检验,然后根据反馈反复迭代,打磨升级,最终做出比较完善、比较成功的产品。

后来,有人提出了类似的概念—— 最少必要知识 (Minimal Actionable Knowledge and Experience,MAKE)。这个概念让人恍然大悟!“如何成为一名数据科学家”这个问题的答案也几乎呼之欲出——You can MAKE it!

最少必要知识

先来说说什么是MAKE。它指的是入门某个新领域切实可行的最小知识集合。MAKE说起来好像比较高级,但实际上,它背后有一个支撑它的朴素原则——Pareto原则(亦称80-20原则),即80%的工作问题可以通过掌握20%的知识来解决。

同样,想成为一名“性感”的数据科学家,一条路自然是按部就班地学习所有技能——十年磨一剑,但这样做的风险在于,当你“携剑下山”时,别人可能已经用上了飞机、大炮。这样的对垒,你胜算几何?

其实还有另一条备选之路,那就是走一走MAKE之道。

在学习某项技能(如Python、数据分析、机器学习)时,我们要想办法在最短的时间内,摸索清楚这项技能的“最少必要知识”。一方面,它已然可以帮我们解决工作中的大部分问题;另一方面,入门之后,技能的提升通道可以在实践中寻得,缺啥补啥。有明确的任务导向,学习就会有如神助,这也是当前时代的快节奏学习法。

数据科学的“最少必要知识”

《Python极简讲义:一本书入门数据分析与机器学习》一书的定位就是,为初学者提供关于数据科学的“最少必要知识”,从而让你获得那份最“性感”的工作。这些知识包含了成为数据科学家所需要掌握的基础内容——

  • Python编程

  • 数据分析

  • 机器学习

/ 张玉宏 著 /

这本书共分10章,涉及的知识点很多,但精而不杂,层层递进。就像上面所提到的,这些知识点就是入门数据分析与机器学习的“最少必要知识”。按照大的范围来看,这本书涉及的内容大概可以分为三个维度:Python语法及技巧、数据分析必备技能、机器学习相关知识。

具体来说,每一章的内容简介如下。

※ 第1章 初识Python与Jupyter

Python是最具人气的编程语言之一,Jupyter是人气与口碑俱佳的Python开发平台。本章将介绍Python和Jupyter的基本内容,包括Python的安装与运行,以及文学化编程利器Jupyter的使用方法。

※ 第2章 数据类型与程序控制结构

本章将介绍Python的基础语法及常见的数据类型,包括数值型、布尔类型、字符串型、列表、元组、字典、集合等。此外,本章还将介绍三种程序控制结构(顺序结构、选择结构和循环结构)和高效的推导式。

※ 第3章 自建Python模块与第三方模块

本章将介绍Python的自定义模块及常用的第三方模块,包括collection、datetime、json、random等模块。

※ 第4章 Python函数

本章将讨论Python的函数定义、函数参数(关键字参数、可变参数、默认参数等)的“花式”传递、函数的递归调用,以及函数式编程。

※ 第5章 Python高级特性

本章将介绍Python中的一些高阶应用,这些高阶应用能让我们更高效地写出更专业的Python代码。本章内容涉及面向对象程序设计思想、生成器与迭代器、文件操作、异常处理及错误调试等。

※ 第6章 NumPy向量计算

本章将讨论NumPy数组的构建、方法和属性,介绍NumPy的广播机制、布尔索引、数组的堆叠,以及爱因斯坦求和约定等。

※ 第7章 Pandas数据分析

Pandas是数据分析的利器,本章将主要介绍Pandas的两种常用数据处理结构:Series和DataFrame。同时介绍基于Pandas的文件读取与分析,涉及数据的清洗、条件过滤、聚合与分组等。

※ 第8章 Matplotlib与Seaborn可视化分析

Matplotlib和Seaborn是非常好用的数据可视化包,本章将主要介绍Matplotlib和Seaborn的基本用法,并基于此绘制可视化图形,包括散点图、条形图、直方图、饼图等。同时,本章将以谷歌流感趋势数据为例,结合Pandas进行可视化分析。

※ 第9章 机器学习初步

本章将主要介绍有关机器学习的初步知识,包括机器学习的定义,机器学习的几个主要流派,并讨论机器学习模型的性能评估指标,包括混淆矩阵、查准率、查全率、P-R曲线、ROC曲线等。

※ 第10章 sklearn与经典机器学习算法

本章将主要讲解知名机器学习框架sklearn的用法,并介绍几种经典机器学习算法的原理和实战,这些算法包括线性回归、k-近邻算法、Logistics回归、神经网络学习算法、k均值聚类算法等。

通过阅读这本书,大家不仅可以走好MAKE之道,还能找到一条不错的人工智能学习曲线!赶紧读起来吧!

扫码获取本书详情

本书作者与行业大咖的精彩对谈

由陈开江、林欣、张威、张玉宏、郑泽宇五位人工智能领域大咖联手带来的人工智能学习路线。分享中围绕人工智能领域的人才培养、入职法则、核心技能、应用落地、未来前景等热门话题,展开了深入讨论,为大家答疑解惑。并在最后分享了一张宝贵的人工智能学习路线图。

欢迎大家识别下方二维码,重温这场知识盛宴。

▲扫码收看回放▲

读者评论

相关博文

  • 社区使用反馈专区

    陈晓猛 2016-10-04

    尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...

    陈晓猛 2016-10-04
    5416 735 3 7
  • 迎战“双12”!《Unity3D实战核心技术详解》独家预售开启!

    陈晓猛 2016-12-05

    时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...

    陈晓猛 2016-12-05
    3299 36 0 1
  • czk 2017-07-29
    5865 28 0 1