#重磅新书预告#大数据时代,做优秀的数据科学家

Jessica瑾妞

2017-03-13

“大家还没搞清 PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”马云在 2013年淘宝十周年晚会上的这句话,仿佛一下子拉开了大数据时代的序幕。新的时代,需要新的技术;新的技术,需要新的人才。

在这个大数据时代,时下热门职业是数据科学家,而不是传统的信息科学家,也不是大数据工程师。今天小编为大家介绍一本《Python大战机器学习:数据科学家的第一个小目标》,为你讲解什么是数据科学家,如何成为数据科学家,怎样才能做一个优秀的数据科学家!

谁才是数据科学家?

大数据时代,做大数据分析的人有了一个更“性感”的名字,叫做数据科学家( Data Scientist)。《哈佛商业评论》声称, 21世纪最富挑战的工作是数据科学家。时下最热门的职业是数据科学家,而不是传统的信息科学家,也不是大数据工程师。

在数据科学家必备的技能中,机器学习和 Python应该是位列前五的两项。机器学习炙手可热,在互联网、金融保险、制造业、零售业、医疗等产业领域发挥了越来越大的作用,关注度也越来越高。而 Python则是最 in的语言,“人生苦短,我用 Python”ˆˆ

关于《Python大战机器学习:数据科学家的第一个小目标》

全书分 13章进行展开,从内容上分为四篇:机器学习基础篇、机器学习高级篇、机器学习工程篇和 Kaggle实战篇。

第一篇:机器学习基础篇(第 1~6章)

包括线性模型、决策树、贝叶斯分类、k近邻法、数据降维、聚类和 EM算法等内容。

这些基础算法非常经典,原理也相对简单,是入门的最佳选择,掌握这些算法,才能更好地理解后续的高级算法。非菜鸟可以直接忽略这部分。

第二篇:机器学习高级篇(第 7~10章)

包括支持向量机、人工神经网络、半监督学习和集成学习等内容。

这些高级算法是目前应用非常广泛,也是效果不错的算法,需要深入理解算法的原理、优劣势等特点以及应用场景,要能达到应用自如的程度。

第三篇:机器学习工程篇(第 11~12章)

讲述机器学习工程中的实际技术,包括数据预处理,模型评估、选择与验证等内容。

数据清洗、数据预处理和模型评估选择在实际中非常重要,在整个工程项目的开发过程中通常占到一半以
上的时间,这部分给出的一些步骤和方法是实践的精华,值得熟练掌握。

第四篇:Kaggle实战篇(第 13章)

Step-by-step讲述一个 Kaggle竞赛题目的实战,有代码,有分析。

Kaggle是目前顶级的数据科学比赛平台,很多机器学习的牛人都在这里玩过,咱们可以学习牛人好的算法,也可以启发自己的思路。对于梦想成为牛人的您,还是去里面混混先:)万一拿了个好的名次呢,拿个一流公司的 offr还是很 easy的。

怎么用《Python大战机器学习:数据科学家的第一个小目标》?

机器学习既有算法又有实现,还是比较高深的,算法太难,啃不动,代码太浅,钻不下去。作者的目标是让您快速上手,在内容组织上是动了心思的,采用“原理笔记精华 +算法 Python实现 +问题实例 +实际代码 +运行调参”的形式,理论与实践交织着展开,算法原理与编程实战并重。

认识作者

本人华校专,性别男,爱好女,湖北黄冈人。 2004年我考入清华大学航天学院工程力学系,喜欢读书,在清华的四年我每年的成绩都是本系的 Top1。在清华园里我养成了记笔记的习惯,大学四年我做了大量的学习笔记,这一良好的习惯一直坚持到现在,十多年的时间我已经记了三千多页的笔记,如图 1和图 2所示。

研究生阶段我被免试保送到国防科大计算机学院读研并入伍,研究生毕业之后一直在某部队工作至 2016年。工作期间我阅读了大量的计算机书籍并编写了大量的代码,从操作系统底层开发到应用 App开发。这个阶段是我从学生到工程师的一个转变阶段,也是我个人知识体系的建设阶段。对于不理解的内容我反复读、反复研究。记得学习《算法导论》的时候,我阅读了不下四轮,做了两轮笔记,并且仿照 C++ STL的风格实现了其中的各种算法(算法导论的 C++实现我已经放在个人的 github上)。

我个人比较喜欢研究算法,在这方面我比较有优势。一是我数学能力比较强,作为曾经的清华学霸,我数学相关的课程平均分不低于 95分(我本科四年的平均学分积不低于 90分)。另一方面是我编程功底比较强,尤其是精通 C/C++/Python三门语言。在学习机器学习这个方向的时候,理论方面我结合了斯坦福大学的机器学习课程,李航老师的《统计学习方法》和周志华老师的《机器学习》课程,实践方面我使用 Python的 scikit-learn包提供的 API函数,包里面所涵盖的算法接口非常全面,更令人振奋的是,其用户手册写得非常好,我发现这是一条快捷的学习路径。

机器学习是一门理论与实践结合非常紧密的学科,理论提供了各种算法处理问题的边界,即有的算法适合处理问题 A,不适合问题 B;而另外一些算法适合处理问题 B不适合处理问题 A。如果不懂得理论,那么对于某个具体问题,你就完全不知道应该采用哪种算法,以及当你采用了某个算法时各类超参数的物理意义。如果没有扎实的写代码实践,那么你可能采用了一个看起来很美好的算法,但是实际操作中因为各种条件不满足,最后要么预测性能很差,要么运行时间能让你崩溃,停留在“看上去很美”的尴尬状态。

2016年,我顺利从部队退役,一次在北京旅游时,抱着试试的态度,我轻松拿到了阿里的算法 offr,2017年年初,我在美丽的杭州入职!

看书、笔记、编程这三样是学习机器学习必须的,效果很棒,我已经验证了,该你了!

在机器学习的路上,我们一起同行!

读者评论

相关专题

相关博文

  • 人工神经网络之Python 实战

    人工神经网络之Python 实战

    管理员账号 2017-03-24

    小编说:Python 是最好最热门的编程语言之一,以简单易学、应用广泛、类库强大而著称,是实现机器学习算法的首选语言。本文以人工神经网络的实战为例,证明需要深入理解算法的原理、优劣势等特点以及应用场景,以能达到应用自如的程度。本文选自《...

    管理员账号 2017-03-24
    602 0 0 0