数据科学家是当下炙手可热的职业,机器学习则是他们的必备技能,机器学习在大数据分析中居于核心的地位,在互联网、金融保险、制造业、零售业、医疗等产业领域发挥了越来越大的作用且日益受到关注。
Python是最好最热门的编程语言之一,以简单易学、应用广泛、类库强大而著称,是实现机器学习算法的首选语言。
本书以快速上手、四分理论六分实践为出发点,讲述机器学习的算法和Python编程实践,采用“原理笔记精华+算法Python实现+问题实例+实际代码+运行调参”的形式展开,理论与实践结合,算法原理与编程实战并重。
全书共13 章分为4篇展开:第一篇:机器学习基础篇(第1~6 章),讲述机器学习的基础算法,包括线性模型、决策树、贝叶斯分类、k近邻法、数据降维、聚类和EM算法;第二篇:机器学习高级篇(第7~10章),讲述经典而常用的高级机器学习算法,包括支持向量机、人工神经网络、半监督学习和集成学习;第三篇:机器学习工程篇(第11~12章),讲述机器学习工程中的实际技术,包括数据预处理,模型评估、选择与验证等。第四篇:kaggle实战篇(第13章),讲述一个kaggle竞赛题目的实战。
本书内容丰富、深入浅出,算法与代码齐头并进,无论你是新手还是有经验的读者,都能快速学到你想要的。本书可供为高等院校计算机、金融、数学、自动化及相关理工科专业的本科生或研究生使用,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。
人生苦短,我用Python;算法偷懒,我看笔记学霸版
前言
拥抱大数据时代
“大家还没搞清PC 时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”马云在2013 年淘宝十周年晚会上的这句话,仿佛一下子拉开了大数据时代的序幕。
新的时代,需要新的技术,新的技术,需要新的人才。全球最著名的管理咨询公司麦肯锡预测“到2018 年,美国在‘深度分析’人才方面将面临14 万至19 万的人才缺口;在‘能
够分析数据帮助公司做出商业决策’方面将面临150 万的人才缺口”。清华大学计算机系教授武永卫2016 年5 月透露了一组数据:未来3~5 年,中国需要180 万数据人才,但目前只有约30 万人。
大数据时代,做大数据分析人员有了一个更“性感”的名字,叫做数据科学家(Data Scientist)。《哈佛商业评论》声称,21 世纪最富挑战的工作是数据科学家。时下最热门的职业是数据科学家,而不是传统的信息科学家,也不是大数据工程师。
数据科学家必备的技能中,机器学习和Python 应该是位列前五的两项。机器学习炙手可热,在互联网、金融保险、制造业、零售业、医疗等产业领域发挥了越来越大的作用,关注度也越来越高。而Python 则是最in 的语言,“人生苦短,我用Python”?_?怎么用这本书?
机器学习既有算法又有实现,还是比较高深的,算法太难,啃不动,代码太浅,钻不下去。我们的目标是让您快速上手,在内容组织上我们是动了心思的,采用“原理笔记精华+算法Python 实现+ 问题实例+ 实际代码+ 运行调参”的形式,理论与实践交织着展开,算法原理与编程实战并重。
全书分13 章进行展开,分为机器学习基础篇、机器学习高级篇、机器学习工程篇和kaggle 实战篇。
1. 机器学习基础篇(第1 ~ 6 章)
包括线性模型、决策树、贝叶斯分类、k 近邻法、数据降维、聚类和EM 算法等内容。
这些基础算法非常经典,原理也相对简单,是入门的最佳选择,掌握这些算法,才能更好地理解后续的高级算法。非菜鸟可以直接忽略这部分。
2. 机器学习高级篇(第7 ~ 10 章)
包括支持向量机、人工神经网络、半监督学习和集成学习等内容。
这些高级算法是目前应用非常广泛,也是效果不错的算法,需要深入理解算法的原理、优劣势等特点以及应用场景,要能达到应用自如的程度。
3. 机器学习工程篇(第11 ~ 12 章)
讲述机器学习工程中的实际技术,包括数据预处理,模型评估、选择与验证等内容。数据清洗、数据预处理和模型评估选择在实际中非常重要,在整个工程项目的开发过程中通常占到一半以上的时间,这部分给出的一些步骤和方法是实践的精华,值得熟练掌握。
4. kaggle 实战篇(第13 章)
Step-by-step 讲述一个kaggle 竞赛题目的实战,有代码有分析。
Kaggle 是目前顶级的数据科学比赛平台,很多机器学习的牛人都在这里玩过,咱们可以学习牛人好的算法,也可以启发自己的思路。对于梦想成为牛人的您,还是去里面混混先:)万一拿了个好的名次呢,拿个一流公司的offer 还是很easy 的。
本书的代码全部开源,请自行去下载https://github.com/huaxz1986/git_book,也欢迎在这上面交流。
由于作者水平和经验有限,书中错漏之处在所难免,敬请读者指正,我们的电子邮箱是wa_2003@126.com。
作者
2017 年元旦于北京