学习并精通任何一门学科无外乎要经过四个步骤:它是什么?它可行吗?怎么学它?如何学好它?机器学习也不例外,《快乐机器学习》就以这四个步骤来介绍机器学习。
《快乐机器学习》第1章介绍“机器学习是什么”,即从定义开始,详细介绍机器学习涉及的知识、数据和性能度量。第2章介绍“机器学习可行吗”,即介绍机器具备学习样本以外的数据的能力。
第3章介绍“机器学习怎么学”,即介绍机器如何选择出*优模型。作者在这3章的写作上花费的时间*多,光这3章的内容就绝对会让读者有所收获。
第4~14章介绍“如何学好机器学习”,重点介绍机器学习的各类算法和调参技巧。
第15 章介绍机器学习中的一些非常实用的经验,包括学习策略、目标设定、误差分析和偏差与方差分析。作者写作本书的目的是深入浅出介绍机器学习,使看似复杂、晦涩的专业知识变得通俗易懂,让那些想入门的读者感觉门槛没有那么高,让有基础的读者感觉内容也很丰富。
为了达到这两个目的,本书用有趣的引言故事来激起读者的阅读兴趣,用清晰的思维导图来明晰结构,用自画图表来增强美感,用公式推导来讲透原理,达到趣、美、准、全,让每位读者从本书中获益,快乐地学习机器学习。《快乐机器学习》非常适合机器学习初学者、高校相关专业学生及有一定数学和统计学基础的高中生学习。
有趣的引言故事:激起兴趣
清晰的思维导图:明晰结构
创意的自画图表:更易理解
详细的算法推导:讲透原理
每个知识点都是理论和实践相结合,既有严谨的数学推导,又有多样的代码展示,图文并茂
王圣元 金融风险管理师;特许另类投资分析师。学习及工作经历:现任新加坡某金融咨询公司总监。拥有新加坡国立大学量化金融学士学位和金融数学硕士学位;在新加坡国立大学攻读硕士学位期间,曾任金融数学课程的辅导老师,深受学生喜爱,在教课结束时被评为“优秀辅导老师”。 自我学习过程:获得金融风险管理师 (FRM) 和特许另类投资分析师 (CAIA) 认证,及 Coursera 颁发的机器学习、深度学习和TensorFlow实战的认证。平时坚持写作,是公众号“王的机器”的主理人,其中分享了关于金融工程、机器学习和量化投资的高质量文章。作者的信条是“Yearning for Learning, Leading by Reading, Distilling by Writing”(多学多读多写,终身渴望学习,通过读书保持领先,通过写作用心灌输)。
前言
作者写作本书的目的就是用通俗的文字来讲解机器学习,最好通俗得如作者在女儿生日时给她写的信:
亲爱的欣玥:
从2020年开始,愿你:
? 学习不要死记硬背,避免过拟合;也不要蜻蜓点水,避免欠拟合。
? 心态像随机梯度下降一样,不要过分注重眼前的利益和一时的得失,进而看不清大局而被假象蒙骗。
? 抉择像随机森林一样,各取所长,集思广益,这样你才能做出最正确的决定。
? 操行像自适应提升一样,知错能改,这样你才能越来越优秀。
? 说话像奥卡姆剃刀原理一样,牢记“少就是多”,当一个好的聆听者。
? 脾气不要像梯度爆炸一样越来越大,也不要像梯度消失一样没有,要稳定地敢爱敢恨。
? 容忍像支持向量机一样,最大化你的容错间隔。有一些错误是在所难免的,要学会将硬间隔变成软间隔。
? 生活像偏差和方差达到最优点一样,不偏不倚,不骄不躁。
从2020年开始,爸爸会
? 最初辅导你有监督学习。
? 然后锻炼你半监督学习。
? 接着放任你无监督学习。
? 不断评估你要增强学习。
当学习到了某个临界点时,不管外界资源多么丰富,你的表现一定会趋于稳定,这时必须靠深度学习才能最大程度地突破自我,最终获得迁移学习的能力。
学习并精通一门学科无外乎要经过四个步骤:它是什么?它可行吗?怎么学它?如何学好它?学习机器学习也不例外,本书就以这四个步骤来解读机器学习。
? 第1章介绍“机器学习是什么”,即从定义开始,详细介绍机器学习涉及的知识、数据和性能度量。
? 第2章介绍“机器学习可行吗”,即机器具备学习样本以外的数据的能力。本章从概率的角度证明样本内误差和样本外误差的关系。
? 第3章介绍“机器学习怎么学”,即机器如何选出最优模型。本章介绍机器学习版本的样本内误差(训练误差)和样本外误差(测试误差),再通过验证误差来选择模型。
前3章属于机器学习的概述:第1章介绍机器学习的概念,为了让读者打好基础;第2章为证明机器学习是可行的,让读者做到心中有数;第3章运用机器学习性能指标而构建框架,看懂它们不需要精通任何机器学习的算法。作者在这3章的写作上花费的时间最多,光这3章的内容就绝对让读者有所收获。
第4~14章介绍“如何学好机器学习”,重点介绍机器学习的各类算法和调参技巧。在本书中,机器学习模型分为线性模型、非线性模型和集成模型。
? 第4~8章介绍线性模型,包括线性回归模型、对率回归模型、正则化回归模型、支持向量机模型。
? 第9~11章介绍非线性模型,包括朴素贝叶斯模型、决策树模型、人工神经网络模型、正向/反向传播模型。
? 第12~14章介绍集成模型,包括随机森林模型、提升树模型、极度梯度提升模型。
第15章介绍机器学习中一些非常实用的经验,包括学习策略、目标设定、误差分析、偏差和方差分析。
为了帮助读者阅读,下面的流程图展示了整本书的大框架。
本书的每一章都以通俗的引言开始,吸引读者;以精美的思维导图过渡,让讲解思路更清晰;以简要的总结结束,让读者巩固所学的知识。此外,每个知识点都是理论和实践相结合,既有严谨的数学推导,又有多样(Python和MATLAB)的代码展示,图文并茂,最好地服务各类读者。
作者非常欣赏谷歌大脑研究员Chris Olah的观点“I want to understand things clearly, and explain them well”,即力争把每个知识点弄懂、弄透,然后以通俗易懂的方式让其他人学会、学透。作者愿意做 “把困难的东西研究透而简单展示给大众”的人(Research Distiller),因为学术界中的论文虽然“高大上”,但是很多会让读者读完还是一头雾水。用Chris Olah的话来讲,这种以不清不楚的方式来解释高难课题的做法欠下了太多研究债务(Research Debt)。
这本书能够完成,受到很多机器学习优质课程的启发,比如斯坦福大学Andrew Ng教授的CS229 课程、加州理工学院Yaser S. Abu-Mostafa教授的Learning from Data课程、台湾大学林轩田教授的机器学习基石和技法、华盛顿大学Emily Fox和Carlos Guestrin教授的Machine Learning Specialization。他们的课程都是理论结合实际,通俗而不失严谨,学习这些课程可以让我解决工作中的很多需求,可见这些课程的含金量之高,在这里我想对他们表达最真挚的感谢(即便他们也不认识我 )!
此外,感谢父母无条件地支持我写书,感谢爷爷、大伯和姐夫经常阅读我的公众号文章,经常鼓励我,感谢夫人在我写书时帮着带娃,感谢女儿给我的无穷动力:想象着以后她拿着我写的书可以自豪地跟别的小朋友说“这是我爸爸写的书”。最后感谢所有“王的机器”公众号的读者,你们的支持和反馈一直激励着我不断进步,这本书是特别为你们而写的。
由于作者水平有限,书中难免会有错漏之处,欢迎诸位专家和广大读者斧正。