周志华教授专著《集成学习:基础与算法》上市,豆瓣满分森林书破解AI实践难题

陈晓猛

2020-07-08

近年来,机器学习技术的快速发展推动了语音、自然语言处理、机器视觉等多个领域获得巨大进步,也带动了人工智能相关产业的蓬勃发展。

回顾机器学习最近30 年的发展历程,各种学习方法推陈出新、不断演进。但是,在此历程中,通过构建并结合多个学习器来完成学习任务的集成学习方法,始终是提升学习效果的重要手段,成为机器学习领域的“常青树”,受到学术界和产业界的广泛关注。

在这个深度学习应用取得巨大成功的当下,我们无法忽视集成学习在其中所发挥的巨大作用。在深度学习方法之上引入集成学习仍然是许多深度学习专家用来提升效果的重要手段。

集成学习技术已在人工智能实践中被广泛使用,例如,对搜索、推荐、广告的核心任务——点击率预估而言,GBDT (Gradient Boosting Decision Trees)因其稳定、优异的效果一直是事实上的工业标准;在语音识别领域,基于集成深度学习的声学模型极大提升了识别效果;在异常检测上,iForest 因其极高的检测效率在实践中备受关注。

▶ 那么,什么是集成学习?

简而言之,集成学习从数据中显式或隐式地学习多个模型,并将它们有效结合以获得更可靠和更准确的预测。因此,集成学习的关键是(a)如何从数据中学习多样且准确的模型,以及(b)如何有效地结合它们以获得更好的结果。

集成学习与其他机器学习方法的核心区别在于:

它专注于偏差-方差权衡(Bias-Variance Tradeoff)问题——这是所有机器学习方法(无论是深度学习,还是经典机器学习方法)与生俱来的根本问题。

正是这个独特的研究视角,使集成学习对包括深度学习在内的所有机器学习方法都很有价值。

/ 博文菌有话说:小白同学也可以理解为,通过“人多力量大”、“三个臭皮匠赛过诸葛亮”的形式达到出其不意的效果!

虽然在人类社会中,使用多个模型解决问题的基本想法有着悠久的历史,但关于集成学习方面的专著却少得可怜。

为了反映集成学习领域的快速发展,周志华教授进行了一次更新的深入回顾,由此森林书Ensemble Methods诞生了!

作为一本系统性阐述集成学习的著作,本书在国外一出版便引发了领域内的巨大轰动。在亚马逊AMAZON上,本书拥有4星+的好成绩,“Great Book”一词更是被读者们刷爆评论区!

被誉为目前全球影响力最高书评网站之一的Goodreads上,同样有着4星+的好成绩。

阅读本书后我学到了很多新技巧。”读者对本书的喜爱也溢于言表。

由于Ensemble Methods在国内非常难买到,本书在豆瓣读书上的参评人数不多,但一小部分有机会读过原著的同学硬生生把分数给到了逆天的10分满星

读者好评从2016年横跨至2019年,无一不被这部森林书的魅力折服。

▶ 通杀豆瓣、亚马逊、Goodreads的森林书,都讲了什么?

全书化繁为简,用通俗易懂的表述方式重点讲解集成学习的主流代表性技术 Boosting ,并详释了重要算法的实现。集成学习方法在实践中获得了巨大成功,本书也向读者阐述了集成学习在如计算机视觉、医疗、信息安全和数据挖掘竞赛等领域中的 应用实践

本书面向研究人员、学生和实践者介绍集成学习方法。全书共8章,分为三部分。

第一部分主要介绍集成学习的背景知识。

第二部分主要介绍集成学习方法的核心知识,包括Boosting、Bagging、Random Forests 等经典算法,平均、投票和Stacking 等模型和方法、相关理论分析工作,以及多样性度量和增强方面的进展。

第三部分介绍集成学习方法的进阶议题,包括集成修剪、聚类集成和集成学习方法在半监督学习、主动学习、代价敏感学习、类别不平衡学习及提升可理解性方面的进展。

此外,本书还在每章的“拓展阅读”部分提供了相关的进阶内容。

▶ 森林书——中文版来了!

图书资源的匮乏,给国内从事集成学习研究和实践的人们带来了很大的障碍!值得庆幸的是,李楠博士现将这部深入剖析集成学习思想的著作进行了高质量地翻译!

李楠博士毕业于南京大学计算机系机器学习与数据挖掘研究所(LAMDA),师从周志华教授从事机器学习研究。曾发表论文20余篇,并获国际数据挖掘竞赛冠军及最佳论文奖。先后供职于阿里巴巴iDST/达摩院和微软亚洲互联网工程院,长期从事机器学习在互联网搜索、推荐和广告中的研究和应用工作。

李楠博士拥有非常丰富的理论基础与实践经验,确保了中文版忠于原著且行文流畅。

人工智能探索与实践丛书

《集成学习:基础与算法》

周志华 著 ,李楠 译

国内独本剖析集成学习的著作

▼新书预售中,扫码获取详情▼

本书中文版的上市迅速得到了很多大佬的关注!

阿里巴巴集团副总裁、达摩院副院长金榕教授更是为本书热情作序力荐!在推荐序中,金榕教授这样写道:

在本书中,作者充分阐述了偏差-方差权衡问题的背景知识,足以使对统计学不太了解的读者也能很好地理解该问题。

此外,作者在阐述集成学习的广度(集成学习的全貌) 和深度(单个算法的实现)上做了很好的平衡,结构合理,使得本书能真正惠及广大读者。

这也是博文菌想要向大家说的,

本书既具权威性又兼容并包,一定能让广大读者朋友们真正从中获益!

最后再次真诚推荐给所有AI领域从业者,一定不要错过这本凝聚大师智慧、国内独本剖析集成学习的技术佳作!

读者评论

相关专题

相关博文

  • Get不到AI的点?一定要看《程序员的AI书:从代码开始》!

    Get不到AI的点?一定要看《程序员的AI书:从代码开始》!

    陈晓猛 2020-03-30

    机器学习火起来也有几年了, 当老姑大伯们渐渐把AI和程序员画上等号时,我大腿一拍大事不妙!生怕疫情后的家庭聚会上,让我表演才艺:做个什么狗陪他们下棋、做个什么精灵跟他们唠嗑…… 程序员群体很广的!我们也不是什么都懂,更何况我还...

    陈晓猛 2020-03-30
    224 0 0 1
  • 聊聊高并发之隔离术

    聊聊高并发之隔离术

    张开涛 2017-04-21

    隔离是指将系统或资源分割开,系统隔离是为了在系统发生故障时能限定传播范围和影响范围,即发生故障后不会出现滚雪球效应,从而保证只有出问题的服务不可用,其他服务还是可用的;而资源隔离有脏数据隔离、通过隔离后减少资源竞争提升性能等。我遇到的比...

    张开涛 2017-04-21
    1459 0 0 0
  • 了解智能一体化

    了解智能一体化

    陈绍英 2017-04-21

    了解智能一体化测试平台 智能一体化测试平台是为支持智能一体化测试理论而开发的平台,这个平台主要面向后台系统的服务/接口测试。借助这个平台,开发测试人员进行服务/接口测试时可以将工作重心集中在测试案例设计与管理上,测试执行与分析主要交...

    陈绍英 2017-04-21
    434 0 0 0