本书用生活中常见的例子、有趣的插图和通俗的语言,把看上去晦涩难懂的数据挖掘与机器学习知识以通俗易懂的方式分享给读者,让读者从入门学习阶段就发现,原来数据挖掘与机器学习不但有用,还很有趣。
本书以 IBM SPSS Modeler 作为案例实践工具,首先介绍了数据挖掘的基本概念及数据挖掘方法,然后介绍了 IBM SPSS Modeler 工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。每一章都会以漫画形式介绍一些日常小例子并作为切入点,用通俗的语言介绍具体的算法理论,同时在每章最后都附上应用案例,让读者更轻松地阅读本书并掌握对应的算法和实践操作。
全书内容循序渐进,完整覆盖了数据挖掘与机器学习的主要知识点,适合数据挖掘与机器学习入门读者阅读。
17位业内专家联合力荐,简单有趣、轻松掌握数据挖掘工具SPSS Modeler
张浩彬,数据分析/数据挖掘专家,目前任职于国际商业机器(中国)有限公司认知计算部门,曾张浩彬,人称浩彬老撕,曾任IBM大中华区商业智能事业部SPSS分析工程师,认知解决方案事业部数据分析专家,现任广东柯内特环境科技有限公司首席数据科学家,致力机器学习及SPSS技术分享,专注于人工智能技术与应用。
微信公众号:探数寻理(wetalkdata)
浩彬老撕(作者网名),一个有趣的人。
数据挖掘与机器学习,一件好玩的事情。
IBM SPSS Modeler,一套有用的工具。
在日常生活和工作中,笔者经常会遇到有朋友面带难色地咨询:怎么做数据挖掘?怎么学习数据挖掘?笔者发现,大家都认识到,在这个大数据时代,数据挖掘是一项非常有用的技能,但与此同时,他们往往又会觉得学习数据挖掘与机器学习非常难,因为必须要花费大量的时间去重新学习数学知识以及各种编程技能。
对于这些困难,笔者当然理解,而且,随着大数据的兴起,市面上也出现了越来越多关于数据挖掘与机器学习方面的书籍。这些书籍固然都写得很好,但是很多都是一上来就介绍统计理论和模型算法,未免又增加了初学者的畏难情绪。
就笔者看来,从海量数据中挖掘出有用的知识本来是一件很好玩的事情,而且看上去晦涩难懂的算法,其实也有接地气的一面,只要找对学习方法和案例,数据挖掘与机器学习也可以像听故事一样有趣。也是基于这一点,笔者开始了个人公众号以及本书的写作,希望可以用生活中一些常见的例子和一些有趣的插图及通俗的语言故事,把这些看上去晦涩的数据挖掘与机器学习知识以通俗易懂的方式分享给读者,希望让读者从入门学习阶段就发现,原来数据挖掘与机器学习这件事情不但有用,而且还真的有趣。
本书采用 IBM SPSS Modeler(以下简称 SPSS Modeler)作为案例实践工具。 SPSS Modeler 是业界公认的数据挖掘利器,它依据 CRISP-DM 方法论,内置了丰富的数据挖掘算法,同时作为一款以“图形化语法”的数据挖掘工具,它的最大优点就是在保证专业性的同时,很好地兼顾了易用性,相信读者使用 SPSS Modeler 作为数据挖掘与机器学习入门工具,将能够很快掌握实际的应用技巧。
本书特色
本书从结构上看,首先介绍了数据挖掘的基本概念以及数据挖掘方法论,接下来介绍了SPSS Modeler 工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。全书内容循序渐进,完整覆盖了数据挖掘与机器学习的主要知识点。
特别地,在每一章中都会以漫画形式介绍一些日常小例子作为切入点,并用通俗的语言为读者介绍具体的算法理论,同时在每章最后都附上应用案例,希望以这样的形式帮助读者更轻松地阅读本书并掌握对应的算法和实践操作。
致谢
感谢图标网站 http://www.easyicon.net/以及 http://pictogram2.com/提供的原始素材,本书的插图大部分来源于对这些原始素材的再创作。感谢公众号“探数寻理”的读者的关注与支持。感谢 IBM 大中华区分析事业部周伟珠等多位同事的帮助和建议,是你们的建议让本书变得更加完善。感谢柯内特环保大数据研究院院长龙力辉等多位书评作者,感谢你们能够在百忙之中抽出时间阅读书稿,并提出宝贵的建议。感谢电子工业出版社博文视点王静老师的大力支持和辛勤工作,让本书能够顺利出版。最后感谢我的家人和徐小白同学,也因为你们的支持和理解,本书才能顺利出版。
还需要考虑把如何把商业问题转化为数学问题