《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》作为SAS EG 和SPSS 数据处理比较的首本实战中文教材,本书并非单纯地逐个讲解菜单的操作,而是将数据分析的基本思路、流程融入到软件的操作之中。每章通过设置商业背景,配以SAS EG 和SPSS 的实战演练,讲解形式更贴近读者的实际工作,使读者真正理解数据分析、数据处理的精髓。本书除讲解软件操作,还同时介绍了对应菜单操作的SAS 程序语言实现过程,读者可以根据自己的需要逐步学习,进而走进用SAS 程序处理数据的大门。
《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。
经管之家主编,写给专业数据分析师的丛书,畅销书升级版
经管之家(www.jg.com.cn):原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内最大的经济、管理、金融、统计类的在线教育和咨询网站,也是国内最活跃和最具影响力的经管类网络社区。经管之家从2006年起在国内最早开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供最优质、最科学、最系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDA CLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。
徐筱刚,统计学硕士。拥有近十年的丰富的数据分析、数据挖掘实战经验,曾就职于咨询公司、金融机构等多家著名企业,目前在一家金融机构担任资深数据分析顾问,具有零售、电信、金融等多个数据挖掘的项目经验和行业背景。
常国珍,北京大学商学博士,法学硕士。曾就职于亚信科技BOC部门、方正国际金融事业部、德勤管理咨询信息技术系统咨询部。SAS公司资深讲师,Oracle大数据讲师,多家金融信息部门和金融高科技公司数据挖掘技术顾问。从事征信数据集市与信用风险建模、客户价值提升等数据挖掘项目。擅长基于个体行为分析的价值发现和信用建模。研究方向为宏微观接合研究,兴趣点在于宏观环境变化对微观主体行为的经济后果分析及价值投资。
丁亚军,曲阜师范大学心理学硕士。现任职于南京上度市场咨询数据分析总监,经管之家数据分析研究院数据分析师。主要从事市场调查,数据挖掘咨询等市场客户行为方面的数据分析工作,比较熟悉SAS、SPSS两款软件。
序言:这是一个用数据说话的时代
在CDA(注册数据分析师)Level I 级教材付诸印刷之际,关于数据分析这个职业及其价值的报道就有很多,比如,下面两条报道就充分体现了在大数据时代下,数据分析的价值。这在以前是从来没有过的。
LinkedIn 的最新投票结果显示,“统计分析和数据挖掘” 是2014 年最大的求职法宝。LinkedIn对全球超过3.3 亿用户的工作经历和技能进行分析,公布2014 年最受雇主喜欢、最炙手可热的25项技能,其中位列榜首的是统计分析和数据挖掘。
麦肯锡公司的一份研究预测称,到2018 年,在“具有深入分析能力的人才”方面,美国可能面临着14 万到19 万人的缺口,而“可以利用大数据分析来做出有效决策的经理和分析师”缺口则会达到150 万人。
早在2010 年2 月,肯尼斯?库克尔在《经济学人》上发表了一份关于管理信息的特别报告——《数据,无所不在的数据》,文中写道:“世界上有着无法想象的巨量数字信息,并以极快的速度增长……从经济界到科学界,从政府部门到艺术领域,很多地方都已感受到了这种巨量信息的影响。”2011 年,麦肯锡发布了《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,使人们在篇文章里认识到了数据的力量,于是,一夜之间,面向数据分析市场的新产品、新技术、新服务、新业态正在不断涌现。从个人、企业到国家层面,都把数据作为一种重要的战略资产,逐渐认识到了数据的价值,不同程度地渗透到每个行业领域和部门,大大提升了企业的经营利润,推动了经济的发展。
这是一个用数据说话的时代,也是一个依靠数据竞争的时代。目前世界500 强企业中,有90%以上都建立了数据分析部门。IBM、微软、Google 等知名公司都积极投资数据业务,建立数据部门,培养数据分析团队。各国政府和越来越多的企业意识到数据和信息已经成为企业的智力资产和资源,数据的分析和处理能力正在成为日益倚重的技术手段。
作为一个数学和统计学的强国,数据分析、数据挖掘和大数据价值挖掘行业在我国仍属于朝阳行业,数据分析人才仍然比较稀缺。各行各业在平常工作中积累的各种各样的数据分析问题仍然没有得到及时有效地解决,有些问题,还是关乎本行业发展的至关重要的问题。数据积累越来越多,期待解决分析的数据问题也越来越多,人们逐渐习惯的使用数据作为决策的重要参考依据。据艾瑞的研究报告,未来与数据分析相关的就业岗位会在1000 万左右,而目前来说国内合格的数据分析师不足5 万左右,建立一个科学有效的数据分析师培训体系迫在眉睫。
在这样一个用数据说话的时代,积累了丰富的数据分析培训经验的人大经济论坛承担起使命,几番调查研究,几番反复推演论证,在2013 年,这个大数据的“元年”,CDA 注册数据分析师应运而生!
2003 年,人大经济论坛依托中国人民大学成立,在金融、管理、统计领域已积淀11 个年头,在国内享有良好声誉。
2006 年,人大经济论坛数据分析培训中心设立,至今经历8 个春秋,建立了大陆、台湾一线师资团队,培养人才已达3 万余人。
2013 年,“中国数据挖掘与数据分析俱乐部CDMC”在人大经济论坛旗下成立,2014 年改名为“中国数据分析师俱乐部CDA”。来自政府、金融、电信、零售、电商、互联网、教育等行业人士加入会员,成功举办了数十场行业聚会。紧接着,积累了数据分析培训丰富经验的人大经济论坛在国内展开CDA 数据分析师系统培训和认证考试,成功见证了1000 余名数据分析师的成长。
2015 年,人大经济论坛将提供高水平、多层次的数据分析培训服务,以在行业积累 多年的影响力,吸引更好更多的优秀师资,瞄准行业内重要的数据分析问题和难点,攻坚突破,建立更加规范的行业培训体系,引领数据分析培训行业向规范化、有效化和前瞻化方向发展,为数据分析培训做出应有的贡献。
其实,数学(含统计)和英语一样重要,都是人们不可或缺的重要技能。既然英语全民这么重视,数学及其数据分析的技能更加需求于方方面面,更应被做大做强。让我们共同期待人大经济论坛办成另一个数据的“新东方”!
前言
感谢您选择“CDA 数据分析师”Level I 学习系列丛书之《如虎添翼!数据处理的SPSS 和SASEG 实现(第2 版)》。
该丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析、推断性分析、参数估计、假设检验、方差分析、回归分析等内容,这在第一本书《从零进阶!数据分析的统计基础(第2 版)》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SPSS 和SAS EG 实现(第2 版)》中利用SAS EG、SPSS 和编程技术进行了操作过程的详解。最后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SPSS 和SAS EG 进阶(第2 版)》中进行了详细的讲解和操作分析。
CDA 数据分析师丛书整体风格是“理论>技术>应用”的一个学习过程,最终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。
读者对象
作为丛书中的一本,本书上承基础理论部分,下启最终建模及案例分析。本书将关注点集中到数据的探索及预处理上,通过本书的学习将会加深对基础理论部分的理解,为后续的建模分析做好数据上的准备。本书适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。
阅读指南
对数据分析师而言,合适的数据就像好的食材,对最终分析结果的影响不言而喻,但是在日常的工作中我们会经常遇到两个问题,一是数据的质量不高,数据在收集、存储等过程中不可避免地出现了脏数据、不一致数据、噪声数据、重复数据等,如果我们不做任何预处理而直接输入模型,就会出现“garbage in, garbage out”,即垃圾进垃圾出的情况。二是数据的形式不符,因为不同的模型,建模技术都有一定的前提假设,对数据的展现形式、分布状态等都有较为严格的要求,如果不做预处理,模型出来的结果很可能与数据底层真正蕴含的规律背道而驰,对这种形式的数据盲目地进行建模分析,极容易误人误己。
数据预处理占到整个数据挖掘的60%~80%的时间,要想高效正确地完成数据的预处理工作其实不是一件容易的事情,本书作者根据在咨询公司、电信及金融行业的多年经验,将常用的数据预处理思路融入到SAS EG、SPSS 的菜单操作中,并配以SAS 程序的讲解,使得读者在熟悉菜单的同时,能用简单的SAS 语言完成相对复杂的数据处理要求。
全书共分为10 章:
第1 章介绍了SAS EG、SPSS 软件,并介绍了三种常见的数据分析流程;
第2 章介绍了如何通过多种方式使SAS EG、SPSS 可以轻松地访问多种形式的外部数据;
第3 章介绍了探索性数据分析的基本思路,以及数据清理的相关理论,并分别演示了如何对类别数据、数值数据进行清理;
第4 章、第5 章介绍了如何对数据观测进行筛选和排序、抽样,以及数据的分组和汇总,如何对数据进行转置,使用函数等;
第6 章介绍了如何在整体上对数据集进行操作,包括如何对数据集进行横向连接和纵向连接,数据集之间的比较创建格式等;
第7 章讲解了数据的可视化及图表、报告的编制方法;
第8 章、第9 章介绍了如何在SAS EG 中运用提示、程序等来提高数据处理效率;
第10 章介绍了SQL 语言基础和MySQL 入门。各部分相互独立,读者可以根据自己的需要选择性阅读。本书在第1 版的基础上,新增了第10章,其他各章分别对应加入了SPSS 的操作。
本书特点
1.关于SAS EG 模块和SPSS 实现功能比较的首本实战中文教材,通过比较,读者能更快掌握这两个应用最广、功能最强大的统计软件;
2.非单纯的逐个讲解菜单,而是将数据分析的基本思路、流程融入到软件的操作之中;
3.每一章节通过设置商业背景,基本理论讲解的形式更贴近读者的实际工作;
4.本书除讲解软件操作,还同时介绍了各种操作的SAS 语言的实现过程,读者可以根据自己的基础逐步学习,进而走进SAS 处理数据的大门。
学习方法
本书在编写上力求从读者的实战角度出发,每章基本上分为五部分:
1.商业背景的介绍;
2.相关的理论介绍;
3.EG 软件的解决方案;
4.程序实现,包含实现菜单的程序的简单必要功能,读者可以轻松过渡到编程;
5.SPSS 菜单解决方案;
6.扩展阅读,对于想深入学习SAS 编程、数据准备的读者,进一步介绍了相关的学习内容及方向。
读者可以根据自己的需要来阅读,本书的菜单操作部分以SAS Eenterprise guide 5.1,SPSS22 为例进行示范,代码部分以SAS 9.3 为基础进行编写,读者在理解基本思路之后可以方便将其应用到其它版本之上。
售后服务
为方便读者学习,本书提供了书中实例的源文件下载,请读者进经管之家(http://bbs.pinggu.org/),注册后搜索“CDA 教材源文件”关键词下载相应的源文件。
本书读者可以在经管之家的“数据挖掘与商业智能(http://bbs.pinggu.org/forum-133-1.html)”就书中的问题进行提问,也欢迎读者就自己遇到的业务问题和大家讨论。同时,也可以向作者发邮件,作者邮箱为xuxiaog_2003@163.com。
致谢
本书由经管之家主编,徐筱刚、常国珍、丁亚军负责编写和完成统稿。
丛书从策划到出版,倾注了电子工业出版社计算机图书分社张慧敏、石倩、张童、王静等多位编辑的心血,特在此表示衷心地感谢!
为保证丛书的质量,使其更贴近读者,我们组织了经管之家的多位版主和高级会员参与了本书第1版和第2版的预读工作,第1版是杨同梅、田佳、孙华枫、原瑜芬、叶阵雨、郑赟、李剑宇、江翊雪、陈鹏、刘莎莎、丁亚军;第2 版是关继杰、殷子涵、种法辉。感谢各位预读员的辛勤、耐心与细致,使得本丛书能以更加完善的面目与各位读者见面,特别感谢覃智勇圆满地组织了第1 版的预读工作和审校工作。
尽管作者们对书中的案例精益求精,但疏漏仍然在所难免,如果您发现书中的错误或某个案例有更好的解决方案,敬请登录社区网站向作者反馈,我们将尽快在社区中给出回复,且在本书再次印刷时修正。
再次感谢您的支持!