本书是数据分析师(CDA)系列教材之一,主要有几个特点。一是关于SAS EG模块的首本中文教材;二是非单纯的逐个讲解菜单,而是将数据分析的基本思路、流程融入到软件的操作之中;三是在每一章节,通过设置商业背景,SAS理论讲解的形式更接近于读者的工作;四是本书除讲解软件操作,还同时介绍了各种操作的SAS语言的实现过程,读者可以根据自己的基础逐步学习,进而走进SAS处理数据的大门。
该丛书首先从把数据分析所需要的理论知识要点以通俗易懂的方式呈现给读者,这些统计的理论基础知识将为以后的数据分析学习和工作构建坚实的基础。该丛书最大的价值就是学以致用,让读者很快在实际案例中上手操作软件解决实际问题,这些案例是作者在实际工作中的经验总结和思考结晶,具有很大的实用价值。
人大经济论坛(bbs.pinggu.org),于2003年成立,致力于推动经管学科的进步,传播出色教育资源,目前已经发展成为国内很大的经济、管理、金融、统计类的在线教育和咨询网站,也是国内活跃和具影响力的经管类网络社区。
人大经济论坛从2006年起在国内早开展数据分析培训,累计培训学员数万人,在大数据的趋势背景下,作为Certified Data Analyst Institute(注册数据分析师协会,简称CDA协会)的中国授权中心,根据CDA协会的数据分析师LevelⅠ(业务分析师)、Level Ⅱ(建模分析师)、Level Ⅲ(数据专家)的等级标准,致力于培养正规化、科学化、专业化的数据分析师队伍,为企事业单位输送更多出色数据分析人才(Certified Data Analyst Institute,亦称“注册数据分析师协会”,成立于美国特拉华州,主要宗旨为汇聚国际先进的数据分析技术,建设国际性规范化数据分析师职业标准,推进数据分析师的行业发展及认证工作,目前标准行业认证为CDA数据分析师)。
徐筱刚,统计学硕士。拥有近十年的丰富的数据分析、数据挖掘实战经验,曾就职于咨询公司、金融机构等多家知名企业,目前在一家金融机构担任专业数据分析顾问,具有零售、电信、金融等多个数据挖掘的项目经验和行业背景。
感谢您选择“CDA数据分析师”LevelI学习系列丛书之《如虎添翼!数据处理的SASEG实现》。
该丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析、推断性分析、参数估计、假设检验、方差分析、回归分析等内容,这在第一本书《从零进阶!数据分析的统计基础》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SASEG实现》中利用SASEG和编程技术进行了操作过程的详解。最后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SASEG进阶》中进行了详细的讲解和操作分析。
CDA数据分析师丛书整体风格是“理论>技术>应用”的一个学习过程,最终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。
读者对象
作为丛书中的一本,本书上承基础理论部分,下启最终建模及案例分析。本书将关注点集中到数据的探索及预处理上,通过本书的学习将会加深对基础理论部分的理解,为后续的建模分析做好数据上的准备。本书适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。
阅读指南
对数据分析师而言,合适的数据就像好的食材,对最终分析结果的影响不言而喻,但是在日常的工作中我们会经常遇到两个问题,一是数据的质量不高,数据在收集、存储等过程中不可避免地出现了脏数据、不一致数据、噪声数据、重复数据等,如果我们不做任何预处理而直接输入模型,就会出现“garbagein,garbageout”,即垃圾进垃圾出的情况。二是数据的形式不符,因为不同的模型,建模技术都有一定的前提假设,对数据的展现形式、分布状态等都有较为严格的要求,如果不做预处理,模型出来的结果很可能与数据底层真正蕴含的规律背道而驰,对这种形式的数据盲目地进行建模分析,极容易误人误己。
数据预处理占到整个数据挖掘的60%~80%的时间,要想高效正确地完成数据的预处理工作其实不是一件容易的事情,本书作者根据在咨询公司、电信及金融行业的多年经验,将常用的数据预处理思路融入到SASEG的菜单操作中,并配以SAS程序的讲解,使得读者在熟悉菜单的同时,能用简单的SAS语言完成相对复杂的数据处理要求。
全书共分为九章:
第1章介绍了SASEG软件,并介绍了三种常见的数据分析流程;
第2章介绍了如何通过多种方式使SASEG可以轻松地访问多种形式的外部数据;
第3章介绍了探索性数据分析的基本思路,以及数据清理的相关理论,并分别演示了如何对类别数据、数据数据进行清理;
第4章、第5章介绍了如何对数据观测进行筛选和排序、抽样,以及数据的分组和汇总,如何对数据进行转置,使用函数等,
第6章介绍了如何在整体上对数据集进行操作,包括如何对数据集进行横向连接和纵向连接,数据集之间的比较创建格式等。
第7章讲解了数据的可视化及图表、报告的编制方法。
第8章、第9章介绍了如何在SASEG中运用提示、程序等来提高数据处理效率。
各部分相互独立,读者可以根据自己的需要选择性阅读。
本书特点
1.关于SASEG模块的首本中文教材;
2.非单纯的逐个讲解菜单,而是将数据分析的基本思路、流程融入到软件的操作之中;
3.每一章节通过设置商业背景,基本理论讲解的形式更贴近读者的实际工作;
4.本书除讲解软件操作,还同时介绍了各种操作的SAS语言的实现过程,读者可以根据自己的基础逐步学习,进而走进SAS处理数据的大门。
学习方法
本书在编写上力求从读者的实战角度出发,每章基本上分为五部分:
1.商业背景的介绍;
2.相关的理论介绍;
3.EG软件的解决方案;
4.程序实现,包含实现菜单的程序的简单必要功能,读者可以轻松过渡到编程;
5.扩展阅读,对于想深入学习SAS编程、数据准备的读者,进一步介绍了相关的学习内容及方向。
读者可以根据自己的需要来阅读,本书的菜单操作部分以SASEenterpriseguide5.1为例进行示范,代码部分以SAS9.3为基础进行编写,读者在理解基本思路之后可以方便将其应用到其它版本之上。
售后服务
为方便读者学习,本书提供了书中实例的源文件下载,请读者进入人大经济论坛,注册后搜索“CDA教材源文件”关键词下载相应的源文件。
本书读者可以在人大经济论坛的“数据挖掘与商业智能”就书中的问题进行提问,也欢迎大家就自己遇到的业务问题和大家讨论。
致谢
本书由人大经济论坛策划,徐筱刚负责编写和完成统稿。
丛书从策划到出版,倾注了电子工业出版社计算机图书分社张慧敏、石倩、官杨、张童等多位编辑的心血,特在此表示衷心地感谢!
为保证丛书的质量,使其更贴近读者,我们组织了人大经济论坛的多位版主和高级会员参与了本书的预读工作,他们是杨同梅、田佳、孙华枫、原瑜芬、叶阵雨、郑赟、李剑宇、江翊雪、陈鹏、刘莎莎、丁亚军。感谢各位预读员的辛勤、耐心与细致,使得本丛书能以更加完善的面目与各位读者见面,特别感谢覃智勇圆满地组织了本次预读工作和审校工作。
尽管作者们对书中的案例精益求精,但疏漏仍然在所难免,如果您发现书中的错误或某个案例有更好的解决方案,敬请登录社区网站向作者反馈,我们将尽快在社区中给出回复,且在本书再次印刷时修正。
再次感谢您的支持!