数据分析不在于你掌握了多少先进的软件工具,也不在于你拥有多么高智商的头脑,而是要靠更大视野、更宽角度和更具有逻辑性的思维。本书不是一本介绍大数据概念的流行读物,也不是开讲编程工具高深理论的专业教材,而是立足于大数据之上的思维模式的普及。读者不需要任何统计学知识,也没必要掌握复杂的公式与算法,在最通俗易懂的案例介绍和娓娓道来中就可以轻松理解大数据分析的基本模式与方法。
作为读者,你可以是大中专院校的数据分析专业学生,也可以是企事业单位的经营分析人员,或者是任何行业任何职业中喜欢“头头是道”的分析爱好者。开卷有益,即便你从来不需要大数据,也可以从本书中领悟到思维魔力,因此让工作与生活更充满智慧与乐趣。
立足于大数据之上的思维模式的普及,轻松理解大数据分析的基本模式与方法
早就想写一本关于数据分析的书,最主要的原因就是,自己是统计专业毕业,又从事过多年数据分析的工作。工作几经变迁,现在已经很少用软件重操旧业,但却越来越感觉到数据分析的重要性。
经常看网络、电视和报纸上的很多分析,在信誓旦旦的说教与言之凿凿的数字之外,很多却是惨不忍睹的分析过程,甚至说是误人子弟也不为过。因为自媒体的流行,很多人根本没有基本的分析方法和技巧,在违背常理的情况下做出了很多奇异的解释,将大家引导到错误的方向。
最为可笑的,曾经有一次看到某知名报纸上的文章,分析的是中国信息分类领域的两家互联网巨头: 58 同城与赶集网(这两家公司在2015 年宣布合并)。当时, 58 同城刚刚上市,这家报纸的专栏作者发表了一篇针对性的分析文章,文中称,他查阅了 ALEX 网站, 58 同城的流量排名在世界网站的第 300 名,而赶集网排名是第 900 名。于是,这位作者就果断地下结论说,以上数据足以证明 58 同城的网络流量是赶集网的 3 倍。呜呼,如此分析竟然逃过了多少编辑的眼睛,甚至还被众多读者接受,是多么可悲!
在实际工作中,一些人虽然科班毕业,通晓各种分析工具,甚至对各种各样的软件如数家珍,编程造模轻车熟路,但却对具体的分析套路与方法形同陌路,只能机械刻板地对数字结论进行解读。实际上,这样的数据分析还不如不做,错误的分析和错误的解读同样都是害人不浅。
当然,由于分析能力不到位,让自己吃亏上当丢人的案例更是不胜枚举。中国足协就是典型案例。 2013 年,人所共知的原因,中国足球终于迎来了出人头地的机会,中国足协更是喜出望外。为了配合隆重的节日气氛,也是要彰显一下中国足球有雄起的能力,中国足协费尽心思地组织了一场国际足球友谊赛。
中国足协应该在邀请友谊赛的对手方面煞费苦心。邀请德国队?肯定不行,严谨的德国人不明就里的职业精神会破坏比赛气氛。邀请西班牙队?鼎盛时期的西班牙与中国队比赛也必须让自己有一个可以接受的成绩,否则被人笑掉大牙。于是,中国足球邀请了我们的近邻,泰国队,可怕的比赛开始了。估计包括中国足协官员在内的中国球迷都没有想到,一场友谊赛进了 6 个球,更重要的是,我们只进了一个,泰国队进了 5 个。
如果中国足协进行了充分的数据分析,也许就会避免这场悲剧的发生。历史数据证明,中国队此前已经多年没有胜过泰国队。如今的中国队不再是以前的那支“中国头球队”,依靠身高与体重就可以战胜东南亚球队,几年来学西班牙控制脚下球的中国队既没有学到技术,也忘记了本分,对付泰国这样的小老虎已经心有余而力不足。或者,这场比赛还不如邀请韩国,场面也不会失控。
如果我们非要挖苦一下数学水平奇差的中国足协,那也是可以的。因为,某年某月某日的世界杯外围赛亚洲区预选赛,中国与黎巴嫩同组,在最后一轮比净胜球决定出线的关键时刻,中国足协竟然鬼使神差地算错了账。当全场球迷因为中国队 7∶0 战胜中国香港而成功惊险获得出线权而欢呼的时候,足协才明白过来, 8∶0 才出线,我们已经被淘汰出局。这样的数据分析能力怎有能力让中国足球拿下大力神杯?
从历史上看,中国一直不是一个靠数据化进行管理的国家,我们太多的中庸之道和模糊分辨,“好好好”、“是是是”、“差不多”,贯穿着经济和社会管理的始终,这个模式也对中国的国家统计局产生着潜移默化的影响,也直接造成了人们对国家统计机构数字的不信任。
数据分析是每个人生活与工作的基本功,小时候对父母的察言观色也是在分析,长大以后的相亲娶妻也要分析,工作中的汇报决策更需要分析,炒股理财也离不开分析。数据分析无处不在,数据分析无时不在,数据分析伴随我们生命的始终。
我们生活的世界变化是如此之快。电力引入美国 46 年后,才覆盖1/4 国民;电话花了 35 年;电视机 26 年;宽带呢?只用了 6 年。 2007年,数码世界容纳了 2810 亿 GB 的数据,全球平均每人 45GB,数码资料首次超越保存空间总量,目前, 互联网每小时处理的数据量已经超过 1EB。
要给美国国会图书馆填满逾 5700万份手稿、2900万册书籍和期刊、1200 万张照片及其他,需时 2 个世纪,现在全球每日生成的数码资料几乎是这些的 100 倍。人类 5000 年的文字记载总共是 5EB,今后每年将产生的数字内容超过 1000EB。
我们所拥有的数据量在海量暴增,我们认识世界的水平也在不断提高。大数据时代来了,我们的思维是不是也应该有所改变?