【数据思维丨主题周】从智能ABC到搜狗,探寻数据驱动的价值

管理员账号

2018-04-10

小编说:本文将介绍数据驱动在企业数据化运营和管理过程中具有怎样的价值。本文选自《数据驱动:从方法到实践》一书。

不论2008 年Google 推出的流感预测产品,还是Prada旗舰店中每件衣服上的RFID码,数据能够给社会、企业带来商业模式上的优化,以及商业自动化的突破。拥有数据分析实践能力的企业正在进行数据资产的挖掘与利用。

运用大数据首先应该解决 “思维”问题,大数据思维指的是企业在数据化运营和管理过程中运用数据的思维和方式。我们先来看两个案例。

案例1:输入法的变革——从智能ABC到搜狗

智能 ABC 是一款古老的输入法,打字很慢,每次输入完毕,还要手工翻页选词,非常麻烦。2002年左右,紫光输入法出现,当时带给我很大震撼,因为它采用了更好的词库和选词算法,让输入效率大大提升。使用时感觉按键还没按下去,字就已经跳出来了。但是其词汇更新比较滞后,往往半年才能更新一次,许多新词打不出来。

2006 年出现了一款云输入法——搜狗输入法,它直接基于搜狗的用户搜索记录和各种海量词库,词汇识别率高,词库更新快。用户平时的搜索和打字结果都会上传到搜狗服务器,基于这些数据做统计分析,就能直接识别出最可能的新词,然后更新到所有终端的词库中去。只要某个词开始流行,很快就会有许多人输入,让这个词的频率迅速变高。搜狗通过统计就能识别出来,然后更新到所有终端输入法中,用户就可以直接输入识别。

案例2:从纸质地图到百度地图的演变

地图已经存在了几千年,它讲述了人类永无止境的发现与探索旅程。如今地图不再是一张纸,人们会选择手机地图软件,如百度地图。地图软件承载了行政区、地点信息、道路名称和检索结果,原理是抓取用户的GPS信息分析人群流向与聚集情况,并从交管所等机构购买地面路况监测数据,从而对整个路况进行综合判断。同时以用户最好理解的方式搭建交互架构,每个层级上的信息都可以不断刷新,用户可以实时寻找地点、避开交通拥堵。

以上两个案例都通过数据分析与处理,带给用户截然不同的体验。随着各种前沿技术的发展,我们的思维方式已经从最直接的决策方式 —— 拍脑袋、因果驱动转化为数据驱动。直接向数据要答案,这就是大数据思维。我们获取的数据越全面,就越能消除更多的不确定性。

“大数据的本质是消除不确定性”,我第一次接触这个观点是在吴军的《硅谷之谜》一书中,当时觉得醍醐灌顶,我一直在思考究竟什么是大数据?而吴军的这句话直中要害。之后我在看《暗时间》一书时,尝试搜索信息论和不确定性的关系,发现克劳德•香农(Claude Shannon)说了这么一句话:“信息是用来消除不确定性的东西。”果然是信息论的鼻祖,一句话解释了“信息”的精髓。

我们可以把信息分成4个层次。

我们常说的数据,是信息的一种存储落地形式。比如你和朋友在交谈时,双方发生了信息传递,但是我们并没有把这些信息记录下来,也就没有形成数据。如果我们通过录音将信息录制下来,就形成了数据。数据是一类信息,而大数据又是一类数据。既然信息是消除不确定性的东西,大数据从本质上来说也是消除不确定性。

那么,什么是不确定性?

我们以天气预测作为一个例子。假如我现在让你预测某天某地的天气如何,这个时候你不掌握任何信息,只能像抛硬币一样进行猜测,也就是说你预测对的可能性是 50%。但如果我告诉你前一天是晴天,那么结果是晴天的可能性就大一些。如果我再告诉你大气云层、空气湿度、气温、风速等情况,你就能更加准确地做出预测。在这个过程中,当你掌握了更多的信息,也就消除了更多的不确定性。

再比如前面我们讲到的地图的案例。回家路上道路是不是拥堵?打开百度地图查看实时路况,就知道了答案。百度地图给你提供了信息,从而消除了这种不确定性。网站页面用蓝色背景好,还是绿色背景好?我们可以去做 A/B 测试,分析哪种背景的点击率会更高。这与百度的企业文化之一——“用数据说话”是一个道理。数据有时候也会欺骗人,但大部分时候它还是客观冷静的,不带有感情色彩。

从消除不确定性的视角来解释大数据的本质与价值,会变得直接很多。那么,数据驱动到底都有什么样的价值呢?

有些产品把数据作为运维监控的手段,比如通过日志来监控系统的性能负荷,这当然也很有价值。从提升业务的角度来看,数据驱动的价值归结为以下两点。

其一是驱动决策。通过数据来帮助拍板,包括产品改进、运营优化、营销分析和商业决策等。我们有了数据,就能判断哪些渠道转化的效果更好,哪些功能样式更加受用户欢迎。所谓数据驱动决策,就是通过数据来指导人做决定。在互联网产品中,决策包括运营监控、产品改进和商业决策三个方面。这也就是我们常说的 BI(Business Intelligence,商业智能),通过数据来支持决策。

其二是驱动产品智能。所谓智能,我把它归结为这么一种模式:我们有了一定的数据基础,然后在上面套一个算法模型,再将得到的数据结果反馈到产品中。这样,产品本身就具有了学习能力,可以不断迭代。比如个性化推荐,通过采集许多用户行为数据,在这个基础上训练用户兴趣模型,然后给用户推荐信息,再将用户的使用数据反馈到模型中,精准广告就是类似的模式。智能是一种学习能力,产品智能就是现在比较火的AI(Arti.cial Intelligence,人工智能)概念。

这两点都消除了决策的不确定性,数据驱动决策将分析结果用于人的决策使用,而数据驱动产品智能更加强调数据的处理结果是给机器来执行决策,并且这种数据分析的算法往往更加复杂,本身具有可以自我迭代的特点。不管是百度搜索引擎根据用户的点击情况自动调整排序,还是今日头条根据你看过的新闻给你推荐相关新闻,都属于这种情况。在《数据驱动:从方法到实践》一书中会重点讲解这两方面内容。

读者评论

相关专题

相关博文

  • 直方图的计算

    Jessica瑾妞 2017-02-21

    计算直方图的一般步骤如下。 (1)计算数据的最大值和最小值,得到极差,即数据的最大值减去最小值。 (2)确定直方图的组数,然后以此组数去除极差,可得到直方图每组的宽度,即组距。 (3)确定各组的界限值,分组时应把所有的数据表...

    Jessica瑾妞 2017-02-21
    111 0 0 0
  • 炎热天气看书还是钓鱼?隐马尔科夫模型教你预测!

    炎热天气看书还是钓鱼?隐马尔科夫模型教你预测!

    管理员账号 2017-02-16

    小编说:隐马尔科夫模型(Hide Markov Model)是一种概率统计模型,非常适合用于有未知条件的问题。气候变化万千,我们的行动也会因天气不同而改变,那么在不清楚天气状况的情况下,如何预测未来几天我们的行动呢?本文选自《大数据时代...

    管理员账号 2017-02-16
    103 0 0 0
  • 思维与态度

    思维与态度

    管理员账号 2017-02-09

    小编说:普通数据分析师与高级数据分析师的差异有一个非常重要的点,那就是数据思维。数据思维与数据敏感度有一些类似,都是类似于情商类的看不见摸不着的东西。简单来说数据思维是一种通过数据手段解决问题的思维。本文选自《从1开始——数据分析师成长...

    管理员账号 2017-02-09
    72 0 0 0