10

文 / 车品觉

如今,90%的数据分析师都在谈大数据,在大数据的背景之下,数据分析师收集数据的边界在哪里?又该如何运用数据呢?作者在美国参加Strata 2012大会期间,跟很多数据中人交流,其中前LinkedIn首席科学家DJ Patil给他的印象最深。

对话:先有需求,后有数据

车品觉:我有一个问题一直很困惑,现在的企业获取数据很容易,并且数据的增长速度非常之快,那么对于公司来说,到底要收集什么数据呢?收集多少数据?收集数据的边界在哪里?

Patil:过去收集数据很难,而现在获取数据资源比较容易。如果收集数据的出发点,不是为了解决问题,那么收集数据的量也太大了。

车品觉:可是许多公司认为,现在收集数据不难,成本也不高,为什么不先收集数据再说呢?等以后需要数据来解决问题时再拿出来用也可以啊。

Patil:千万别这么想,用这样的理念来设计数据产品肯定会失败的。数据是没有边界的,我为此也痛苦了好一段日子。比如收集一个人的生日,可以精确到几分几秒,但怎么用却不知道,那么这个数据就没有什么用。

车品觉:实际上,数据也是有生命周期的,比如从中国身份证号码是可以推断出性别的,但过几年如果这个规则变了,那么这个数据的基础就发生了改变,导致我们基于数据所做的假设和决策依据也就失去了意义(Data Broken)。并且,保存数据及其收集时的背景也不是一件容易的事情。所以说,在收集数据的同时,我们必须知道数据是用来做什么的,今天都想不出来,日后就更不容易想出来了。

打个比方,今天很多电商老板会问重复购买率是多少,于是我们收集数据来计算重复购买率,却很少想到需要重复购买率来做什么决定。“刻舟求剑”的故事告诉我们的是世事在变,我们不能只是机械地套用方法或指标。就像重复购买率有不同的定义,而做不同的决策需要不同定义的重复购买率。如果A公司想收购B公司,那么关注的重复购买率可能细致到3个月内,购买一次的用户比例是多少,购买2~3次的用户比例是多少,3~4次的用户比例又是多少。如果A公司只是衡量自己的运营,可能它更关注的是日、周级别的重复购买率的变化趋势,或者当月新增客户有多少人是重复购买的,从而可以衡量每个月新增客户的最终忠诚度和质量。

数据应用因小而美

我在做数据应用的这段时间,曾经特别为收集什么样的数据而烦恼。当时我想做一个特别大的数据应用出来,适合大多数人使用,可后来发现这在起步阶段几乎是不可能的。一是可以解决大部分人需求的数据应用根本就不存在,二是支付宝的数据非常丰富,需要考虑的因素很多,因素之间的联系又很复杂。

所以我总结,当做数据应用时,数据就等于原材料,当原材料一直处于变化的情况下,做出来的应用也有问题。体会数据和应用的关系之后,我决定从小角度切入,先做出小应用来。

这里说的“小”指的是应用的目标很具体。打个比方来说,对于一款数据应用,如果我的目的是分辨两种决策谁更好,差异在哪里,是很具体的问题。但如果我的目标是想知道如何让公司赢利,就是一个空泛的目标。

还请注意,“小”不是指数据量。许多人在没有获取足够数据,并且缺乏对数据理解的情况下做判断,其实是在享受自己的无知。

经过一番周折,我选择了按照小角度切入的想法设计数据应用,小角度切入设计应用可以做到具体和快速,而且可以避免因原材料的变化而导致的问题。

这次到美国来也有所感触,现在许多美国数据分析师都在谈空军打仗时采用的分析模型OODA(观察-调节-决策-行动),由于空军打仗强调快速决定,所以这个模型也特别适合今天互联网的需求。这个模型的核心思想就是快速出击,而对于今天的互联网公司来说,发展速度太快了,而数据分析师也必须在快速的发展环境中,迅速找出解决方案。

这个模式完全体现了互联网的快速找错、迅速调节的需要。快速实现原型,对于从来没有用过数据解决问题的互联网公司来说,从小角度切入才更加实际。大数据的背景之下,数据不仅量多,而且种类多。起步阶段,如果不从小角度切入,很难做出实用的产品和看得见的成绩。

把数据放进“框架”之中

这说到了另外一个话题,在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,实际中,选择处在两个极端的数据往往更容易找出它们之间的联系,把它们放在一个框架中看才能发现问题。

举例来说,我曾经研究美国有哪些网站值得我们学习。依靠数据寻找美国的互联网应用黑马,便是从问题的角度出发。在各种数据中,我选择了 “访问量”和“停留时间” 这两个往往此消彼长的数据作为帮助我决策的框架。利用这个框架,我在2010年就发现了Pinterest,远早于国内对它进行模仿的应用。

因此,关于如何在大数据的背景下,利用数据做决策,我总结了四步走的方法:

第一,从解决问题的角度出发收集数据;

第二,把收集的数据整理好,放入一个框架内,并利用这个框架帮助决策者做出决定;

第三,评估决定与行动的效果,这将告诉我们框架是否合理;

第四,如果有新的数据出现,我们将考察能否利用它对前面三步做出改进,以及我们今天是否还需要收集更多种类的数据。

 

作者车品觉,支付宝首席商业智能官。中国香港人,曾在英美澳等地接受西方教育,清华及INSEAD双硕士学位,加入支付宝前曾在敦煌网担任首席产品官。

 

本文选自《程序员》杂志2012年04期,未经允许不得转载。如需转载请联系 market@csdn.net

《程序员》2012年杂志订阅送好礼活动火热进行中

转播到腾讯微博

----->立刻申请加入《程序员》杂志读者俱乐部,与杂志编辑直接交流,参与选题,优先投稿

请评论

preload preload preload
京ICP备06065162