首页手记【我读《Big Data》】大数据时代的思维变革

【我读《Big Data》】大数据时代的思维变革

标签：

大数据

正文之前

大数据是个很玄乎的东西，如果体系成熟，那么基本会波及到生活中的方方面面。只要能够获取数据，那么其他的过程基本只要算法模型得当，成本相当之低，但是如果能够找到几个事务之间的相关性，然后善加利用，获取的利益可能远远超过前期的投入！如果要主动地去接触大数据，那么以下三个观念可能对你至关重要。

首先，要分析与某事物相关的所有数据，而不是依靠分析少量的数据样本。
其次，我们乐于接受数据的纷繁复杂，而不再追求精确性。
最后，我们的思想发生了转变，不再探求难以捉摸的因果关系，转而关注事物的相关关系。

正文

一、更多：不是随机样本，而是全体数据

1、大数据时代的来临，频率说话

“大数据”全在于发现和理解信息内容及信息与信息之间的关系，然而直到最近，我们对此似乎还是难以把握。IBM的资深“大数据”专家杰夫·乔纳斯(Jeff Jonas)提出要让数据“说话”。从某种层面上来说，这听起来很平常。人们使用数据已经有相当长一段时间了，无论是日常进行的大量非正式观察，还是过去几个世纪里在专业层面上用高级算法进行的量化研究，都与数据有关。

在数字化时代，数据处理变得更加容易、更加快速，人们能够在瞬间处理成千上万的数据。但当我们谈论能“说话”的数据时，我们指的远远不止这些。利用所有的数据，而不再仅仅依靠一小部分数据。

很长一段时间以来，准确分析大量数据对我们而言都是一种挑战。过去，因为记录、储存和分析数据的工具不够好，我们只能收集少量数据进行分析，这让我们一度很苦恼。为了让分析变得简单，我们会把数据量缩减到最少。这是一种无意识的自省:我们把与数据交流的困难看成是自然的，而没有意识到这只是当时技术条件下的一种人为的限制。如今，技术条件已经有了非常大的提高，虽然人类可以处理的数据依然是有限的，也永远是有限的，但是我们可以处理的数据量已经大大地增加，而且未来会越来越多。这也就是我们学习概率论的时候为何总要把概率论和统计学放在一起，因为当时的统计学基本都是在小数据的基础上建立的，自然也就存在了概率论一说，还记得当初才学概率论的时候，一个频率，一个概率的说法吗？还记得差别么？那时候我们对频率不屑一顾，往往频率都是出一些简单的直方图表格让你去找频率，概率就涉及各种排列组合，可见频率的地位远远地低于概率。但是，大数据时代的来临，我们的数据足够了。不需要抽样调查了。不需要考虑那么多的复杂的抽样特性了。所有的不稳定因素在大数据的恐怖基数下都被磨灭的差不多了，只留下一点点微微的起伏表彰着自己存在过的痕迹！！

2、全数据模式，样本=总体

采样一直有一个被我们广泛承认却又总有意避开的缺陷，现在这个缺陷越来越难以忽视了。采样忽视了细节考察。虽然我们别无选择，只能利用采样分析法来进行考察，但是在很多领域，从收集部分数据到收集尽可能多的数据的转变已经发生了。如果可能的话，我们会收集所有的数据，即“样本=总体”。

正如我们所看到的，“样本=总体”是指我们能对数据进行深度探讨，而采样几乎无法达到这样的效果。用采样的方法分析情况，正确率可达 97%。对于某些事物来说，3%的错误率是可以接受的。但是你无法得到一些微观细节的信息，甚至还会失去对某些特定子类别进行进一步研究的能力。我们不能满足于正态分布一般中庸平凡的景象。生活中真正有趣的事情经常藏匿在细节之中，而采样分析法却无法捕捉到这些细节。

数据科学家列维特和他的同事马克·达根(Mark Duggan)使用了11年中超过64000场摔跤比赛的记录，来寻找异常性。他们获得了重大的发现。非法操纵比赛结果的情况确实时有发生，但是不会出现在大家很关注的比赛上。冠军赛也有可能被操纵，但是数据显示消极比赛主要还是出现在不太被关注的联赛的后几场中。这时基本上没有什么风险，因为很多选手根本就没有获奖的希望。

相扑比赛的一个比较特殊的地方是，选手需要在15场赛事中的大部分场次取得胜利才能保持排名和收入。这样一来就会出现利益不对称的问题。当一名7胜7负的摔跤手碰到一个8胜6负的对手时，比赛结果对第一个选手来说极其重要，对他的对手而言则没有那么重要。列维特和达根发现，在这样的情况下，需要赢的那个选手很可能会赢。这看起来像是对手送的“礼物”，因为在联系紧密的相扑界，帮别人一把就是给自己留了一条后路。

二、更杂:不是精确性，而是混杂性

1、允许不精确

对“小数据”而言，最基本、最重要的要求就是减少错误，保证质量。因为收集的信息量比较少，所以我们必须确保记录下来的数据尽量精确。无论是确定天体的位置还是观测显微镜下物体的大小，为了使结果更加准确，很多科学家都致力于优化测量的工具。在采样的时候，对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大，甚至有可能影响整个结果的准确性。

然而，在不断涌现的新情况里，允许不精确的出现已经成为一个新的亮点，而非缺点。因为放松了容错的标准，人们掌握的数据也多了起来，还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了，而是大量数据创造了更好的结果。

正如前面所说：大数据时代，我们允许那些不精确的数据进入我们的视野，因为再大的个体偏差都会在大数据的恐怖基数下磨灭，成为折线图上一个小小的齿形波动，当然，允许不精确不意味着允许错误，在普遍都是1-100的数据中冒出来一个100000的数据当然是不被允许的。这就是不是不精确而是错误了。

2、大数据的简单算法比小数据的复杂算法好

以自然语言的识别为例：当数据只有500万的时候，有一种简单的算法表现得很差，但当数据达10亿的时候，它变成了表现最好的，准确率从原来的75%提高到了95%以上。与之相反地，在少量数据情况下运行得最好的算法，当加入更多的数据时，也会像其他的算法一样有所提高，但是却变成了在大量数据条件下运行得最不好的。它的准确率会从86%提高到94%。

所以，数据多比少好，更多数据比算法系统更智能还要重要。那么，混乱呢？

2006年，谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源，并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库，也就是全球的互联网，而不再只利用两种语言之间的文本翻译。

谷歌翻译系统为了训练计算机，会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档，还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本。

它甚至会吸收速读项目中的书籍翻译。谷歌翻译部的负责人弗朗兹·奥齐(Franz Och)是机器翻译界的权威，他指出，“谷歌的翻译系统不会像Candide一样只是仔细地翻译300万句话，它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。”不考虑翻译质量的话，上万亿的语料库就相当于950亿句英语。

尽管其输入源很混乱，但较其他翻译系统而言，谷歌的翻译质量相对而言还是最好的，而且可翻译的内容更多。到2012年年中，谷歌数据库涵盖了60多种语言，甚至能够接受14种语言的语音输入，并有很流利的对等翻译。之所以能做到这些，是因为它将语言视为能够判别可能性的数据，而不是语言本身。如果要将印度语译成加泰罗尼亚语，谷歌就会把英语作为中介语言。因为在翻译的时候它能适当增减词汇，所以谷歌的翻译比其他系统的翻译灵活很多。说句实话，谷歌翻译的开发团队中，没有人会说谷歌翻译能翻译的那些语言的人。

3、纷繁的数据越多越好

有时候，当我们掌握了大量新型数据时，精确性就不那么重要了，我们同样可以掌握事情的发展趋势。大数据不仅让我们不再期待精确性，也让我们无法实现精确性。然而，除了一开始会与我们的直觉相矛盾之外，接受数据的不精确和不完美，我们反而能够更好地进行预测，也能够更好地理解这个世界。

4、混杂性，不是竭力避免，而是标准途径

互联网上最火的网址都表明，它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时，可以看到有多少其他人也在点击。当数量不多时，会显示像“63”这种精确的数字。当数量很大时，则只会显示近似值，比方说“4000”。这并不代表系统不知道正确的数据是多少，只是当数量规模变大的时候，确切的数量已经不那么重要了。另外，数据更新得非常快，甚至在刚刚显示出来的时候可能就已经过时了。所以，同样的原理适用于时间的显示。谷歌的Gmail邮箱会确切标注在很短时间内收到的信件，比方说“11分钟之前”。但是，对于已经收到一段时间的信件，则会标注如“两个小时之前”这种不太确切的时间信息。

要想获得大规模数据带来的好处，混乱应该是一种标准途径，而不应该是竭力避免的。

三、更好:不是因果关系，而是相关关系

1、知道“是什么”就够了，没必要知道“为什么”。在大数据时代，我们不必非得知道现象背后的原因，而是要让数据自己“发声”。

知道人们为什么对这些信息感兴趣可能是有用的，但这个问题目前并不是很重要。但是，知道“是什么”可以创造点击率，这种洞察力足以重塑很多行业，不仅仅只是电子商务。所有行业中的销售人员早就被告知，他们需要了解是什么让客户做出了选择，要把握客户做决定背后的真正原因，因此专业技能和多年的经验受到高度重视。大数据却显示，还有另外一个在某些方面更有用的方法。亚马逊的推荐系统梳理出了有趣的相关关系，但不知道背后的原因。知道是什么就够了，没必要知道为什么。

上面的这种观点被我抨击好久了。因为这个明显有点不太对经啊。有些时候我们要透过现象看本质，但是按照作者的表述：我们停留在表面就ok？不存在的，任何一个东西，都会有其因果存在，如果不需要知道因果，停留于表层应用便足够的话，那么确实大数据的相关关系更加重要，不过不能全盘否定啊。让数据发声是美好的，但是有时候要动脑子啊！！数据自己又没有脑子。

2、关联物，预测的关键

相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时，另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系，比如谷歌流感趋势:在一个特定的地理位置，越多的人通过谷歌搜索特定的词条，该地区就有更多的人患了流感。

相反，相关关系弱就意味着当一个数据值增加时，另一个数据值几乎不会发生变化。例如，我们可以寻找关于个人的鞋码和幸福的相关关系，但会发现它们几乎扯不上什么关系。

建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高，以至于我们经常忽略了它的创新性。当然，它的应用会越来越多。

对于零售商来说，知道一个顾客是否怀孕是非常重要的。因为这是一对夫妻改变消费观念的开始，也是一对夫妻生活的分水岭。他们会开始光顾以前不会去的商店，渐渐对新的品牌建立忠诚。塔吉特公司的市场专员们向分析部求助，看是否有什么办法
能够通过一个人的购物方式发现她是否怀孕。

公司的分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录。塔吉特公司注意到，登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后，她们会买一些营养品，比如镁、钙、锌。公司最终找出了大概20多种关联物，这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期，这样就能够在孕期的每个阶段给客户寄送相应的优惠券，这才是塔吉特公司的目的。杜西格在《习惯的力量》(The Power of Habit)一书中讲到了接下来发生的事情。一天，一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店，要求经理出来见他。他气愤地说:“我女儿还是高中生，你们却给她邮寄婴儿服和婴儿床的优惠券，你们是在鼓励她怀孕吗?”而当几天后，经理打电话向这个男人致歉时，这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了，她的预产期是8月份，是我完全没有意识到这个事情的发生，应该说抱歉的人是我。”

从上面这个有趣的小例子我们可以看出来相关联系的重要性，这也是预测的核心，如果没有相关的事务进行辅助的预测，那么单凭一个现象是无法解决准确率的问题的！

3、大数据，改变人类探索世界的方法

在小数据时代，我们会假想世界是怎么运作的，然后通过收集和分析数据来验证这种假想。在不久的将来，我们会在大数据的指导下探索世界，不再受限于各种假想。我们的研究始于数据，也因为数据我们发现了以前不曾发现的联系。

假想通常来自自然理论或社会科学，它们也是帮助我们解释和预测周遭世界的基础。随着由假想时代到数据时代的过渡，我们也很可能认为我们不再需要理论了。

我对上面这种说法很不喜欢，科学是一个探索的过程，如果由数据包办我们的研究实验，那么毫无疑问是在限制我们人类远远优于其他物种的地方，那就是我们天马行空的想象力，我们可以根据事务的结果进行逆向分析，从而得到各种各样的假想，各种的科学理论，然后一步步做实验证明它，大数据在我看来就是一个工具而已。好比孟德尔实验，如果不是孟德尔的发现与假设，怎么可能会有分离定律？难道给植物测定形状么？那么多植物，做这么多传感器不是浪费么？当然，有大数据的话确实很方便，好比孟德尔定律的发现过程，我们如果在数据库中早就有了各个亲代子代的数据，那么孟德尔可能从假设到证明也就几分钟的事情。