《大数据时代：生活、工作与思维的大变革》读书笔记

undefined

读后感

迈尔-舍恩伯格曾说过，世界的本质就是数据，大数据将开启一次重大的时代转型。大数据发展的核心动力来源于人类的测量、记录和分析世界的渴望。而大数据时代，从因果关系到相关关系的思维变革才是大数据的关键，建立在相关关系分析法基础上的预测才是大数据的核心。

现在大数据这个词几乎是耳熟能详了。但是到底多少个人懂什么是大数据呢？我还记得上课的时候潘峰老师说：“我每次听到那些人说大数据大数据就忍不住笑，他真的懂什么是大数据吗？他以为数据量多起来就是大数据了吗？我建议你们信管的学生可以去看一下大数据的书，别丢自己的脸。”于是，我便开始了这本书的阅读旅程。不得不说，这本书革新了我的观念，让我对大数据有了一种更加深入的认识。

在《大数据时代》这本书中列举了众多借用大数据变革的例子。核心思想都是在于没用的数据重用，抛弃追求精确度、追求因果关系，承认混杂性，探索相关性即可便可以使数据巧妙地用于激发新产品和新型服务上面来。例子很多，但无一例外都是在阐述这个道理。众多的例子都指向同一个观点，使得它的观点显得更加掷地有声，从来不会选取几个特定的情况进行案例分析，甚至久远的历史事件也可以被作者抽取出普适性的观念论证自家的观点。

在众多例子中，我就有印象的便是谷歌翻译的例子。在我们的固有印象中，一台计算机要实现对文本的分析，我们需要给他录入字典数据，但这只能给我们一种没有语法相关系的文意分析，没有潜台词的翻译。于是我们需要一些正确的训练样本，例如那些语法标准的小说名著，百科词典等等给计算机正确的例子，告诉它短语怎么组合，潜台词怎么去理解，通过大量的正确数据不停地去训练计算机，让它用一种类似于感知机的激励函数来不断提高自己翻译的准确性（这里只是人工智能的其中一种实现方法）。但是在这本书中，它告诉我们即使我们录入大量的错误数据，让计算机去理解翻译能够大幅度提高计算机翻译能力。这几乎是匪夷所思的。错误的翻译居然能提高翻译的质量？为什么？然而，当我们提出这个问题的时候，我们就又走出了大数据的思维核心，那就是不要问因果，考虑相关。我们只要知道错误的翻译能提高质量就可以了。因为你也没办法理解为什么H1N1流感和飞行记录有关和谷歌的搜索记录有关。

当然作者在文中也提到了，虽然现在的他极力反对考虑因果，那是因为我们的科学能力尚且未达到这样一个技术要求，如果某一天，我们能实现了，那可能将会又一次的思维转换。

“大数据”在近些年的确是被广泛地提及，然而“大数据”却有它的发展障碍，那就是“数据”的流动性和可获得性。特别在中国而言，大数据到底意味着什么，又会有多少人会去反抗抵制。这让我想起了在罗辑思维中，罗胖在一期关于美国政府信息透明化的政策的论述中提到过，大势所趋的事情，不管反对的浪潮是多么的激烈，历史这个缓慢的车轮，总有那些个不服输的人慢慢地拱啊拱，把这件事推到它所应该在的位置。我们现在都是惊险美国政府是多么透明，纳税人意识是多么的强。相反，我们中国是多么多的贪污腐败，然而终有一天，中国一定会实现政府的透明化，我相信，中国的大数据变革时代的到来，数据公开必定是时代所趋。当然书中提高了很多关于数据拥有权、隐私性保护等等的问题，但是那部分我都是直接略过的。因为我觉得这方面的东西并不是本书的重点所在，或者说不是我所需要去了解的。

其实大数据在很多方面可能看起来是在批判过去的数据统计分析的总总不是，然而实际不然。他说我们现在追求的不是随机样本，而是全体数据。那是因为现在我们有能力处理大量数据，而没必要去耗费大量精力来让样本更加随机，提炼出总体的全部特性；我们现在追求的是混杂性，而不是精确性。那是因为现在对于现阶段的技术来说，追求提升多一点的精确性所耗费的时间精力不如坦然接受混杂性所获得的东西更好；不要考虑因果，那是因为我们还不能处理因果，就好比你在没有物理知识的情况下去思考为什么地球自转一样。

这里摘录一下非关系型数据库的内容。非关系型数据库的出现，它不需要预先设定记录结构，它允许处理超大量五花八门的数据。Hadoop这个系统的架构，他通过把大数据编程小模块后分配给其他机器进行分析，它预设得硬件可能会瘫痪，所在在内部建立了数据的副本，它还假定数据量之大导致数据在处理之前不可能整齐排列。他没有办法胜任那些需要精确计算的任务（卫星发射），但是它能迅速对顾客人群进行分群，然后进行不同的营销活动。

这里不妨再摘录一下大数据时代所提出来的思维变革：

更多——不是随机样本，而是全体数据。 在以前，我们计算机的处理能力有限的时候，我们总会去想办法怎么在最少的数据情况下获得最多的信息呢。所以当我们学习统计学、概率论这些学科的时候，总是不免会接触到“样本”这个词语。但是在大数据时代，我们的计算机已经有能力担负起处理所有数据的时候，我们就没有必要剔除那些我们所认为的没用的数据。因为样本意味着我们可能人为地剔除了那些真实的部分。所以在全数据模式，样本=总体。
更杂——不是精确性，而是混杂性。 执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且使用与传统数据库的。如果不接受混乱，剩下95%的非矿街数据都无法被利用，只有接受不精确性，我们才能打开一扇从未涉足的世界的窗户。在我们学习数据库这门课的时候，其实老师也和我们提过，关系型数据库虽然在本阶段处于热门的地位，但是在随着时代的发展，关系型数据库将大部分数据都排除在外，不能用关系表达出来的数据都将没有办法录入，也没有办法进行统计。所以在这里，大数据时代是允许不精确的，它追求的是大量纷繁的数据，那样即使是简单的算法也能得出有效的结论。而混杂性是没有必要去避免的，相反将是我们所需要的。接受混杂可以提高效率，已达到我们要的经济目的。
更好——不是因果关系，而是相关关系。 这里其实追求的就是让数据自己“发声”，而不是我们人为地去给他下定义。这有点像古时候我们探索自然所演变出来的巫师宗教问题。（不太正确的类比）。当然其实我在前文屡次提到，相信也很容易理解了。
数据化——一切皆可“量化”。 量化一切，其实讲的就是讲数据表达给计算机听，让计算机理解这些数据的含义。
价值——“取之不尽，用之不竭”的数据创新。 数据的再利用性，重组数据，扩展数据，数据废气，开放数据，折旧值……都是在讲述怎么利用数据，充分挖掘数据的价值。
数据、技术与思维的三足鼎立。 如今，我们正处在大数据时代的早期，思维和技术是最有价值的，但是最终大部分的价值还是必须从数据本身来挖掘。

摘录

大数据是人们获得新的认知，创造新的价值的源泉；大数据还是改变市场、组织机构，以及政府与公民关系的办法。
大数据告诉我们，量变导致质变。
大数据的核心就是预测。它通常被视为人工智能的一部分，或者更确切地说，被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反，它是把数学算法运用到海量的数据上来预测事情发生的可能性的。（推荐系统，自动驾驶……）
在大数据时代，我们可以分析更多的数据，有什么甚至可以处理和某个特别现象先关的所有数据，而不再依赖于随机采样。
研究数据如此之多，以至于我们不再热衷于追求精确度。大数据纷繁多样，优劣掺杂，分布在全球多个服务器上。拥有了大数据，我们不再需要对一个现象刨根问底，只要掌握大体的发展方向即可。（只是不沉迷在精确度上）。
数据化以为着我们把一切都透明化，甚至包括很多我们以前认为和“信息”根本搭不上边的事情。例如日本车座椅。
大数据时代，危险不再是隐私泄露，而是被预知的可能性。
采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大。
随机采样取得了巨大的成功，成为现代社会、现代测量领域的主心骨。但只是一条捷径，是在不可手机和分析全部数据的情况下的选择，它本身存在许多缺陷。它的成功依赖于采样的绝对随机性，但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见，分析结果就会相去甚远。
值得注意的是，错误性并不是大数据本身固有的。它是一个缺陷，等哪天技术完善了，这个问题就不复存在。——因为现在我们增加精确性所获得的利益不如拥有更多的数据。P78