直到最近,word数据还不需要修饰符。但是当我们开始提到大数据的时候,我们就过了分水岭。显然,这对于某些数据块来说是不够充分的描述,因为人们已经掌握了更大胆的术语,比如巨大的数据。可悲的是,现在我们似乎已经没有合适的形容词了。但是,数据越来越大。
于是,人们不再提数据,而是开始挥挥手,含糊地谈论“云”。这似乎是一个完美的比喻——一股神秘的蒸汽悬浮在地球上,偶尔会落在下面的热接收器上。它既是不可知的,又是全知的。只要我们知道如何解读这些答案,它就回答了所有的问题。
这种演变让人想起两个形象。第一个来自当前的科学假设,即黑洞中的所有信息都存在于它周围的活动视界中。这就像云的概念,在地球之下,云的实际现实体现在服务器农场的激增上。这些农场带来了第二个形象:道格拉斯亚当斯的城市规模的超级计算机Deep think,来自经典小说(以及广播剧、电视剧和电影)《银河系漫游指南》。
考虑到这些想象中的最终状态,我想知道:这些都在哪里?数据会无限增长,还是会有一些收益递减的点?数据是否足够——或者可能太多?
有一种流行的说法是“数据是新的石油。”虽然我认为这是一个不完美的比喻,但石油和数据都需要提炼才能有用。我注意到TS艾略特的诗《摇滚》中描述的信息金字塔:“我们迷失在知识中的智慧在哪里?/我们在信息中丢失的知识在哪里?”
为了我们讨论的目的,假设数据由1和0组成,信息是由数据编码的文字和图像,知识是我们从这些信息中收集或学习的东西。关键的提炼是在信息和知识之间。在精炼油中,有用的最终产品与初始原油量的比率不是原油量的函数。信息不是这样的:我们要处理的原始信息越多,我们希望每比特产生的知识就越少。否则,随着数据的不断增长,大数据也不会压倒我们。我们要的是从大国那里得到的小知识信息。随着数据集变大,工作变得更加困难。然而,问题是,除非大信息足够大,否则它可能不包含我们要搜索的小信号。
知识不可避免地会增加,所以数据必须增加得更快。幸运的是,存储技术似乎可以在不将地球变成巨型磁盘驱动器的情况下应对,但迫切需要人工智能和算法将数据转化为知识。自从克劳德香农在1948年写了他的经典信息论论文[PDF]以来,我们已经走过了漫长的道路。我们可以简单地忽略知识问题,写道:“这些信息通常是有意义的.这种交流的语义方面与工程问题无关。”
我还注意到,抽屉、壁橱和硬盘最终往往会被无用的垃圾填满。我有时把这归咎于热力学第二定律,该定律表明熵——也就是无序——总是增加的。也许这最终会成为云的真实情况。旧的无用的信息积累起来,清除起来工作量太大。另外,谁说什么没用,什么没用?什么都有,但是什么都太多了。熵最大化,就像莎士比亚说的,数据最终变得充满声音和愤怒,没有任何意义。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!